Manual de Muestreo

139
Muestreo 1 CURSO-TALLER TECNICAS DE DISEÑO Y DESARROLLO DE ENCUENTAS MUESTREO Octubre de 2009

description

estadistica

Transcript of Manual de Muestreo

TABLA DE CONTENIDO

Muestreo1

CURSO-TALLER

TECNICAS DE DISEO Y DESARROLLO DE ENCUENTAS

MUESTREO

Octubre de 2009

TABLA DE CONTENIDO

31. CONCEPTOS GENERALES

31.1 LOS DATOS, LA INFORMACIN Y LA INFORMACIN ESTADSTICA

31.2 ALTERNATIVAS PARA LA CONSECUCIN DE DATOS. CENSOS, ENCUESTAS Y REGISTROS

31.2.1 El censo

31.2.2 La encuesta por muestreo

31.2.3 Los registros. El uso de informacin secundaria

31.3 LA ENCUESTA POR MUESTREO

31.3.1 Componentes de una encuesta por muestreo

31.4 EL MUESTREO. GENERALIDADES

31.4.1 Muestreo probabilstico

31.4.2 Muestreo no probabilstico

31.4.3 Formulacin de un plan muestral

31.4.4 La poblacin objetivo y la poblacin observable

31.4.5 El Marco de muestreo y la informacin auxiliar

31.4.6 Imperfecciones del Marco de muestreo

31.4.7 El tamao de muestra

32.MUESTREO ALEATORIO SIMPLE Y MUESTREO SISTEMTICO

32.1 MUESTREO ALEATORIO SIMPLE - MAS

32.1.1 Precisin en el MAS

32.1.2 Efecto de diseo

32.2 MUESTREO SISTEMTICO

32.2.1 Sistemtico con ms de una rplica

32.2.2 Control del tamao de muestra

33.MUESTREO CON PROBABILIDAD PROPORCIONAL AL TAMAO

33.1 Proporcional al tamao con reemplazamiento - PPT

34.MUESTREO ESTRATIFICADO

34.1 Cantidad de estratos y delimitacin

34.1.1 Mtodo Raz cum de f (Dalenius y Hodges)

34.2 Asignacin del tamao de muestra

34.2.1 Asignacin proporcional

34.2.2 Asignacin de Neyman

34.2.3 Asignacin X-proporcional

34.2.4 Asignacin de potencia

35.MUESTREO DE CONGLOMERADOS Y MUESTREO MULTIETPICO

35.1 MUESTREO DE CONGLOMERADOS

35.1.1 Probabilidades de inclusin del muestreo de conglomerados

35.1.2 Eficiencia del muestreo de conglomerados

35.2 MUESTREO MULTIETPICO

35.2.1 Probabilidades de inclusin del muestreo multietpico

35.2.2 Eficiencia del muestreo multietpico

36.PROCEDIMIENTOS DE ESTIMACIN

36.1 Principios generales del proceso de estimacin

36.2 Estimacin de algunos parmetros frecuentes

36.2.1 Totales

36.2.2 Promedios

36.2.3 Proporciones

36.2.4 Razones

36.3 Estimacin en diseos estratificados, de conglomerados y multietpicos

36.4 Estimacin de dominios de estudio

36.5 Ajuste de factores de expansin

36.6 Otros mtodos de estimacin

37.ESTIMACIN DE VARIANZA Y ERRORES DE MUESTREO

37.1 La precisin y la estimacin de varianza

37.1.1 Principios generales de la estimacin de varianza

37.1.2 Estimacin de varianza para totales

37.1.3 Estimacin de varianza para razones

37.1.4 Estimacin de varianza en diseos estratificados, de conglomerados y multietpicos

37.1.5 Otros mtodos de estimacin de varianza

7.2 La validez y el sesgo8938. ERRORES NO MUESTRALES: FUENTES Y CONTROL

38.1 Tipos de errores no muestrales

38.1.1 Problemas de cobertura del marco de muestreo

38.1.2 Problemas con la ubicacin de las unidades seleccionadas

38.1.3 No respuesta total por rechazo

38.1.4 Respuesta deficiente

38.1.5 Errores en la captura de datos

38.1.6 Errores en la crtica, codificacin, consistencia e imputacin

38.1.7 Errores en la generacin de estimaciones

3BIBLIOGRAFIA

1. CONCEPTOS GENERALES1.1. LOS DATOS, LA INFORMACIN Y LA INFORMACIN ESTADSTICA

La sociedad cambiante de hoy en da plantea grandes retos para la toma de decisiones tanto en la esfera pblica como en la privada, en los entornos social y econmico; tener acceso a informacin relevante, precisa y oportuna es indispensable para tomar las decisiones ms acertadas. La informacin debe hacer referencia a una poblacin y momento y tener un marco de anlisis temtico. En la prctica, se habla de datos, de informacin y de informacin estadstica. Los datos son representaciones de entidades que recogen algunas de sus caractersticas en valores numricos, alfabticos, alfanumricos, etc., y constituyen la materia prima para la generacin de informacin. En este mismo sentido, se entiende por informacin el resultado de un proceso de organizacin, clasificacin e interpretacin de los datos en un marco de trabajo que permite darle un sentido a lo que se observa. En general, la informacin estadstica es aquella que se obtiene a partir del resumen y anlisis de datos numricos utilizando herramientas matemticas. 1.2. ALTERNATIVAS PARA LA CONSECUCIN DE DATOS. CENSOS, ENCUESTAS Y REGISTROS Frente a la necesidad de obtener informacin sobre un tema especfico, es posible emprender un proceso de recoleccin de datos o utilizar datos que ya hayan sido recogidos y estn disponibles para su uso; en el primer caso puede llevarse a cabo un censo o una encuesta y en el segundo, puede hacerse uso de registros.1.2.1 El censoEs la recoleccin de datos para todas las unidades que conforman la poblacin de inters. Ejemplos:

Censos de poblacin y vivienda en cada uno de los pases: son la fuente de informacin demogrfica ms detallada con que cuenta un pas y en muchos casos constituyen la nica informacin existente para la planeacin de polticas en pequeas localidades o reas apartadas. Se recomienda su recoleccin en forma peridica cada 10 aos como mximo. Censos econmicos: son utilizados para hacer diagnstico de las caractersticas econmicas de los establecimientos productivos en el pas, en trminos de su actividad econmica y su tamao personas ocupadas e ingresos. Tambin se aprovechan para construir listados de empresas y establecimientos que sirven como marco de muestreo de las encuestas econmicas peridicas. Ventajas: Es posible desagregar la informacin recolectada de diversas formas, incluso para clasificaciones detalladas, grupos poblacionales o reas geogrficas pequeas. Por esta razn es particularmente til cuando se desea hacer estudios de fenmenos de baja incidencia. Facilita la interpretacin espacial de los datos, an sobre reas recientemente delimitadas

Como se recolecta informacin para todos los elementos de la poblacin, no es necesario utilizar elementos estadsticos adicionales con lo que la generacin de resultados y su interpretacin se hace ms sencilla.

Desventajas: Para poblaciones de mediano o gran tamao, el levantamiento de informacin a travs de un censo es muy costoso y toma bastante tiempo Por tratarse de un proyecto de gran complejidad administrativa, es difcil mantener un buen nivel de control en todas las etapas del proceso y en todas las zonas a recorrer.

1.2.2 La encuesta por muestreoEs la recoleccin de datos para una parte de las unidades que conforman la poblacin de inters, esta parte se denomina muestra. Dependiendo de los criterios utilizados para elegir las unidades que se estudiarn, la muestra se conoce como probabilstica o no probabilsticaEjemplos: Encuestas de empleo y fuerza laboral: Se recolectan datos en una muestra de hogares para la estimacin de los principales indicadores del mercado laboral: PEA, TGP, Ocupacin, Desocupacin. GEIH-Colombia, EPE-Per, Encuesta Nacional de Empleo, Desempleo y Subempleo-Ecuador entre otras. Encuestas para ndices de precios: En forma peridica, indagan en una muestra de establecimientos de comercio los precios de una canasta de artculos previamente establecida. Encuestas a establecimientos econmicos y empresas: Investigan en muestras de establecimientos econmicos de los distintos sectores (comercio, servicios, industria) caractersticas de la produccin, ventas, consumo de materias primas, personal ocupado, activos, etc.Ventajas:

Una encuesta es ms econmica y consume menos tiempo que un censo, tanto en la recoleccin como en el procesamiento de datos.

Por tratarse de un proyecto de menor escala que un censo desde el punto de vista operativo, es ms fcil tener un adecuado control de todos los procesos y velar por su calidad. La molestia a los informantes es menor por cuanto solamente se entrevista a un nmero reducido de unidades. Dependiendo del mecanismo utilizado para elegir las unidades sobre las que se recolectan datos, es posible obtener estimaciones de los niveles de precisin alcanzados.

Es til para responder a necesidades de informacin especficas o para hacer estudios en profundidad.

Desventajas:

Salvo que hayan sido planeadas de antemano, en general no es posible hacer desagregaciones precisas de informacin para pequeos grupos poblacionales, reas pequeas o clasificaciones exhaustivas. Existe una variabilidad natural introducida por la seleccin de algunos elementos para su estudio y no de toda la poblacin; esto afecta la precisin de los resultados. 1.2.3 Los registros. El uso de informacin secundariaLos registros, tambin denominados registros administrativos, son conjuntos de datos recolectados por otras entidades como parte de sus tareas habituales, que pueden ser utilizados solos o en combinacin con censos o encuestas para generar informacin sobre un fenmeno. Ejemplos: Registros de Nacimientos y Defunciones, matrimonios, etc. Usualmente son llevados por los Institutos de Estadstica o las Oficinas de Registro. Registros de salud: Usualmente incluyen datos sobre admisin en hospitales, enfermedades padecidas, costos en el sistema de salud, etc. Son recopilados por las Superintendencias, Ministerios o Secretaras de salud. Registros de educacin: Generalmente cuentan con datos sobre volmenes de estudiantes matriculados, asistentes, desercin, repitencia, etc. Estn a cargo de las Superintendencias, Ministerios o Secretaras de Educacin.

Registros de importaciones y exportaciones: Cuentan con informacin de volmenes y valores de los productos que se importan y exportan en un pas, tambin se registran las empresas que los producen o compran y los pases de destino. Son mantenidos por las superintendencias o departamentos de aduanas nacionales

Registros de migracin: Tiene informacin sobre la cantidad y caractersticas de las personas que ingresan y salen del pas, usualmente son llevados por las oficinas de inmigracin nacionales.

Estadsticas de consumo de agua potable, energa elctrica, otros. Bolivia. El INE lleva a cabo el anlisis estadstico a partir de los registros proporcionados por las empresas prestadoras de estos servicios.

Estadsticas ambientales. Per. El INE se encarga de dar un diagnstico mensual de calidad del aire, agua y disposicin de residuos slidos entre otros temas, en Lima metropolitana y el total nacional combinando registros de entidades como la Direccin General de Salud Ambiental DIGESA, el Servicio de agua potable y alcantarillado de Lima SEDAPAL, la municipalidad metropolitana de Lima, el Servicio Nacional de Meteorologa e Hidrologa SENAMHI, el Instituto Nacional de Defensa Civil INDECI y las empresas prestadoras del servicio de saneamiento.

Ventajas:

En general se trata de informacin que ha sido reportada por todos los elementos de la poblacin con lo que, como en el caso de un censo, no existe una variabilidad atribuible al uso de mtodos estadsticos para la recoleccin de datos. Los datos obtenidos por esta va pueden ser utilizados para efectuar anlisis de tendencias porque se cuenta con reportes peridicos

No se requiere la realizacin de un operativo especial para la recoleccin de datos lo que reduce los costos, el tiempo necesario y minimiza la molestia a los informantes.

Desventajas:

Como se trata de datos que han sido recolectados con fines distintos a la investigacin, es posible que los conceptos y definiciones no se adapten completamente a necesidades especficas. Problemas de cobertura, calidad o actualizacin de los registros pueden hacer que los datos sean intiles para fines de investigacin.

Cuando se utilizan los registros para hacer anlisis en el tiempo, es necesario considerar que algunas definiciones o conceptos pueden haber evolucionado en el registro a lo largo del tiempo.

Dependiendo de las entidades responsables de los registros, es posible que algunos se encuentren protegidos por leyes de privacidad que imposibiliten su uso.

Los archivos que contienen los datos de un registro pueden haber cambiado en estructura y estar deficientemente documentados.

1.3. LA ENCUESTA POR MUESTREO

Una encuesta por muestreo es una investigacin que se lleva a cabo con el objetivo de generar informacin acerca de algunas caractersticas de inters de una poblacin determinada, en la que se recolecta informacin de algunos elementos de la poblacin usando conceptos, mtodos y procedimientos bien definidos. A partir del objetivo de la encuesta, se habla de encuestas de tipo descriptivo cuando se pretende estimar parmetros que describan ciertos atributos o caractersticas de la poblacin y, se habla de encuestas de tipo analtico cuando la finalidad es la exploracin de relaciones entre estas caractersticas, su explicacin o llevar a cabo pruebas de hiptesis estadsticas. Como parte del vocabulario comn de la encuesta, se definen las siguientes unidades:

Unidad de muestreo: Es la unidad que se utiliza para la seleccin de muestra. En algunos casos, denominados multietpicos, es posible contar con ms de una unidad de muestreo. Unidad de anlisis: Es la unidad hacia la que se hace inferencia

Unidad informante: Es la unidad que suministra la informacin

Unidad de referencia: Es la unidad acerca de la que se indaga informacin. Los casos en que la unidad informante y la de referencia coinciden se llaman de informante directo.

Ejemplos:

1. Encuesta de ingresos y gastos.

Propsito: Producir informacin peridica de las caractersticas de las viviendas, hogares y personas y de las estructuras de ingreso y gasto de los hogares.Unidad de muestreo: Hogares particulares que residen en una unidad de vivienda.Unidades de anlisis: Dependiendo del tipo de informacin que se analice, viviendas, hogares, miembros del hogar, perceptores de ingreso, entre otras.Unidad Informante: Para las caractersticas de vivienda, hogar y persona, miembros del hogar, mayores de 18 aos y parientes del jefe de hogar. Para las variables de ingreso y gasto, jefe del hogar.Unidad de referencia: Dependiendo de las variables que se indaguen corresponde a la unidad de vivienda, el hogar, o miembro del hogar. Para lo correspondiente a gastos, la unidad de gasto.1.3.1 Componentes de una encuesta por muestreo

Poblacin objetivo: Es la poblacin sobre la que se desea obtener la informacin, sobre quien se quieren sacar conclusiones; est compuesta por unidades que comparten alguna caracterstica, tienen una localizacin geogrfica y un tiempo como periodo de referencia. Ejemplo: todas las personas que habitan en viviendas privadas en la ciudad de Lima Metropolitana durante el periodo 1 a 30 de septiembre de 2008. Caractersticas a estudiar: Son los parmetros que se quiere estimar y las variables con las que se construyen. Corresponden a caractersticas medibles de la poblacin y se expresan generalmente en trminos de totales, promedios o porcentajes. Ejemplos: total de personas mayores de cinco aos, promedio de ingresos de los hogares que habitan en el departamento, porcentaje de jefes de hogar con sexo femenino.

Grfico 1. Organizacin de una encuesta por muestreo

Sistema de observacin y medicin: Est conformado por las reglas con base en las cuales se observarn, medirn y registrarn las caractersticas a estudiar.

Muestra: Est constituida por las unidades de la poblacin que han sido elegidos para ser observados. Sistema de recoleccin de informacin: Establece los procedimientos necesarios para obtener los datos de las unidades seleccionadas como muestra. Contempla los requerimientos de recursos fsicos, econmicos y humanos para el levantamiento de informacin Sistema de generacin de resultados: Corresponde al conjunto de reglas establecidas para el procesamiento de los datos y la estimacin de los parmetros de inters. Sistema de monitoreo y control: Se compone de indicadores que se monitorean para mantener la calidad en todos los procesos de la encuesta.1.4. EL MUESTREO. GENERALIDADES

El muestreo es un conjunto de tcnicas que permite elegir una porcin de elementos de la poblacin objetivo, denominada muestra, para su estudio. Entre varias alternativas para la seleccin de los elementos a encuestar, se prefiere aquella que:

1. Permita utilizar los resultados obtenidos para sacar conclusiones de toda la poblacin de elementos, conformada por los que fueron encuestados y los que no2. Sea lo ms precisa posible para un costo, tiempo y restricciones operacionales dadas

3. Proporcione indicadores de la precisin de los estimadores utilizados, como medida de su calidad

En funcin de los criterios utilizados para llevar a cabo la seleccin de elementos y las capacidades de inferencia a la poblacin, el mecanismo de muestreo se conoce como probabilstico o no probabilstico. 1.4.1 Muestreo probabilstico

Es aquel en donde se determina la composicin de la muestra utilizando procedimientos aleatorios y se garantiza a todos los elementos de la poblacin una probabilidad calculable y mayor que cero de ser seleccionados. Esta probabilidad es utilizada en el clculo de las estimaciones para los parmetros de inters. Ventajas

Permite extrapolar las conclusiones obtenidas a partir de la muestra al total de la poblacin a la que sta pertenece, utilizando las reglas de inferencia estadstica.

Es posible obtener una aproximacin al nivel de precisin de los estimadores utilizados, como medida de su calidad. Desventajas

Usualmente representa mayor complejidad, un mayor consumo de tiempo y un mayor costo que el muestreo no probabilstico1.4.2 Muestreo no probabilstico

En el muestreo no probabilstico se supone que los elementos de la poblacin son tan parecidos con respecto al fenmeno que se estudia, que cualquier muestra puede representar a la poblacin; el mecanismo de seleccin es arbitrario y no se rige por procedimientos aleatorios ni se tiene conocimiento acerca de las probabilidades de seleccin de los elementos, razn por la que no es posible establecer el nivel de precisin de los estimadores ni identificar posibles sesgos presentes. Ventajas

Cuando no se pretende hacer inferencia al total de la poblacin, puede proporcionar informacin descriptiva interesante acerca del conjunto de elementos estudiado.

Es una estrategia rpida y barata para obtener primeros acercamientos a los fenmenos de inters o para probar instrumentos, mtodos o definiciones.

Desventajas

No es recomendable el uso de los resultados de una muestra obtenida por esta va para sacar conclusiones de toda la poblacin porque no es posible determinar si realmente representa a la poblacin, los sesgos presentes en la medicin ni el nivel de precisin de los estimadores utilizados. 1.4.3 Formulacin de un plan muestral

En la prctica, la formulacin de un plan muestral es un proceso completamente integrado al desarrollo de la encuesta, que requiere la comprensin de los objetivos temticos, las definiciones y conceptos y su traduccin en objetivos estadsticos concretos; tambin necesita comprensin de las expectativas y necesidades de los equipos de trabajo con respecto a la muestra y las restricciones de costo, tiempo y operacionales asociadas a la recoleccin de informacin.

Paso 1. Anlisis de requerimientos: En forma conjunta con los dems equipos de trabajo, se analizan los requerimientos de la encuesta desde el punto de vista temtico para identificar las necesidades que la muestra debe suplir:1. Verifique que los objetivos de la encuesta estn claramente establecidos

2. Defina la poblacin objetivo, esto es, la poblacin sobre la que pretenden sacarse conclusiones. 3. Identifique los parmetros que se desea estimar y las variables requeridas para ello.

4. Determine el nivel de precisin deseado para las estimaciones.

Paso 2. Diseo de muestra: Una vez analizados los requerimientos, se procede a llevar a cabo el diseo de la muestra. En este proceso debe buscarse toda la informacin auxiliar relevante que est a disposicin para enriquecer el diseo y formular un esquema de muestreo que pueda alcanzar los objetivos estadsticos de la encuesta, considerando las restricciones de presupuesto, tiempo y operacionales. 5. Determine la poblacin susceptible de encuesta6. Identifique y consiga el marco muestral ms apropiado para acceder a esta poblacin, as como toda la informacin auxiliar que pueda ayudar al clculo de tamaos de muestra o asistir los procesos de diseo o estimacin

7. Defina las unidades muestrales, esto es, los elementos o grupos de elementos que sern objeto de muestreo

8. Proponga alternativas de mtodos de muestreo que estn en capacidad de proporcionar estimaciones con un nivel de precisin deseable para los parmetros de inters, sujeto a las restricciones de costo, tiempo y operacionales. Considere el diseo de muestra, tamao requerido y estimadores propuestos en la eleccin en la eleccin del mtodo definitivo9. Formule especificaciones de seleccin, estimacin de parmetros y estimacin de varianza para ser implementados en computador.1.4.4 La poblacin objetivo y la poblacin observableEn el proceso de planeacin de la encuesta se define la poblacin objetivo, conformada por todas las unidades sobre las que quiere hacerse inferencia. En el diseo de muestra, sin embargo, es posible encontrar unidades que deben ser excluidas por restricciones de tipo operacional: las ubicadas en reas muy remotas o inseguras por ejemplo, representan costos y riesgos que posiblemente el operativo de recoleccin no est en condiciones de asumir. En estos casos se restringe la poblacin objetivo a la poblacin observable; mientras que la poblacin objetivo es aquella que se quiere estudiar, la poblacin observable es aquella que en la que esto es posible. Cuando la encuesta utiliza una muestra probabilstica, las conclusiones pueden ser proyectadas a la poblacin observable. Ejemplo: Encuesta Nacional de HogaresPoblacin objetivo: Personas residentes en el pas que son miembros de hogares particulares

Poblacin observable: Personas residentes en el pas que son miembros de hogares particulares y no residen en la zona de alto riesgo, stas se excluyen por el alto riesgo asociado a la recoleccin de informacin en esta regin. 1.4.5 El Marco de muestreo y la informacin auxiliar

El marco de muestreo es la herramienta que permite identificar y ubicar a las unidades objeto de estudio y en este sentido, se dice que proporciona acceso a la poblacin observable. Existen tres tipos de marcos: los de lista, los de reas y los mltiples. Un marco de lista es un listado de nombres y direcciones que permite ubicar directamente a las unidades. Ejemplo: los que se utilizan para las encuestas econmicas a medianas y grandes empresas

Un marco de reas es una lista de las reas geogrficas en donde se encuentran los individuos; proporciona un acceso indirecto a las unidades a travs del recorrido de muestras compuestas de reas geogrficas. Ejemplo: los empleados para las encuestas de hogares, en donde se accede a stos recorriendo muestras de manzanas o secciones cartogrficas Un marco mltiple es la combinacin de marcos de reas y de lista para garantizar acceso a la mayor parte de los elementos objeto de estudio. Ejemplo: en estudios agropecuarios, suele usarse un marco de lista para los grandes productores y marcos de reas para los pequeos.

Contar con un buen marco de muestreo es uno de los aspectos importantes en la formulacin del plan muestral, dependiendo de sus caractersticas se formulan el mtodo de seleccin de muestra y el esquema de recoleccin en campo; adicionalmente, como es utilizado para identificar la poblacin observable, juega un papel determinante en la calidad de las estimaciones y en la relacin precisin-costo del estudio, especialmente cuando se usan marcos de lista. Es ideal que est actualizado, incluya todas las unidades de la poblacin y no tenga unidades fuera de la poblacin objetivo; tambin es deseable que contenga informacin auxiliar que pueda utilizarse para el diseo de muestra o para los procesos de estimacin, con el fin de mejorar la precisin de los estimadores.

Grfico 2. Representacin grfica de la poblacin objetivo, el marco de muestreo y la muestra seleccionada

1.4.6 Imperfecciones del Marco de muestreoLos marcos de muestreo disponibles en la prctica adolecen con frecuencia de imperfecciones relacionadas con su cobertura, denominadas subcobertura, sobrecobertura y duplicidad. Se presenta una breve descripcin de cada una de ellas, el efecto que tiene sobre la calidad de la informacin y se describen las estrategias ms utilizadas para minimizar su impacto.

1. Subcobertura: Se produce cuando hay elementos de la poblacin objetivo que no se encuentran en el marco de muestreo. En marcos de lista, por ejemplo, cuando ha pasado un tiempo entre la construccin del marco y el diseo de la muestra, es posible que las unidades nuevas (establecimientos econmicos, colegios, etc.) no estn presentes en el marco; en marcos de reas este defecto es menos frecuente. El impacto de la subcobertura en la calidad de las estimaciones se da en el riesgo de generar sesgos, cuando los elementos pertenecientes a la poblacin objetivo y que no estn en el marco tienen caractersticas diferentes a las de los que s lo estn. Para tratar con esta imperfeccin, se recomienda tratar de identificar las reas (geogrficas, temticas) en donde se presenta la subcobertura y buscar marcos de muestreo adicionales que pueden combinarse con los disponibles para obtener un mejor acercamiento a la poblacin objetivo. Adicionalmente, si se cuenta con informacin auxiliar de buena calidad, es posible reducir el sesgo de los estimadores ajustando por el volumen de poblacin u otro total relacionado bajo el supuesto que los elementos no observables son similares a los observables con respecto a las caractersticas en estudio.2. Sobrecobertura: Se presenta cuando hay elementos en el marco que no pertenecen a la poblacin objetivo y no pueden ser identificados y eliminados antes de seleccionar la muestra. En marcos de lista para investigaciones econmicas, por ejemplo, esto puede presentarse cuando no hay un procedimiento eficiente para eliminar a los establecimientos econmicos que se liquidan (dejan de funcionar) o actualizar la informacin de los que cambian de actividad econmica y ya no pertenecen a la poblacin objetivo; en los marcos de reas este defecto se presenta en menor magnitud. Esta imperfeccin afecta la calidad de los estimadores porque, aunque se identifique en la encuesta a los elementos sobrantes y se eliminen, se produce una reduccin en el tamao de muestra efectivo que disminuye la precisin; adicionalmente, la entrevista a unidades que no son de inters representa un sobrecosto que puede ser considerable. Cuando no es posible identificar a los elementos extraos, esto puede ser una fuente de sesgo en los estimadores.Si es posible identificar a los elementos extraos desde el marco de muestreo, la recomendacin es eliminarlos; si no es posible, una vez seleccionada la muestra, los elementos considerados como fuera de universo deben ser excluidos utilizando la estimacin por dominios como se muestra en el captulo 6.

3. Duplicidad: Cuando los elementos en el marco hacen referencia a una determinada unidad de la poblacin objetivo ms de una vez, se presenta una imperfeccin de marco por la duplicidad. Esto puede verse por ejemplo, cuando hay problemas de identificacin en un listado de empresas y algunas de ellas estn en ms de una ocasin o, cuando el marco es de establecimientos y la poblacin objetivo est compuesta por empresas; en este caso, una empresa estar repetida en el marco tantas veces como establecimientos tenga. La capacidad de esta imperfeccin para generar sesgo en los estimadores est relacionada con la cantidad de duplicados presente, la importancia de los elementos duplicados en el total de poblacin y la capacidad que se tenga desde el marco o la muestra seleccionada para identificarlos. Esta imperfeccin suele corregirse utilizando dos estrategias, si el costo lo permite, lo ms eficiente es hacer un operativo que permita corregir el marco, va entrevista personal o telefnica; en otro caso, es posible tratar de establecer las verdaderas probabilidades de seleccin de las unidades considerando las duplicidades que presentan y corregir los factores de expansin en consecuencia.Adicionalmente, se ha mencionado la utilidad de contar con informacin auxiliar en el marco de muestreo que permita hacer ms eficiente el diseo de muestra o la estimacin; en este sentido, es posible encontrar otra imperfeccin, de menor impacto que las tres consideradas, representada por la presencia de informacin auxiliar incorrecta; mientras que la subcobertura, la sobrecobertura y la existencia de duplicados pueden generar sesgo y afectar la validez de las estimaciones, el uso de informacin auxiliar incorrecta puede disminuir la precisin de los estimadores pero, en general, no compromete su validez. 1.4.7 El tamao de muestra El tamao de muestra se establece generalmente, como un balance entre el nivel de precisin requerido y las restricciones operacionales como costos y tiempo; fijo un esquema para la seleccin de muestra, entre mayor sea el nivel de precisin que se espera de los estimadores mayor es el tamao de muestra que se necesita.

En una muestra probabilstica, el tamao de muestra se ve afectado en mayor o menor medida por:

1. La variabilidad de las caractersticas que se observan: Cuando la poblacin objetivo tiene un comportamiento bastante homogneo con respecto a las variables estudiadas, es necesario un menor tamao de muestra para conseguir una estimacin precisa del fenmeno. 2. El tamao de la poblacin observable: El tamao de la poblacin es un factor determinante en el tamao de muestra cuando las poblaciones son pequeas; en poblaciones de mediana o gran magnitud pierde relevancia.3. El mtodo de muestreo y estimadores escogidos: No todos los mtodos de muestreo ni los estimadores disponibles son igualmente eficientes y es comn que por falta de un marco de muestreo adecuado, informacin auxiliar de buena calidad o por restricciones operacionales no sea posible utilizar los mtodos que generan mayor nivel de precisin con un menor tamao de muestra. 4. Niveles de desagregacin requeridos y precisin esperada: Cuando se desea obtener estimaciones para subgrupos de la poblacin, como las personas que habitan en reas urbanas, o los hombres, o los menores de 12 aos, se requieren tamaos de muestra mayores. Desde el diseo de muestra es necesario considerar las desagregaciones que se tienen previstas para garantizar estimadores precisos a estos niveles.

5. Tasa esperada de no respuesta: Se recomienda establecer un porcentaje mximo de muestra que se prev no ser posible de contactar o rehusar contestar el cuestionario de la encuesta. Este porcentaje deber incrementarse al tamao de muestra requerido con el fin de evitar que la precisin de los estimadores se vea afectada por una reduccin en el tamao de muestra final. Esta precaucin, sin embargo, no evita la inclusin de sesgos en los resultados si las caractersticas de los respondientes y no respondientes son muy diferentes; este tema se trata con ms detalle en el captulo 6.EJEMPLO:Suponga que se desea obtener una estimacin por muestreo del nmero promedio de estudiantes que tiene cada colegio en un pas, garantizando que en 95 de cada 100 casos no habr un error de ms de 2 estudiantes con respecto al verdadero promedio. Para la seleccin de muestra, se utilizar un marco que contiene los 1000 colegios del pas y un Muestreo Aleatorio Simple MAS.

Para determinar el tamao de muestra mnimo requerido, se utiliza la frmula:

Donde:

n es el tamao de muestra mnimo requerido

N es la cantidad de colegios existentes en el pas y presentes en el marco, 1000

es la varianza del promedio de estudiantes, por informacin de estudios anteriores, se establece en 250 para los clculos Z es la ordenada de la distribucin normal estndar correspondiente; 1.96 para un 95% de confianza. E es el error mximo admisible en unidades absolutas (estudiantes), 2 segn el intervalo deseado. Reemplazando en la ecuacin, se tiene:

Se requieren 194 colegios para hacer la estimacin con el nivel de precisin esperado.

La relacin que existe entre el tamao de muestra y el tamao de la poblacin, el error mximo admisible y el nivel de confiabilidad se observa en los Grfico 3 y Grfico 4, variando los valores establecidos en el ejemplo.

Comparando las curvas para distintos valores de E se observa que una mayor precisin requiere un mayor tamao de muestra

Todas las curvas son crecientes, a mayor tamao de la poblacin es mayor el tamao de muestra requerido para un nivel de precisin dado

Considerando cada una de las curvas, en todos los casos se observa un lmite a partir del cual el tamao de la poblacin no tiene efecto sobre la frmula de tamao de muestra; este punto depende en forma importante del nivel de precisin que se est buscando en los estimadores.

Grfico 3. Tamao de muestra en funcin del tamao de la poblacin y el error mximo admisible

Grfico 4. Tamao de muestra en funcin del error mximo admisible y el nivel de confiabilidad

El aumento en el nivel de confiabilidad requiere un mayor tamao de muestra

En los casos en que se requiere mucha precisin (cerca al origen) o en donde sta no interesa (extremo inferior derecho), no se establecen diferencias en el tamao de muestra para distintos niveles de confiabilidad.

Otros aspectos a considerarEn el proceso de clculo del tamao de muestra hay otros aspectos que deben ser considerados tales como:1. La encuesta es multipropsito. La mayora de las encuestas que se lleva a cabo hoy en da requiere la medicin de diversos conjuntos de caractersticas y no siempre el plan de muestreo que puede resultar eficiente para unas lo es necesariamente para todas. En este caso, se recomienda identificar las variables de mayor importancia en trminos de los objetivos de la encuesta y sus niveles de desagregacin y utilizarlas como las variables de diseo de la muestra.

2. No se cuenta con informacin de la variabilidad de las caractersticas a estudiar. En muchos casos no es posible determinar a priori la variabilidad de las caractersticas objeto de estudio; sin embargo, tener una idea de esto es muy importante para no subestimar el tamao de muestra y obtener luego estimaciones de poca utilidad prctica. Para esto se sugiere utilizar informacin de estudios previos de variables relacionadas con el fenmeno o llevar a cabo estudios piloto. 3. Se pretende plantear un esquema de muestra complejo: En muestras en donde se utiliza directamente un marco que contiene las unidades a estudiar, es posible utilizar frmulas sencillas para calcular el tamao de muestra; de otra parte, cuando se plantea un estudio que involucre varias etapas de seleccin, conglomerados o estratos, es necesario establecer los tamaos de muestra a utilizar en cada etapa o estrato; esto puede hacerse a travs de ejercicios de simulacin como o a travs de un efecto de diseo como se seala en el captulo 2.2. MUESTREO ALEATORIO SIMPLE Y MUESTREO SISTEMTICO

2.1. MUESTREO ALEATORIO SIMPLE - MASConsiste en seleccionar de un marco de lista un nmero predefinido de unidades de tal forma que todas tengan la misma probabilidad de ser incluidas; de igual forma, todas las posibles muestras de un tamao dado tienen la misma probabilidad de ser seleccionadas. La seleccin puede hacerse con reemplazamiento (una unidad puede ser incluida ms de una vez en la muestra) o sin reemplazamiento; en la prctica, el diseo conocido como MAS que no tiene reemplazamiento es el utilizado porque representa menos problemas operativos y proporciona resultados ms precisos Con este diseo, cada uno de los elementos de la poblacin tiene probabilidad de ser incluido en alguna muestra, con n el tamao de la muestra y N el de la poblacin incluida en el marco.

Para la seleccin de muestra se requiere contar con un marco de lista en donde estn identificados los elementos de la poblacin y una herramienta para generar nmeros aleatorios con distribucin uniforme, como una tabla de dgitos aleatorios o la funcin Aleatorio() de Excel. El algoritmo ms sencillo para hacer la seleccin se conoce como Coordinado Negativo y se explica en el siguiente ejemplo. EJEMPLOSuponga una poblacin objetivo conformado por las siguientes 6 fincas:

Tabla 1. Ejemplo MAS. Poblacin objetivo

No.Finca

1LA LIBERTAD

2EL REFUGIO

3LA CASONA

4AMANECER

5YERBABUENA

6ASTAIZA

Para seleccionar una muestra con MAS:

1. Genere un nmero aleatorio con distribucin uniforme en el intervalo (0,1) para cada una de las fincas existentes en el marco

2. Ordene las fincas del marco en forma descendente con respecto al nmero aleatorio generado.3. La muestra est conformada por las 4 primeras en el ordenamiento por este criterioTabla 2. Ejemplo MAS. Seleccin de muestra

No.FincaAleatorio

6ASTAIZA0,96950958

1LA LIBERTAD0,79594428

3LA CASONA0,76140399

5YERBABUENA0,72174676

2EL REFUGIO0,67143972

4AMANECER0,0666237

Ventajas: Es un diseo simple desde el punto de vista conceptual Los procesos de clculo de tamao de muestra, seleccin de muestra, estimacin de parmetros y estimacin de varianzas son sencillos y bien conocidos.

No requiere disponer de informacin adicional en el marco para la seleccin de muestra

Desventajas: En poblaciones de mediano tamao, si la encuesta se hace por entrevista directa, los costos asociados a la recoleccin de informacin pueden incrementarse por la dispersin geogrfica que presenta la muestra con este diseo En la prctica, no es fcil satisfacer el requerimiento de contar con marcos de elementos excepto para poblaciones pequeas; esto hace inviable la aplicacin de este diseo En caso de disponer de informacin adicional en el marco, no es posible utilizarla para mejorar el proceso de seleccin de muestraGrfico 5. Esquema grfico del diseo MAS

2.1.1 Precisin en el MASPara introducir el concepto de precisin en el Muestreo Aleatorio Simple MAS, suponga nuevamente la poblacin objetivo conformada por 6 fincas que se utiliz en el ejemplo anterior; suponga que para continuar con el ejercicio se llev a cabo un operativo censal y se cuenta con la informacin de gastos para las 6 fincas como se muestra en la Tabla 3.Tabla 3. Ejemplo MAS. Informacin para toda la poblacin objetivoNo.FincaGasto anual en semillas

1LA LIBERTAD26.000

2EL REFUGIO470.000

3LA CASONA63.800

4AMANECER145.000

5YERBABUENA230.000

6ASTAIZA12.500

Si se generan todas las posibles muestras de tamao 1, 2, 3, 4, 5 y 6 y se estima el promedio de gasto sobre cada muestra se obtiene la Error! No se encuentra el origen de la referencia.. Los promedios estimados se presentan en el Grfico 6.Grfico 6. Distribucin de las medias para diferentes tamaos de muestra

La lnea roja representa el verdadero valor del promedio calculada sobre toda la poblacin objetivo; algunos comentarios sobre el grfico se formulan a continuacin:

Las estimaciones calculadas a partir de todas las muestras se encuentran alrededor del verdadero valor del parmetro En la medida en que aumenta el tamao de la muestra, la dispersin entre estimaciones se reduce. Esto es lo que se ha denominado precisin

En la prctica, solamente se selecciona una muestra, de manera que solo se cuenta con uno de los muchos puntos posibles. Usando los datos del ejemplo, sera posible que la muestra seleccionada fuese la segunda de tamao 1, con la que se obtiene como estimacin el valor 470.000 que est bastante lejos del verdadero valor del parmetro. Por esto, es importante recordar que la estimacin obtenida a partir de la muestra es un valor tomado por una variable aleatoria denominada estimador, que tiene una media (se espera que sea el verdadero valor del parmetro) y una varianza que determina la precisin con la que se est haciendo la estimacin. Aunque el verdadero valor del parmetro rara vez llega a conocerse, es importante disminuir el nivel de incertidumbre trabajando con un tamao de muestra suficientemente grande. La medicin de la precisin en una muestra probabilstica se lleva a cabo utilizando la varianza del estimador; esta varianza depende del diseo de muestra y estimador utilizados y se presentarn con detalle en el captulo 7, para todos los diseos tratados en este documento.Tabla 4. Ejemplo MAS. Promedio de gasto estimado sobre todas las posibles muestrasTamao 1Tamao 2Tamao 3Tamao 4Tamao 5Tamao 6

Muestra Promedio estimadoMuestra Promedio estimadoMuestra Promedio estimadoMuestra Promedio estimadoMuestra Promedio estimadoMuestra Promedio estimado

126.0001,2248.0001,2,3186.6001,2,3,4176.2001,2,3,4,5186.9601,2,3,4,5,6157.883

2470.0001,344.9001,2,4213.6671,2,3,5197.4501,2,3,4,6143.460

363.8001,485.5001,2,5242.0001,2,3,6143.0751,2,3,5,6160.460

4145.0001,5128.0001,2,6169.5001,2,4,5217.7501,2,4,5,6176.700

5230.0001,619.2501,3,478.2671,2,4,6127.1251,3,4,5,695.460

612.5002,3266.9001,3,5106.6001,2,5,6184.6252,3,4,5,6184.260

2,4307.5001,3,634.1001,3,4,5116.200

2,5350.0001,4,5133.6671,3,4,661.825

2,6241.2501,4,661.1671,3,5,683.075

3,4104.4001,5,689.5001,4,5,6103.375

3,5146.9002,3,4226.2672,3,4,5227.200

3,638.1502,3,5254.6002,3,4,6172.825

4,5187.5002,3,6182.1002,3,5,6194.075

4,678.7502,4,5281.6672,4,5,6214.375

5,6121.2502,4,6209.1673,4,5,6112.825

2,5,6237.500

3,4,5125.000

3,4,673.767

3,5,6102.100

4,5,6129.167

2.1.2 Efecto de diseoConsiderando que el clculo de tamao de muestra para el diseo MAS es bastante sencillo conforme se present en el numeral 1.4.6, es frecuente utilizarlo incluso para aquellos casos en donde se aplican diseos de muestreo diferentes. En este caso, se utiliza el efecto de diseo (deff por Design Effect) como una medida de la eficiencia relativa del nuevo diseo en contraste con el MAS. Se define:

En el denominador, se tiene la varianza del diseo MAS con el estimador usual, y en el numerador la varianza con el nuevo diseo P y el estimador que se vaya a utilizar, bajo el supuesto que el tamao de muestra de ambos diseos es similar en magnitud. Si el valor del deff es menor que uno, el diseo es ms preciso que el MAS y es menos preciso en caso contrario.

Para el clculo de tamaos de muestra por esta va, se utilizan datos de estudios previos para obtener una aproximacin del tamao del deff con la combinacin de diseo y estimador que se ha escogido. Luego, se involucra el deff en el clculo del tamao de muestra, multiplicando la varianza esperada por el deff.

2.2. MUESTREO SISTEMTICO

Consiste en la seleccin de unidades partiendo de un marco de lista numerado, seleccionando en forma aleatoria la primera unidad a ser incluida en la muestra y de ah en adelante saltando con un intervalo de seleccin K; si la primera unidad seleccionada es la j-sima, la muestra estar compuesta por los elementos {j, j+k, j+2k, }. Una vez que la primera unidad ha sido seleccionada ya est determinada toda la muestra; solamente existen k posibles muestras. Ejemplo

Suponga una poblacin objetivo compuesta por 70 fincas de las cuales se desea seleccionar una muestra de tamao n = 10 utilizando un diseo sistemtico.

Para seleccionar la muestra con este diseo, se siguen los siguientes pasos:

1. Determine el intervalo de seleccin:

2. Genere un nmero aleatorio entre 1 y k. Suponga que el elegido es 4.

3. La muestra est conformada por los elementos {4, 4+7, 4+(2x7), }; esto es:Muestra = {4, 11, 18, 25, 32, 39, }

Tabla 5. Ejemplo Muestreo Sistemtico. Muestra seleccionada

arranque aleatorio

1234567

1234567

891011121314

15161718192021

22232425262728

29303132333435

36373839404142

43444546474849

50515253545556

57585960616263

64656667686970

Ventajas:

Aunque ambos parten de un marco de lista de elementos, la seleccin es ms fcil de llevar a cabo en el sistemtico que en el MAS.

En los casos en que los elementos son reas geogrficas, la muestra queda uniformemente dispersa a lo largo de la poblacin

Los procedimientos de estimacin son sencillos

Puede ser utilizado en muestras de reas en la ltima etapa de seleccin, para llevar a cabo la seleccin de muestra en forma simultnea con el enlistamiento. En este caso, se usa el mtodo de seleccin circular y aproximaciones al total de elementos del marco.

Desventajas:

Como la muestra cuenta con dispersin geogrfica, puede ser costoso llevar a cabo entrevistas personales.

Su nivel de precisin se ve afectado por el orden en que los elementos se encuentren en el marco; en particular, si el orden que tienen las unidades en el marco est relacionado con las caractersticas de estudio, algunas de las muestras pueden generar estimaciones muy por debajo o por encima del verdadero valor del parmetro.

Tabla 6. Ejemplo. Eficiencia del diseo sistemtico

arranque aleatorio

1234567

31409010211079156

2364886011774148

40434558126125155

4369536087109101

326580819310990

30545210971132140

2366428172142121

4645568212693145

4967895112996112

34466469124117124

Promedio muestra35,155,965,975,3105,5107,6129,2

Promedio real82,182,182,182,182,182,182,1

En el caso de muestreo sistemtico con una rplica, no es posible utilizar directamente las frmulas de varianza del diseo para determinar la precisin de los estimadores.

Grfico 7. Esquema grfico del diseo sistemtico

2.2.1 Sistemtico con ms de una rplica

El diseo sealado es un sistemtico con una rplica, es decir, se utiliza un solo arranque aleatorio entre 1 y k. Cuando se desea una muestra con ms de un arranque aleatorio (r= 2, 3 arranques) se determina como longitud del intervalo y se seleccionan r nmeros aleatorios entre 1 y k. Para ambos arranques se salta con intervalo k.Tabla 7. Ejemplo Muestreo Sistemtico. Muestra seleccionada con dos rplicas

arranque aleatorio

1234567891011121314

1234567891011121314

1516171819202122232425262728

2930313233343536373839404142

4344454647484950515253545556

5758596061626364656667686970

2.2.2 Control del tamao de muestra

En los ejemplos presentados, el tamao de muestra que se desea es mltiplo del tamao de la poblacin, de manera que k resulta un nmero entero y cualquiera de las muestras que se seleccione tiene el mismo tamao. Este no siempre es el caso; si por ejemplo, sobre una poblacin de tamao N=70 se desea seleccionar una muestra de tamao n=6, el intervalo de seleccin resulta no entero, y las posibles muestras tienen distinto tamao como se muestra en la Tabla 8.

Tabla 8. Ejemplo Muestreo Sistemtico. Muestra seleccionada con dos rplicas

arranque aleatorio

1234567891011

1234567891011

1213141516171819202122

2324252627282930313233

3435363738394041424344

4546474849505152535455

5657585960616263646566

67686970

En este caso se plantean dos posibles soluciones para controlar el tamao de muestra:

Mtodo del intervalo fraccional: Consiste en calcular el intervalo k no entero y al saltar, escoger el elemento redondeando siempre por encima.

Mtodo de seleccin circular: En este mtodo, se define como intervalo el entero ms cercano ay para la seleccin, se eligen los arranques aleatorios entre 1 y N; se salta en forma circular, continuando con el primer elemento despus del ltimo del marco.

3. MUESTREO CON PROBABILIDAD PROPORCIONAL AL TAMAO

Los mtodos de muestreo aleatorio simple y muestreo sistemtico funcionan bien cuando los elementos que constituyen la poblacin objetivo son relativamente similares en las caractersticas de estudio; en otro caso y cuando se dispone de informacin auxiliar a nivel del marco de muestreo, es posible utilizar esta informacin para generar estrategias de muestreo ms eficientes: esto es, que proporcionen igual o mayor precisin con un menor tamao de muestra.

Uno de estos mtodos es el muestreo con probabilidad proporcional al tamao; en l se utiliza la informacin auxiliar para generar distintas probabilidades de seleccin a los elementos de la poblacin, en funcin de una variable que permita identificar su tamao, suponiendo que existe una relacin entre las variables de estudio y las auxiliares de que se dispone. Ejemplos tpicos de utilizacin de estos mtodos se observan en las encuestas econmicas, en donde es posible asignar probabilidades de seleccin a los establecimientos econmicos en funcin de variables como el total de ventas, personal ocupado o volumen de activos en periodos anteriores, relacionadas generalmente con los valores actuales de estas variables. Grfico 8. Diferencias entre los elementos de la poblacin. Ejemplo

El uso de probabilidades diferenciales para los elementos de la poblacin permite disminuir la variabilidad en los estimadores. Observando el Grfico 8 puede verse que cuando una unidad reporta valores muy altos o muy bajos con respecto al promedio, la diferencia entre las muestras que la incluyen y las que no generara una dispersin y consecuentemente una falta de precisin en los estimadores que no es deseable. Como su nombre lo indica, con los mtodos proporcionales al tamao un elemento tiene mayor probabilidad cuanto mayor es su tamao con relacin a la variable utilizada en el diseo. Existen dos diseos que usan esta proporcionalidad: El PPT que es con reemplazamiento y el PT que es sin reemplazamiento. El primero es ampliamente utilizado porque es eficiente y las tareas de seleccin de muestra y estimacin son sencillas de implementar. El segundo, aunque es ms eficiente utilizando la misma informacin auxiliar, es menos utilizado porque requiere de algoritmos especiales para la seleccin de muestra y la estimacin de varianza es demasiado compleja. Es importante aclarar que el mtodo es ms eficiente que un diseo que no involucre informacin adicional (MAS, sistemtico) cuando la informacin auxiliar es proporcional a las caractersticas de inters que se estudiarn en la encuesta, y aumenta en eficiencia en la medida en que la relacin de proporcionalidad sea ms fuerte. Sin embargo, an con asociaciones que podran considerarse dbiles para la formulacin de modelos de prediccin se obtienen buenos resultados en comparacin con un MAS. En este mismo sentido, la validez de los resultados no se compromete si la relacin no es tan fuerte.

Para la generacin de estimaciones, es importante resaltar que como no la probabilidad de que una unidad sea incluida en la muestra cambia de unidad en unidad, es necesario considerar esta probabilidad en los clculos. Si se suponen probabilidades iguales y se utilizan procedimientos como los del MAS, los estimadores se sesgan y no apuntan al verdadero valor del parmetro.

Grfico 9. Esquema grfico de los diseos Proporcionales al Tamao

3.1 Proporcional al tamao con reemplazamiento - PPTUtilizando la variable X para la construccin de las probabilidades, asigna a la i-sima unidad una probabilidad igual a de ser seleccionada. Hay dos algoritmos reconocidos para hacer la seleccin de muestra: el mtodo acumulativo total y el mtodo sistemtico.

Ejemplo:Suponga que se cuenta con una poblacin de 10 fincas sobre la que se desea estimar el total de produccin del ltimo ao utilizando una muestra de tamao 4 seleccionada con diseo PPT proporcional al total de hectreas que tiene cada finca. Para llevar a cabo la seleccin con el mtodo acumulativo total se procede conforme a los siguientes pasos:

1. Sobre el marco de unidades, genere la probabilidad de seleccin descrita arriba

2. Acumule las probabilidades para determinar el rango de seleccin que aplica para cada unidad

3. Genere 4 nmeros aleatorios con distribucin uniforme en el intervalo (0,1). Suponga que los elegidos son: 0,15003, 0,47345, 0,81275 y 0,85442. 4. La muestra est compuesta por las unidades en cuyos intervalos estn contenidos los nmeros aleatorios escogidos

Tabla 9. Ejemplo. Seleccin de una muestra PPT con Mtodo Acumulativo Total

Rango

No.FincaHectreasPiLmite inferiorLmite superiorAleatorio

1LA LIBERTAD520,05073170700,050731707

2EL REFUGIO480,0468292680,0507317080,097560976

3LA CASONA250,0243902440,0975609770,12195122

4AMANECER2640,2575609760,1219512210,3795121950,150034876

5YERBABUENA150,0146341460,3795121960,394146341

6ASTAIZA3500,3414634150,3941463420,7356097560,473455993

7EL PORVENIR820,080,7356097570,8156097560,812752937

8LA MAGOLA650,0634146340,8156097570,879024390,8544273

9EL PARAISO780,0760975610,8790243910,955121951

10EL REMANSO460,0448780490,9551219521

TOTAL1.0251

Para llevar a cabo esta misma seleccin con el mtodo sistemtico se procede de la siguiente forma:

1. Sobre el marco de unidades, acumule la variable auxiliar que se utilizar para la construccin de las probabilidades (Hectreas en este caso)2. Determine el rango que representa a cada unidad3. Determine el intervalo de muestreo con . Para este caso,

4. Genere un nmero aleatorio con distribucin uniforme en el intervalo (0,k). Suponga que el elegido es 196. La primera unidad seleccionada es aquella en cuyo intervalo cae el arranque aleatorio. 5. Para seleccionar las dems unidades de la muestra, salte a partir del arranque aleatorio, con intervalo k hasta completar el tamao de muestra deseado. Tabla 10. Ejemplo. Seleccin de una muestra PPT con mtodo Sistemtico

Intervalo

No.FincaHectreasHectreas acumuladoLmite inferiorLmite superiorUnidades seleccionadas

1LA LIBERTAD5252052

2EL REFUGIO4810053100

3LA CASONA25125101125

4AMANECER2643891263891) 196

5YERBABUENA15404390404

6ASTAIZA3507544057542) 452 3) 708

7EL PORVENIR82836755836

8LA MAGOLA65901837901

9EL PARAISO789799029794) 964

10EL REMANSO461.0259801.025

TOTAL1.025

Como puede verse, en este ejemplo la finca ASTAIZA, que tiene un gran tamao en comparacin con las dems result seleccionada dos veces, con el nmero 452 y el 708. Esto puede suceder porque el diseo es con reemplazamiento; tambin en una seleccin con el Mtodo Acumulativo Total se presenta cuando dos o ms de los nmeros aleatorios generados caen dentro del intervalo de una misma unidad. 4. MUESTREO ESTRATIFICADO

En la seleccin de una muestra con un diseo como el MAS o el sistemtico, todo est dejado al azar, lo nico que se requiere es un marco de lista de las unidades que conforman la poblacin objetivo y el uso de nmeros aleatorios. Cuando se dispone de informacin adicional para cada uno de los elementos, es posible mejorar la precisin de los estimadores, utilizando un diseo proporcional como se seala en el captulo 3, o una muestra estratificada. La estratificacin no es un diseo propiamente dicho como puede hablarse del MAS o el PPT. Consiste en el uso de informacin auxiliar para asignar a las unidades del marco a subgrupos denominados estratos los cuales son disyuntos entre s y homogneos con respecto a las caractersticas de estudio. Para seleccionar la muestra se efecta una seleccin en cada estrato, en forma independiente, con un diseo como el MAS, el sistemtico o el PPT. Es posible utilizar distintos diseos de muestreo en cada uno de estos estratos. Las principales razones para llevar a cabo un muestreo estratificado son:1. Porque se cuenta con informacin auxiliar para todas las unidades en el marco de muestreo, asociada con las caractersticas de inters. La divisin de la poblacin en grupos homogneos respecto a estas caractersticas permite obtener una mayor precisin en los estimadores a un menor costo

2. Porque se requieren estimaciones desagregadas para algunas subpoblaciones o reas geogrficas. Si por ejemplo, en una encuesta a hogares se requiere desagregar los resultados por nivel socioeconmico, lo mejor ser clasificar la poblacin en estos grupos para garantizar una precisin en los estimadores suficiente para hacer esta desagregacin. Esto es particularmente crtico si el tamao relativo de alguna de las subpoblaciones requeridas es bajo (10%, 15%, 20%). 3. Cuando se cuenta con informacin auxiliar que permitira aplicar diseos proporcionales o utilizar estimadores ms eficientes, en algunos pero no en todos los estratos.

4. Porque hay caractersticas operativas diferenciales para subgrupos de la poblacin objetivo, como cuando se planea acceder a la poblacin objetivo por medios distintos (por ejemplo va telefnica en unos casos, entrevista personal o por correo en otros) o cuando se prev que las tasas de respuesta variarn entre estratos. Estas diferencias pueden hacer que el diseo que es eficiente en unas condiciones no lo sea en otras.

Ventajas

Al conformar grupos homogneos, es posible obtener estimadores ms precisos para parmetros globales de la poblacin con similares tamaos de muestra Es posible generar estimaciones con buen nivel de calidad para desagregaciones que hayan sido previstas, aun cuando tengan una baja participacin en la poblacin Cuando se cuenta con informacin auxiliar para algunos subgrupos pero no para toda la poblacin, es posible hacer uso de ella en los estratos en los que est disponible Puede ser ms prctico operacional o administrativamenteDesventajas

Se debe disponer de informacin que permita la estratificacin de todos los elementos del marco muestral. Se requiere una reestructuracin del marco antes de seleccionar la muestra.

Si la informacin para estratificar no est disponible, su consecucin puede representar un costo alto para la encuesta.Grfico 10. Esquema grfico del muestreo estratificado. Ejemplo

Cuando se planea llevar a cabo una seleccin estratificada, es necesario dar respuesta a tres interrogantes principales:1. Cuntos estratos se utilizarn?

2. Cmo se delimitarn los estratos?

3. Cmo se distribuir el tamao de muestra entre los estratos?

En el numeral 4.1 se har referencia a las dos primeras preguntas y la tercera se tratar en el numeral 4.2.

4.1 Cantidad de estratos y delimitacinLa cantidad de estratos en que se dividir la poblacin y los lmites entre ellos no siempre quedan a decisin de quien disea la muestra; en los casos en que la estratificacin obedece a limitantes operacionales o administrativos o al requerimiento de generar estimaciones para subgrupos de poblacin, estas dos caractersticas de la estratificacin estn determinadas de antemano. De otro lado, cuando la estratificacin obedece al inters de utilizar la informacin auxiliar para mejorar la precisin de los estimadores y se cuenta con la informacin para todos los elementos del marco de muestreo, existen mtodos que aproximan a soluciones ptimas para ambas preguntas.La cantidad de estratos normalmente se establece como un balance entre el costo y la mejora en la calidad que se obtiene por una mayor particin de la poblacin. En general, se comporta como una parbola invertida en donde se obtienen ganancias cuando se pasa de 3 a 4 estratos por ejemplo, pero a partir de cierto punto el aumento en el nmero de estratos genera ms costos que beneficios en trminos de la varianza del estimador. Con ms de cinco estratos de este tipo es raro que se obtengan ganancias significativamente importantes en la varianza a menos que las observaciones en efecto tengan un nivel de dispersin muy alto. En cuanto a la delimitacin de los estratos, se presenta el mtodo univariado ms conocido y utilizado, especialmente para la aplicacin de MAS al interior de todos los estratos. La estratificacin con mtodos multivariados puede hacerse con herramientas de anlisis de datos como el anlisis de cluster.4.1.1 Mtodo Raz cum de f (Dalenius y Hodges) Este mtodo busca construir una cantidad H de estratos, preestablecida de antemano, en forma tal que se maximice la homogeneidad de las unidades al interior de los estratos conforme a una variable auxiliar X, con la que se cuenta para todas las unidades del marco y que generalmente representa el tamao de cada unidad.Para su aplicacin, se procede como sigue:

1. Agrupe las unidades en L grupos determinados por la variable auxiliar X, construyendo intervalos de amplitud g, para las unidades con valores ms bajos y ms altos de X, es posible que se requieran intervalos de mayor amplitud, digamos 2xg o 3xg, en general de amplitud uxg.

2. Establezca la cantidad de unidades que pertenece a cada grupo, o frecuencia del grupo, denominada fi.3. Calcule la raz de fi.4. Si algn intervalo tiene longitud diferente de g, uxg, calcule la raz de u y multiplique a fi. por esta cantidad

5. Acumule fi o ux fi segn corresponda, a lo largo de los grupos

6. Divida el mximo valor de la variable acumulada entre la cantidad de estratos preestablecida H, sea sta k7. Los nuevos lmites para los estratos corresponden a los lmites inferiores ms cercanos a los H mltiplos de kEjemplo:Suponga que se desea particionar una poblacin compuesta por 1.018 fincas en cuatro estratos, utilizando como informacin auxiliar el tamao de cada finca, expresado en hectreas. Tabla 11. Ejemplo. Construccin de intervalos con el mtodo Raz cum de f

Tamao (Ha)Cantidad de fincasfiAmplitud intervaloRaz fiRaz uAcumuladoRaiz fi *Raz uLmtes

Menos de 10 4421021.02121.02

De 10 a 202991017.29138.3230.48

De 20 a 301371011.70150.02

De 30 a 4040106.32156.34

De 40 a 5028105.29161.6460.97

De 50 a 6020104.47166.11

De 60 a 706102.45168.56

De 70 a 805102.24170.79

De 80 a 903101.73172.53

De 90 a 1006102.45174.98

De 100 a 1509503.002.2481.68

De 150 a 2006502.452.2487.1691.45

De 200 a 500123003.465.48106.13

De 500 a 100055002.247.07121.95

Con lo que se obtienen los nuevos estratos:Tabla 12. Ejemplo. Continuacin. Estratos finales.Tamao (Ha)Cantidad de fincasfi

Menos de 20741

De 20 a 50205

De 50 a 20055

Ms de 20017

4.2 Asignacin del tamao de muestra

Costos y precisin son los dos criterios fundamentales con los que se lleva a cabo la asignacin del tamao de muestra a estratos. Para la presentacin de los mtodos a continuacin, se supondr que ya se han definido los H estratos a utilizar y el tamao total de muestra n; Se determinar entonces el correspondiente a cada estrato de manera que .4.2.1 Asignacin proporcional

Se utiliza cuando es posible suponer que las dispersiones de la variable de estudio no difieren en forma importante entre los estratos; consiste en asignar a cada estrato un tamao de muestra proporcional a su cantidad de unidades con respecto al total de unidades de la poblacin. Siendo el tamao de muestra total, se determina , el tamao de muestra en cada estrato con la frmula:

En este tipo de asignacin, al suponer similares niveles de variabilidad entre estratos, se asume que el impacto que cada estrato representa sobre el total est determinado por el tamao del mismo. 4.2.2 Asignacin de NeymanCuando se cuenta con informacin acerca de la variabilidad de alguna caracterstica importante en cada uno de los estratos, es posible utilizar una asignacin proporcional a una medida de la dispersin en cada estrato como sigue:

Donde es la desviacin estndar de la caracterstica de inters en el estrato h. Con esta asignacin se pretende mejorar la precisin de las estimaciones sobre el total de la poblacin ms que los de cada uno de los estratos; en este sentido, se evita el inconveniente de malgastar el tamao de muestra en estratos que aporten poca varianza a la estimacin global y para los que no se requieran desagregaciones y se obtienen niveles de precisin diferenciales entre estratos. 4.2.3 Asignacin X-proporcional

Cuando se observa, por estudios anteriores, que la dispersin de la caracterstica de inters no es constante entre los estratos pero s lo es en coeficiente de variacin, es posible llevar a cabo una asignacin en forma proporcional al total de la variable de estudio en cada estrato. Como no es posible contar con estos totales en la fase de planeacin del estudio, se utiliza una variable auxiliar X, que se supone altamente correlacionada con la caracterstica de inters y disponible para todas las unidades en el marco. La asignacin toma entonces la forma:

Con esta asignacin, se mejora la precisin en las estimaciones globales y se obtienen niveles de precisin diferenciales entre estratos.

4.2.4 Asignacin de potencia

Cuando se requiere minimizar la variabilidad de los estimadores al nivel global y tambin al de cada uno de los estratos, herramientas como la asignacin de Neyman pueden producir estimadores excesivamente precisos para el total y con niveles de calidad por debajo de lo deseable para estratos pequeos. En este caso, se recomienda la asignacin de potencia, que combina los coeficientes de variacin de la caracterstica de inters (u otra variable auxiliar altamente correlacionada) y los totales de esta misma variable en cada estrato. Se tiene:

Con tomando valores entre 0 y 1 inclusive, denominada la potencia de la asignacin y

El coeficiente de variacin de la variable auxiliar X en el h-simo estrato. Cuando la asignacin de potencia coincide con la de Neyman y cuando se lleva a cabo una asignacin proporcional a los coeficientes de variacin en los estratos, con lo que se asegura la misma precisin en todos ellos. Generalmente, se utilizan valores de o .

Ejemplo

Para ejemplificar los procedimientos de asignacin de muestra, suponga que se desea estimar el total de nacidos vivos en Colombia, en el ao 2007 a partir de una muestra de personas que se estratifica por regin. Se seleccionar un tamao de muestra global de 10.000 distribuidas en las distintas regiones. Adicionalmente, para probar asignaciones con informacin auxiliar, se cuenta con el total de nacidos vivos en el ao 2006, su varianza y su coeficiente de variacin.

Tabla 13. Asignacin de tamao de muestra a estratos. Ejemplo

ZonaPoblacinNacidos vivos 2006Asignacin Proporcio nalAsignacin de Neyman con XAsignacin X-Proporcio nalAsignacin de potencia a=1/2

NhtxSxhCVxh

BOGOTA6,740,859123,6490.03852.10001,6371,7281,7311,862

ANDINA16,597,681273,7980.03962.40004,0314,3743,8323,166

CARIBE8,880,986167,7380.03401.80002,1572,0102,3481,858

PACIFICO7,083,712107,2010.02421.60001,7201,1411,5001,321

LLANOS1,571,10435,4850.06102.70003826384971,282

AMAZONICA300,5116,5790.05472.50007310992511

N41,174,853714,45010,00010,00010,00010,000

Para verificar la forma como funciona cada tipo de asignacin, suponga que se toman los datos censales correspondientes al ao 2007, con una muestra de este tamao se obtienen los siguientes coeficientes de variacin:

Tabla 14. Comparacin de la eficiencia de herramientas de asignacin de tamao de muestra a estratos. Ejemplo (Continuacin)

ZonaPoblacinNacidos vivos 2007Asignacin ProporcionalAsignacin de Neyman con XAsignacin X-ProporcionalAsignacin de potencia a=1/2

NhtySyh

BOGOTA6,740,859126,7290.03855.1%4.9%4.9%4.7%

ANDINA16,597,681261,2110.03964.0%3.8%4.1%4.5%

CARIBE8,880,986131,8630.03404.9%5.1%4.7%5.3%

PACIFICO7,083,712101,2740.02424.1%5.0%4.4%4.7%

LLANOS1,571,10434,6040.061014.2%11.0%12.4%7.7%

AMAZONICA300,5114,7090.054740.9%33.4%36.4%15.4%

N41,174,853660,3902.32%2.27%2.30%2.40%

Observe que la asignacin proporcional, la de Neyman y la X-Proporcional, minimizan el coeficiente de variacin de la estimacin global (2.32%, 2.27% y 2.3%) generando estimaciones de baja precisin para las regiones de Llanos y Amaznica, en contraste, la asignacin de potencia genera una estimacin ligeramente menos precisa para el total global pero proporciona estimaciones de mejor calidad para los estratos, especialmente estos ltimos. Si el objetivo es hacer ms precisa la estimacin total, la mejor asignacin para estos datos sera la de Neyman, en tanto que si se desean estimaciones por estratos, sera ms conveniente utilizar la de potencia. 5. MUESTREO DE CONGLOMERADOS Y MUESTREO MULTIETPICO

El muestreo de conglomerados y el muestreo multitapico, al igual que el muestreo estratificado, no corresponden a diseos de muestreo como pueden serlo el MAS o el PPT. En su lugar, son herramientas que pueden ser utilizadas en combinacin con la estratificacin y con diseos de muestra para seleccionar las unidades que se entrevistarn para representar a la poblacin objetivo.En todos los casos estudiados anteriormente, es necesario contar con un marco de muestreo que permita acceder directamente a las unidades que conforman la poblacin objetivo, esto es, de un marco de elementos. No siempre es posible disponer de un marco de estas caractersticas y su construccin puede ser excesivamente costosa para la encuesta; adicionalmente, la dispersin geogrfica caracterstica de las muestras de elementos puede generar inconvenientes con la supervisin y ejecucin del operativo y con los costos asociados a este proceso, especialmente acentuados para poblaciones de gran tamao. Como respuesta a esta situacin, se presentan el muestreo de conglomerados y el muestreo multietpico, que brindan alternativas cuando no se dispone de marcos de elementos o cuando una excesiva dispersin geogrfica de la muestra es indeseable.5.1 MUESTREO DE CONGLOMERADOS

Consiste en la divisin de la poblacin objetivo en grupos, tambin denominados conglomerados o clusters, disyuntos entre s, y la seleccin de una muestra de grupos para representar al total de la poblacin, utilizando un diseo de muestreo como los mencionados. Todas las unidades que pertenecen a los conglomerados seleccionados, se consideran seleccionadas y no pertenecen a la muestra unidades de conglomerados que no han sido seleccionados; en este sentido, difiere del muestreo estratificado en el que se lleva a cabo una seleccin en todos los grupos (estratos) y solo pertenecen a la muestra algunas unidades de cada estrato.En general, los grupos que se utilizan para el muestreo de conglomerados son agrupaciones naturales de la poblacin, como los estudiantes de un curso, las viviendas de un rea geogrfica determinada o las personas que pertenecen a un hogar. Tambin es posible que sean conformados como parte de la planeacin de la encuesta. Ejemplo

Se pretende llevar a cabo una encuesta sobre rendimientos acadmicos de los estudiantes de educacin bsica en una ciudad; si bien a partir de los registros de establecimientos educativos es posible contar con un marco de estudiantes, la seleccin de una muestra de elementos y la consiguiente visita y entrevista de 1 o 2 estudiantes en un buen nmero de colegios puede ser excesivamente costosa.EjemploSe desea estudiar a travs de una encuesta por muestreo, las caractersticas de planificacin familiar de las mujeres entre 12 y 49 aos en el rea urbana de una ciudad; en este caso, no se dispone de un marco de mujeres con estas caractersticas sobre el cual seleccionar una muestra; en su lugar, se utiliza un marco de reas compuesto por manzanas cartogrficas y se entrevista a todas las mujeres que cumplan con el rango de edad y que residan en las manzanas seleccionadas. El uso del muestreo por conglomerados en lugar del muestreo directamente de elementos se traduce en una prdida de precisin para un tamao de muestra dado; en este sentido, una muestra aleatoria simple de 2000 estudiantes tiene mayor precisin que una muestra aleatoria simple de 100 cursos de 20 estudiantes cada uno. Esto se presenta porque las unidades que se presentan agrupadas en conglomerados tienden a presentar caractersticas similares con lo que es posible que se requiera una mayor cantidad de grupos para captar el espectro de distintos comportamientos en la poblacin. Considerando los ejemplos presentados, puede observarse que el rendimiento acadmico de estudiantes que comparten un curso, se ve influenciado por aspectos como el profesor que lo dicta o el ambiente de exigencia del grupo, con lo que podra esperarse cierto nivel de homogeneidad.Adicionalmente, la seleccin de conglomerados puede llevar a ligeras desviaciones del tamao de muestra originalmente planteado; en el ejemplo anterior, es posible que alguno de los cursos seleccionados no tenga exactamente 20 estudiantes con lo que el tamao de muestra total puede ser diferente de las 2000 unidades que se esperaban.Ventajas

Es posible utilizarlo aun cuando no se cuente con un marco de elementos de la poblacin objetivo

Los tiempos de desplazamiento y los costos para entrevistas personales son inferiores a los del muestreo de elementos, como resultado de la menor dispersin geogrfica de la muestra

Como solo se requiere un marco de conglomerados, es ms fcil acceder a informacin auxiliar que permita implementar diseos ms eficientes en trminos de precisinDesventajas

Es menos preciso que una muestra de elementos del mismo tamao y seleccionada con el mismo diseo; en este sentido, es posible que se requiera un mayor tamao de muestra total para alcanzar el nivel de precisin deseado.Grfico 11. Esquema grfico del muestreo de conglomerados

5.1.1 Probabilidades de inclusin del muestreo de conglomerados

Considerando que la seleccin de muestra se hace sobre grupos de unidades, cada unidad tiene como probabilidad de inclusin la que corresponde al grupo en que se encuentra. 5.1.2 Eficiencia del muestreo de conglomeradosComo se mencion anteriormente, una muestra de conglomerados tiene menor precisin que una de elementos de igual tamao y seleccionada con el mismo tipo de diseo. Esta prdida de precisin est asociada con dos factores: la variabilidad en la cantidad de unidades que componen los conglomerados y el nivel de homogeneidad que se presente en su interior con respecto a las caractersticas en estudio. Cuando es posible elegir entre distintos tipos de conglomerado (para reas geogrficas, por ejemplo, podra escogerse el sector, la seccin o la manzana), es importante considerar que un conglomerado de mayor tamao tiene ms posibilidades de presentar baja homogeneidad, pero puede incrementar los costos del estudio. Para el diseo de muestra, es necesario contar con informacin que permita aproximarse al verdadero nivel de homogeneidad de las unidades e incluirlo en el proceso de clculo de tamao de muestra. 5.2 MUESTREO MULTIETPICO

El muestreo multietpico est relacionado con el muestreo de conglomerados en el sentido de seleccionar grupos de unidades en una primera instancia; sin embargo, en el multietpico no se entrevista a todas las unidades que conforman el grupo sino que se selecciona una muestra de unidades en cada uno de los grupos seleccionados. Es posible seleccionar muestras en dos, tres o ms etapas. EjemploEn un estudio nacional urbano sobre las caractersticas de los hogares que tienen personas residentes en el exterior, se selecciona una muestra en tres etapas as:

1. Sobre un listado de distritos del pas, se selecciona una muestra

2. En cada uno de los distritos seleccionados se identifica el listado de manzanas que compone el rea urbana

3. Se lleva a cabo una seleccin de manzanas en cada distrito seleccionado

4. En cada manzana seleccionada se construye un listado de los hogares residentes5. Se selecciona una muestra de hogares para ser entrevistada, en cada una de las manzanas seleccionadas.

Ejemplo

Para el estudio de rendimiento acadmico de estudiantes de primaria en una ciudad, se utiliza una muestra seleccionada en dos etapas como sigue:1. A partir de un marco de establecimientos educativos de la ciudad, se selecciona una muestra con diseo proporcional a la cantidad de estudiantes de cada establecimiento2. En cada establecimiento, se elabora el listado de estudiantes que asisten regularmente y se selecciona la muestra de estudiantes que participar en la encuesta. Para la aplicacin de esta herramienta, suele partirse de la jerarqua natural existente entre los grupos (personas en hogares, hogares en manzanas, manzanas en sectores, sectores en municipios, ); tambin puede hacerse una construccin de los grupos en cada una de las etapas del diseo de muestra. Como se observa en los ejemplos anteriores, una de las mayores ventajas del muestreo multietpico es que solo se necesita la consecucin o construccin de los marcos de muestreo de una etapa para los grupos que han sido seleccionados en la etapa anterior. Revisando el primer ejemplo presentado, solamente es necesaria la construccin del listado de hogares en las manzanas que se seleccionaron para la muestra, lo que tiene un gran efecto en los tiempos y costos de la encuesta.

Adicionalmente, el muestreo multietpico comparte con el de conglomerados la ventaja de concentrar la muestra geogrficamente, facilitando el control y ejecucin del operativo de recoleccin de informacin.

5.2.1 Probabilidades de inclusin del muestreo multietpico

Las probabilidades finales de inclusin de un elemento en la muestra, se calculan multiplicando las probabilidades en cada una de las etapas del diseo as: para el ejemplo de migracin:

Probabilidad de incluir un hogar =

(Probabilidad de incluir el distrito en el que est) * (Probabilidad de incluir la manzana en que est) * (Probabilidad de incluir el hogar en la manzana)5.2.2 Eficiencia del muestreo multietpico

Con esta herramienta, al igual que con la de conglomerados, se obtiene un menor nivel de precisin en comparacin con una muestra de elementos del mismo tamao y seleccionada con diseos comparables. Sin embargo, la ventaja de requerir marcos de muestreo para cada una de las etapas facilita la consecucin de informacin auxiliar que permita mejorar la precisin de los estimadores. En este caso, la determinacin del tamao de muestra se hace etapa por etapa, considerando la variabilidad que aporta cada etapa de seleccin a la varianza final de los estimadores globales; se determinan tamaos de muestra para cada etapa, que pueden ser diferenciales entre grupos de elementos.

Ejemplo

Considerando nuevamente el ejemplo de migracin, es necesario establecer en primera instancia el tamao de la muestra de distritos y a continuacin, el nmero de manzanas a seleccionar en cada uno y el de hogares que se tomarn en cada manzana. Si hay diferencias importantes entre la magnitud de los distritos, es posible requerir tamaos diferenciales en las muestras de manzanas y de hogares. Grfico 12. Esquema grfico del muestreo multietpico

6. PROCEDIMIENTOS DE ESTIMACINUsualmente, el objetivo que se persigue al implementar una encuesta por muestreo es obtener informacin sobre una poblacin determinada; sin embargo, como la recoleccin de datos se lleva a cabo solo para una muestra de unidades, es necesario efectuar un proceso que permita extrapolar los resultados de la muestra al conjunto total de unidades que conforman la poblacin de la cual sta fue seleccionada. La estimacin es el proceso de encontrar un valor plausible para una caracterstica de la poblacin objetivo, basados en los datos recolectados en la muestra. Estas caractersticas de inters pueden expresarse generalmente con estadsticas como totales, promedios, proporciones o razones de las distintas variables; como ejemplo, sobre una encuesta para medir qu hace la gente con su tiempo libre, es posible estar interesado en la estimacin de: El porcentaje de personas que ha asistido al menos a una funcin de teatro en los ltimos doce meses (Proporcin Razn)

El consumo promedio per-cpita anual en libros, msica o cine (Promedio) El gasto total anual de los hogares en bienes de consumo cultural (Total)

La relacin entre la cantidad total de hombres y mujeres que tiene acceso a los servicios culturales, como medida de desigualdad (Razn)Como se seal en el numeral 1.4.2, cuando la muestra que se seleccion es no probabilstica, la extrapolacin de los resultados de la muestra hacia la poblacin se hace utilizando los supuestos que motivaron este tipo de muestra (suficiente homogeneidad en la poblacin objetivo, conocimiento de parte de expertos, etc.) y no sigue los criterios de la inferencia estadstica ni es posible contar con medidas estadsticas de su calidad. Cuando la muestra es probabilstica, se utiliza la inferencia estadstica a partir de las probabilidades inducidas en diseo de muestreo utilizado; en este caso, se emplea el factor de expansin que, dependiendo del diseo y estimadores a utilizar, es el inverso de la probabilidad de inclusin o de la probabilidad de seleccin de cada elemento y que indica el nmero de unidades de la poblacin que son representadas por cada unidad de la muestra. 6.1 Principios generales del proceso de estimacinEl proceso de estimacin se inicia determinando el factor de expansin que corresponde a cada unidad de la muestra, conforme al diseo utilizado para la seleccin de la muestra y el estimador elegido para llevar a cabo la estimacin.

Para los diseos de muestra sin reemplazamiento como el Muestreo Aleatorio Simple, el Sistemtico o el PT, se utiliza un estimador denominado -estimador o estimador de Horvitz-Thompson, que emplea como factor de expansin el inverso de la probabilidad de inclusin de cada unidad en la muestra. En los diseos con reemplazamiento como el PPT, el estimador ms frecuentemente empleado se denomina MCR-estimador y utiliza el inverso del producto entre la probabilidad de seleccin de cada unidad y el tamao de muestra, como factor de expansin. Para el proceso de estimacin, se multiplica el valor obtenido en cada variable para cada unidad por el factor de expansin que le corresponde a la unidad, como ponderador o peso y se hace el clculo de la estimacin siguiendo el mismo procedimiento que se seguira para el clculo del parmetro en la poblacin total, esto es, se suma para calcular un total, se promedia para calcular un promedio y as. A continuacin, se presenta el factor de expansin correspondiente a los diseos presentados en este documento: Muestreo Aleatorio Simple MAS, Sistemtico y Proporcional al Tamao con Reemplazamiento, PPT.

1. Muestreo Aleatorio Simple MAS:

Con el total de unidades en la poblacin objetivo y el tamao de muestra seleccionado

2. Sistemtico:

Con el intervalo de seleccin y el nmero de rplicas o arranques aleatorios utilizado.

3. Muestreo con Probabilidad Proporcional al Tamao con reemplazamiento - PPT:

Con el tamao de muestra seleccionado y la variable utilizada para construir las probabilidades de seleccin del diseo.Para la estimacin de los parmetros que involucran variables cuantitativas (discretas o continuas), es frecuente proceder directamente con las variables que se han recolectado, despus de los procesos de consistencia e imputacin; esto pasa por ejemplo con variables como las ventas mensuales de los establecimientos econmicos, el gasto total efectuado por hogares en algn rubro o el rea total sembrada en determinado cultivo. En otros casos, cuando las variables involucradas son cualitativas, y aparecen codificadas (1 Hombres, 2 Mujeres por ejemplo) se acostumbra generar variables indicadoras o dummy, que representan cada una de las categoras de la variable. Como ejemplo, considere:

Otro caso que se presenta es el de la necesidad de determinar la pertenencia de una unidad a un dominio de estudio esto es, a un subconjunto de la poblacin determinado por ciertas caractersticas, por ejemplo: las mujeres en edad frtil (mujeres de 12 a 49 aos), la poblacin econmicamente activa (hombres y mujeres mayores de 12 aos que trabajaron o buscaron empleo en la semana de referencia) o las pequeas empresas (que tienen entre 11 y 50 trabajadores); puede ser necesario combinar varias variables para determinar la pertenencia de una unidad en la muestra a una de estas subpoblaciones. Operacionalmente, esto se resuelve creando indicadoras para las categoras de las variables involucradas y multiplicando estas variables para definir el dominio, como en el siguiente ejemplo para las mujeres en edad frtil:

El dominio de estudio en este caso, corresponde al producto . Utilizando este mtodo, las nuevas variables indicadoras son las que se emplean en el proceso de estimacin.

6.2 Estimacin de algunos parmetros frecuentes

A partir de una encuesta por muestreo usualmente se estiman totales, promedios, proporciones o razones. Si bien en algunos casos se requiere otro tipo de parmetro, como medianas, covarianzas o coeficientes de regresin, stos no sern tratados en este documento. El proceso de estimacin de estos parmetros, depende del tipo de estimador a utilizar y del diseo con que se haya seleccionado la muestra, que se traduce en la forma que asumen los factores de expansin. A continuacin se presenta la frmula que asume el estimador en cada tipo de parmetro, suponiendo que para los diseos sin reemplazamiento, se trabaja con el estimador de Horvitz Thompson y para los diseos con reemplazamiento, con el MCR-Estimador. Esta diferencia est implcita en la definicin de los factores de expansin que se da en el numeral 6.1 Principios generales del proceso de estimacin.

6.2.1 Totales

Un parmetro del tipo total es la suma sobre la poblacin objetivo de una variable determinada.

Ejemplos:

1. El total de ventas de los establecimientos de comercio en una ciudad2. El total de personas que asisti a teatro al menos una vez al mes en el ltimo ao3. El rea total nacional sembrada en arrozPara su estimacin se emplea la frmula:

Sumando sobre la muestra n el producto entre la variable de inters y el factor de expansin. En los casos en que la variable es cualitativa la variable que participa en el clculo es la indicadora correspondiente a la categora para la que se desea estimar el total. La notacin con gorrito que aparece sobre la t sirve para diferenciar el valor del parmetro y el estimador.

En los ejemplos 1 y 3, la variable y corresponde al dato de ventas reportado por cada establecimiento en la muestra y al rea sembrada en arroz en cada una de las fincas seleccionadas respectivamente. En el ejemplo 2, la variable involucrada es la indicadora que toma el valor 1 cuando la persona ha asistido a teatro al menos una vez al mes en el ltimo ao y 0 en otro caso.

Ejemplo 1. MASSuponga que se desea estimar el total de ventas del mes anterior de los establecimientos de comercio de la ciudad de Arequipa. Para este fin, sobre un listado de 240 establecimientos se selecciona una muestra de 13 utilizando Muestreo Aleatorio Simple MAS. Los datos recolectados son:

Tabla 15. Estimacin de totales. Ejemplo MAS

No.EstablecimientoNnfexp = N/nTotal de ventasYi*fexp

6Almacn La 42401318.462850,60015,703,385

102Distribuidora Espinal2401318.462186,400 3,441,231

34Ropa FASHION2401318.462 80,200 1,480,615

5Venta de Quesos Arturo2401318.462 65,000 1,200,000

15Zapatos Ganga2401318.462160,000 2,953,846

204Cacharrera Mi pueblo2401318.462 45,000 830,769

158Venta de ropa Anita2401318.462 45,200 834,462

72Tienda La esquina2401318.462 36,800 679,385

156Estanco 2401318.462 68,700 1,268,308

51Ferretera Su casa2401318.462 32,000 590,769

123Electrodomsticos VIP2401318.462320,000 5,907,692

172Autopartes de la 122401318.462 87,000 1,606,154

220Tienda Pedro2401318.462 65,800 1,214,769

TOTAL ESTIMADO 37,711,385

Ejemplo 2. PPT

Utilizando la informacin del ejemplo de seleccin PPT con mtodo sistemtico (Tabla 10), se estima el total de rea sembrada en arroz:

Tabla 16. Estimacin de totales. Ejemplo PPTNo.Fincarea (Ha)Pifexp = 1/(n*pi)rea sembrada en arroz(Ha)Yi*fexp

4AMANECER2640.2575609760.970643939210203.84

6ASTAIZA3500.3414634150.732142857300219.64

6ASTAIZA3500.3414634150.732142857300219.64

9EL PARAISO780.0760975613.28525641 0 0.00

TOTAL ESTIMADO 643.12

Observe que en este caso, la diferencia entre las reas de la finca Astaiza y las dems hicieron que sta saliera seleccionada dos veces; para la estimacin del total, se duplica su informacin (una para cada vez que sali seleccionada) y su factor de expansin as como el de Amanecer, son menores que 1 previendo la posibilidad de este fenmeno.

6.2.2 Promedios

Un promedio es la suma de una variable cuantitativa, dividido por el total de elementos en la poblacin objetivo. Para efectos de estimacin, se supone que el total de elementos es conocido y que no se estima a partir de la muestra, en cuyo caso se trabaja como si fuese un parmetro de tipo razn. Ejemplos:

1. Edad promedio de ingreso a la escuela primaria2. Promedio de personas ocupadas en los establecimientos industriales que se dedican a la manufactura de cuero3. Gasto anual promedio por hogar en alimentos

La frmula empleada para la estimacin es:

Con N el tamao conocido de la poblacin. En el ejemplo 1, la variable y es la edad a la que se ingresa a la escuela y N es el total de personas de la poblacin; en el ejemplo 2, la variable involucrada es la cantidad de personas ocupadas y N es la cantidad conocida de establecimientos industriales dedicados a la manufactura de cuero, que puede ser una