Otros temas relacionados con el muestreo
/// Esquef1U1 del capitulo
20.1. Pasos basicos de un estudio realizado por muestreo 20.2. Errores de muestreo y errores ajenos al muestreo 20.3. Muestreo aleatorio simple
Analisis de los resultados de un muestreo aleatorio simple 20.4. Muestreo estratificado
Analisis de los resultados de un muestreo aleatorio estratificado Afijaci6n del esfuerzo muestral a los distintos estratos
20.5. Elecci6n del tamano de la muestra Tamano de la muestra para el muestreo aleatorio simple: estimaci6n de la media o total poblacional Tamano de la muestra para el muestreo aleatorio simple: estimaci6n de la proporci6n poblacional Tamano de la muestra para un muestreo aleatorio estratificado con un grado de precisi6n especificado
20.6. Otros metodos de muestreo Muestreo por conglomerados Muestreo bietapico Metodos de muestreo no probabilisticos
Introducci6n
Una gran parte de la inferencia estadfstica se refiere a problemas en los que se hacen afirmaciones sobre una poblaci6n basandose en informaci6n procedente de una muestra. Hasta ahora hemos tratado de una manera bastante superficial dos importantes temas. En primer lugar, apenas nos hemos referido a la forma en que se seleccionan real mente los miembros de la muestra. En segundo lugar, hemos supuesto en general que el numero de miembros de la poblaci6n es muy grande en comparaci6n con el numero de miembros de la muestra. En este capitulo examinamos el problema del investigador que quiere descubrir algo sobre una poblaci6n que no es necesaria mente grande. EI investigador pretende reunir informaci6n unicamente sobre un subconjunto de la poblaci6n y necesita orientaci6n para saber c6mo debe reunirla.
812 Estadistica para administracion y economia
20.1. Pasos basicos de un estudio realizado por muestreo Los analistas de mercado a menudo estudian las poblaciones humanas para obtener informacion sobre sus preferencias por un producto. Los auditores normal mente seleccionan una muestra de facturas pendientes de cobro de una empresa. Se hacen inferencias sobre la poblacion correspondiente basandose en estas muestras. Los directores de personal requieren informacion sobre las actitudes de los empleados hacia los nuevos metodos de produccion propuestos y les resulta util tomar una muestra de la plantilla. Naturalmente, el uso de metodos de muestreo esta muy extendido y va mas alla del campo de la empresa. Tal vez los ejemplos mas conocidos sean las encuestas que se hacen periodicamente sobre las preferencias de los votantes antes de las elecciones. La informacion recogida tiene interes no solo para el publico en general sino tambien para los asesores de los candidatos que tratan de averiguar donde deb en concentrar mas los esfuerzos. Esas encuestas a los votantes han aumentado tanto que se recaba la opinion de los votantes sobre todos los aspectos de la polftica y los encuestadores profesionales se han convertido en una importante figura en el sequito del politico.
Antes de preguntar como debe tomarse una muestra de una poblacion, tal vez se pregunte el lector por que hay que to mar una muestra. La alternativa es intentar obtener informacion de todos los miembros de la poblacion. En ese caso, hablarfamos de censa y no de muestra. Hay varias razones por las que a menudo se prefiere una muestra a un censo. En primer lugar, en muchas aplicaciones serfa enormemente caro tomar un censo completo, a menudo prohibitivo. En segundo lugar, muchas veces es necesario disponer de informacion bastante deprisa; un censo completo, incluso aunque sea economicamente viable, puede tardar tanto en realizarse que el valor de los resultados puede disminuir seriamente. Otra razon para tomar una muestra es que con los metodos estadisticos modernos generalmente es posible obtener resultados con el grado deseado de precision por medio del muestreo. El tiempo y el dinero necesarios para obtener numeros cuya precision aparente es mayor que la que necesita el investigador podrfan dedi carse mejor a otras cosas. Ademas, si se toma una muestra relativamente pequefia, los beneficios que se obtendrian haciendo un esfuerzo mayor para conseguir informacion precisa de los rniembros de la muestra podrfan muy bien ser mayores que los beneficios de obtener informacion de un grupo mayor que puede ser menos fiable debido a las limitaciones de tiempo y de costes. En cuarto lugar, algunos muestreos son destructivos y los sujetos contrastados se destruyen en el estudio. As! sucederfa si se tratara de contrastar la duracion de las bombillas, la duracion de una determinada marca de neumaticos 0 la resistencia de los tubos de vidrio a las roturas. Estos factores -coste, tiempo, precision y caracter destructivo- considerados en conjunto llevan a preferir en much as ocasiones las muestras a los censos.
Supongamos ahora que se necesita informacion sobre una poblacion y que se ha decidido tomar una muestra. Es comodo considerar que un estudio realizado por muestreo consta de los seis pasos siguientes, cada uno destinado a dar una respuesta a una pregunta. La Figura 20.1 muestra estos pasos.
1. Primer paso: (,que informacion se necesita? 2. Segundo paso: (,cual es la poblacion relevante y existe un listado de esa poblacion? 3. Tercer paso: (,como deben seleccionarse los miembros de la muestra? 4. Cuarto paso: (,como debe obtenerse informacion de los rniembros de la muestra? 5. Quinto paso: (,como debe utilizarse la informacion muestral para hacer inferencias
sobre la poblacion? 6. Sexto paso: (,que conclusiones pueden extraerse sobre la poblacion?
Capitulo 20. Otros temas relacionados can el muestreo 813
Figura 20.1. PasoS en un estudio realizado por rnuestreo.
Sexto paso: lconclusiones?
Quinto paso: linferencias de la muestra?
Cuarto paso: lobtener informacion?
Tercer paso: lseleccion de la muestra?
Segundo paso: lPoblacion relevante?
Primer paso: linformacion necesaria?
Se analiza cada uno de esos pasos en relacion con un problema de un estudio de mercado. Supongamos que un editor pretende publicar un nuevo libro de texto de estadistica y qui ere informacion sobre la situacion actual del mercado. La informacion valiosa podria ser el numero de estudiantes matriculados en los cursos de estadistica para los negocios, la penetracion de los textos existentes en el mercado y las opiniones de los profesores sobre los temas que son mas importantes para sus cursoS. Supongamos que el editor quiere recogel' datos de una muestra de campus universitarios.
1. l.Que informacion se necesita?
La respuesta a esta pregunta es tanto el motivo como el punto de partida para realizar el estudio. Si la informacion necesaria ya existe 0 es imposible de obtener, no tiene sentido realizar el estudio. Por muy sencilla que parezca la pregunta, a menu do es necesario lograr un equilibrio bastante delicado en esta fase. El investigador puede estar pensando en un unico tema 0 puede haber varios temas de interes . Pero dado que va a realizarse el estudio, con todos sus costes, normalmente merece la pena preguntarse si puede obtenerse en el estudio mas informacion potencial mente util con un gasto adicional minimo. En el caso del editor del libro de estadfstica para los negocios, las preguntas mas Miles se refieren al tamafio del mercado, a la situacion de los competidores y a los temas que los profesores consideran mas importantes. Dado que hay que entrar en contacto con los miembros de la muestra para recabar esta informacion, puede merecer la pena hacer algunas preguntas mas. Estas pueden ser si el curso es de un cuatrimestre 0 de dos, si es optativo u obligatorio, el departamento del profesor, el metoda para adoptar el libro y el tiempo que !leva utilizandose el libro actual. Una vez elegido ese camino, se puede tener la tentacion de dejar que la lista de preguntas au mente espectaclllarmente, ya que eso generalmente no incrementa mucho el coste del estudio. Sin embargo, puede tener un problema. Es mas probable que los encuestados cooperen en un estudio en el que se hacen relativamente pocas preguntas, ya que se les qllita poco tiempo. Es importante, pues, para el investigador buscar el equilibrio, es decir, hacer preguntas sobre cuestiones centrales (pues, si se descubre una omision importante, puede ser demasiado caro repetir to do el ejercicio) y conseguir que el numero de preguntas sea tolerable para los encuestados.
814 Estadfstica para administracion y economfa
2. l,Cual es la poblacion relevante y existe un listado de esa poblacion?
Parece bastante trivial sefialar que para hacer inferencias sobre una poblacion, esa es la poblacion que debe muestrearse. No obstante, a menudo se han extraido dudosas conclusiones tras un amilisis, por 10 demas absolutamente respetable, de los datos de encuesta precisamente porque no se ha tenido en cuenta este punto elemental. Muchas publicaciones piden la opinion de sus lectores sobre determinadas cuestiones. Sin embargo, seria peligroso generalizar sus respuestas a la poblacion en general. La poblacion estudiada en este caso es simplemente la de lectores de la publicacion y es probable que estos lectores no sean representativos del publico en general. En muchos estudios practicos, la poblacion real de interes puede ser imposible de definir. Por ejemplo, una organizacion que intenta predecir el resultado de un as elecciones presidenciales solo esta interesada realmente en la poblacion que votara. Aunque esta es la poblacion relevante, sus miembros no son faciles de distinguir. Una posibilidad es, por supuesto, preguntar a un miembro de una muestra si tiene intencion de votar. Si embargo, es bien sabido que la proporcion que responde afirmativamente a una pregunta de ese tipo es mayor que la proporcion que acaba votando. Otra posibilidad es preguntar si el encuestado voto en las elecciones anteriores, pero esta pregunta tambien dista de ser totalmente satisfactoria.
Es probable que el editor del libro de texto considere que la poblacion relevante son todos los profesores (0 quiza todas las universidades) que imparten cursos de estadistica para los negocios. La poblacion es bastante facil de identificar y, como consecuencia de actividades de marketing anteriores, el editor tendra casi con toda seguridad un listado bastante preciso de sus miembros.
3. l,Como deben seleccionarse los miembros de la muestra?
Una gran parte del resto de este capitulo se dedica a responder a esta pregunta. En pocas palabras, no existe una unica forma de conseguir el «mejor» sistema de muestreo. La eleccion correcta depende generalmente del problema en cuestion y de los recursos del investigador. Ya hemos introducido anteriormente el concepto de muestreo aleatorio simple, en el que todos los miembros de una poblacion tienen la misma probabilidad de ser elegidos para la muestra. De hecho, todos los instrumentos para analizar los datos que hemos introducido hasta ahora se basaban en el supuesto de que la muestra se elegia de esta forma. Existen, sin embargo, muchas circunstancias en las que podria preferirse otro sistema de muestreo. Supongamos que a nuestro editor Ie interesan las diferencias entre el tratamiento que se da a la estadfstica empresarial en las escuelas universitarias de grado medio y el que se Ie da en las facultades de grado superior. Serfa importante que la muestra contuviera suficientes centros de cada tipo para po del' extraer conclusiones fiables sobre ambos. Sin embargo, el muestreo aleatorio simple no garantiza en modo alguno que se logre ese objetivo. POl' ejemplo, es absolutamente posible que la muestra elegida contenga una preponderancia de facultades. Para evitar esta posibilidad, pueden extraerse muestras aleatorias simples de las respectivas poblaciones de los dos tipos. Este es un ejemplo de muestreo estratificado, que se analiza mas detalladamente en el apartado 20.4. Otra cuestion que hay que decidir en esta fase es el numero de miembros de la muestra. En este caso, la eleccion depende esencialmente del grado de precision necesario y de los costes que implica. Esta cuestion se aborda en el apartado 20.5.
Capitulo 20. Otros temas relacionados can el muestreo 815
4. l,Como debe obtenerse informacion de los miembros de la muestra?
Esta pregunta es extraordinariamente importante y ha sido objeto de muchas investigaciones. En terminos generales, plantea dos importantes cuestiones. En primer lugar, el investigador quiere obtener respuestas de la mayor proporcion posible de los miembros de la muestra. Si el numero que no responde es alto, sera diffcil estar segura de que los que han respondido son representativos de la poblacion en general. Por ejemplo, los profesores que no facilitan informacion al editor del libro de texto pueden estar mas dedicadas a la investigacion, a la consultoria 0 a otras actividades y sus preferencias sabre los libros pueden muy bien ser diferentes de las de sus colegas. Recuerdese que el numero de preguntas formuladas en una encuesta puede afectar a la tasa de respuesta. Tambien influye la forma en que se conlacla can los miembros de la muestra. A menudo los cuestionarios sc envian por correo a las personas seleccionadas para la muestra y a menudo ocurre que la proporcion que responde es decepcionantemente baja. Muchos investigadores intentan mejorar la tasa de respuesta adjuntando una carta en la que explican los fines del estudio y solicitan ayuda educadamente. La garantia del anonimato tambien puede ser valiosa. La inclusion de un sobre con el franqueo pagado para devolver el cuestionario general mente merece la pena; tambien puede prometerse algun pequeno incentivo monetario 0 regalo. No obstante, habra casi inevitablemente una proporcion de personas que no respondan y es una buena practica instituir un estudio de seguimiento para tratar de obtener mas informacion sabre elias. Es probable que los metodos de contacto mas caros, como las lIamadas telefonicas 0 las visitas de los entrevistadores a las casas, logren un nivel de respuesta mas alto. Sin embargo, esos metodos pueden ser caros en tiempo y dinero y la decision de como recoger informacion debe depender de los recursos del investigador y del grado en que se piense que la falta de respuesta puede ser un problema serio.
El editor del libro de texto puede decidir enviar cuestionarios por correo a los miembros de la muestra. Seria barato, por 10 que podrfa extraerse una muestra inicial relativamente grande. La esperanza es que la proporcion de personas que no rcsponden no sea demasiado alta y que las respuestas obtenidas sean razonablemente representativas. Si se teme que la falta de respuesta introduzca un sesgo considerable si se envfa un cuestionario pOl' correo, se podria tomar una muestra inicial mas pequena y hacer un esfuerzo mayor para contactar con sus miembros. Una estrategia viable es pedir a los representantes de la empresa, que visitan periodicamente los campus, que realicen entrevistas con miembros de la muestra en su siguiente visita. Ese metoda deberfa garantizar una tasa de respuesta bastante alta. Su principal dificultad estriba en el tiempo necesario para realizar todas las entrevistas mas que en el coste adicional, que serfa bastante bajo.
El segundo punto es obtener respuestas que sean 10 mas exactas y sinceras posible. No sirve de nada hacer un sofisticado analisis estadistico de informacion que no es fiable . Formular las preguntas, ya sea para enviarlas pOl' correo 0 para que las realice un encuestador, de tal forma que se consigan respuestas sinceras y exactas es to do un arte. Es importante que las preguntas se formulen de la manera mas clara e inequivoca posible, de modo que los sujetos entiendan 10 que se les pregunta. Tambien se sabe perfectamente que la formulacion de las preguntas 0 el tono del entrevistador pueden inducir a los encuestados a dar determinadas respuestas. Los entrevistadores no deben dar en modo alguno la impresion de que tienen firmes ideas sobre el tema en cuestion 0 de que quieren una respuesta concreta. Tambien es importante no predisponer a los encuestados: las preguntas deben formularse de la forma mas neutral posible. Por poner un ejemplo extremo, consideremos los dos metodos siguientes para preguntar esencialmente 10 mismo:
816 Estadfstica para administraci6n y economfa
a) i, Que tres temas considera mas importantes en su curso de estadfstica para los negocios?
b) i,Esta de acuerdo en que los metodos modernos de gestion de la calidad, debido a su enorme importancia en el mundo de la empresa, ahora deben considerarse uno de los mas importantes en cualquier curso de estadistica para los negocios?
Naturalmente, nadie que tenga interes en tener una idea precisa de las opiniones de los profesores haria la segunda pregunta. Sin embargo, se ha observado que formulaciones que tienen un sesgo mucho menos claro que el de esta influyen significativamente en las respuestas de los sujetos.
5. {,Como debe utilizarse la informacion de la muestra para hacer inferencias sobre la poblacion?
Hemos dedicado la mayor parte de este libro a dar respuesta justamente a esta pregunta. En los apartados posteriores de este capitulo, analizamos metodos de inferencia de disefios de muestreo especfficos. El objetivo principal del presente apartado es sefialar la importancia de otros aspectos de un estudio por muestreo.
6. {,Que conclusiones pueden extraerse sobre la poblacion?
Por ultimo, cerramos el cfrculo y preguntamos que puede decirse sobre la poblacion estudiada como consecuencia de una investigacion estadfstica. i,Ha dado el estudio claras respuestas a las preguntas que 10 motivaron? i,Han surgido otras cuestiones importantes en el curso del estudio? En esta fase, el investigador tiene la tarea de resumir y presentar la informacion recogida. Para eso pueden ser necesarias estimaciones puntuales 0 por intervalos, asf como tablas 0 gr:ificos que resuman los principales resultados. i,Cu:il es la mejor estimacion del numero de estudiantes matriculados en los cursos de estadistica para los negocios y pueden estimarse intervalos de confianza en torno a esta estimacion? i,Cuales son los libros de texto mas populares en este momento? i,Que temas consideran mas importantes los profesores? i,Existen diferencias significativas entre los mercados de las escuelas universitarias y las facultades? En esta fase, la tarea es informar sobre los resultados del estudio y decidir como proceder. Puede que el analisis sugiera la conveniencia de recoger mas informacion.
A menudo surgen importantes cuestiones imprevistas durante el curso del estudio que inducen al investigador a estudiar en mayor profundidad la poblacion. Esta es la razon por la que nuestro editor hace una pregunta abierta como la siguiente: «Nuestra empresa esta considerando la posibilidad de introducir en el mercado un nuevo libro de texto de economfa. i,Hay alguna caracterfstica que Ie gustarfa que tuviera ese libro?». Supongamos, ademas, que cuando se devuelven los cuestionarios, un numero considerable menciona la posibilidad de que se venda simultaneamente una gran base de datos que contenga datos sobre problemas reales del mundo de la empresa. Analizando estos datos, los estudiantes podrfan adquirir experiencia practica en temas del curso. Antes de incurrir en el coste de producir este program a informatico, al editor podrfa merecerle la pena tomar otra muestra para evaluar las probabilidades de exito de este proyecto.
Capitulo 20. Otros temas relacionados con el muestreo 817
EJERCICIOS
Ejercicios basicos 20.1. Suponga que quiere realizar un estudio para co
nocer las opiniones de los estudiantes de administracion de empresas de su campus sobre la necesidad de que la asignatura de estadistica sea obligatoria. Analice los pasos que seguirfa para realizar este estudio, los problemas que esperarfa encontrar y las tecnicas que podrfa utilizar para resolver los problemas.
20.2. Las autoridades universitarias tienen interes en conocer las opiniones de los estudiantes sobre algunos servicios universitarios (como la matrfcula, los comedores 0 el servicio medico). Le han pedido que haga una encuesta. Sugiera como seguirfa los seis pasos de un estudio de muestreo.
20.3. El director de una tienda de ropa situ ada en el campus esta considerando la posibilidad de introducir algunos artfculos mas de marca y quiere evaluar la demanda de estos artfculos por parte de los estudiantes. Se Ie ha encargado que disene una encuesta para obtener esta informacion. Explique detalladamente 10 que haria.
20.4. Una empresa de servicios financieros esta considerando la posibilidad de introducir tres nue-
vos tipos de fondos de inversion . Se cree que, al menos inicialmente, la mayor parte del apoyo probablemente provendria de sus clientes actuales. A la empresa Ie gustarfa evaluar el grado de interes que tienen estos clientes en los nuevos productos propuestos y preferiblemente conocer tambien las caracterfst icas re levantes de las personas mas interesadas. Le han encargado un estudio con un presupuesto limitado. ~Que haria?
20.5. A los ejecutivos de una companfa de seguros, conscientes de que han aumentado significativamente algunos tipos de prim as de seguro en los ultimos anos, les preocupa la imagen publica de su sector y la posibilidad de que tenga repercusiones poifticas. Se ha decidido lanzar una campana de relaciones publicas para informar al publico sobre las causas de los incrementos de los costes. Sin embargo, existe mucha incertidumbre sobre los temas que mas preocupan a la gente y sobre el grado en que se comprenden los factores que subyacen a las subidas de los precios. Explique como pod ria organizar un estudio para obtener informacion relevante. Siga los pasos basicos de un plan de muestreo.
20.2. Errores de muestreo errores ajenos al muestreo
Cuando se toma una muestra de una poblacion, no es posible saber cwil es exactamente el valor de cualquier parametro poblacional, como la media 0 la proporcion. Cualquier estimacion puntual tendni inevitablemente un error. Recuerdese que una de las fuentes de error, llamado error de muestreo, se debe a que s610 se dispone de informaci6n sobre un subconjunto de todos los miembros de la poblaci6n. Dados ciertos supuestos, la teorfa estadfstica nos permite caracterizar la naturaleza del error de muestreo y hacer afirmaciones probabilfsticas bien definidas sobre los panimetros poblacionales, como los intervalos de confianza analizados en los Capftulos 8 y 9. En apartados posteriores de este capitulo, analizamos metodos de inferencia estadfstica para varios sistemas importantes de muestreo. Sin embargo, es importante reconocer primero otra fuente posible de error, que no puede analizarse de una forma tan exacta 0 clara.
En los amilisis pnicticos, puede haber errores que no tengan que ver con el tipo de sistema de muestreo utilizado. De hecho, esos errores podrfan cometerse tambien si se tomara un censo completo de la poblaci6n. Son errores ajenos al muestreo. En cualquier encuesta, existe la posibilidad de que haya en algunos lugares un error ajeno al muestreo. He aqui algunos ejemplos:
1. La poblacion de la que se hace realmente el muestreo no es la relevante. En 1936, ocurri6 un conocido caso de este tipo, cuando la revista Literary Digest pre-
818 Estadistica para administraci6n y economia
dijo con seguridad que Alfred Landon ganarfa las elecciones frente a Franklin Roosevelt. Sin embargo, Roosevelt gano por un amplio margen. Este error de prediccion se debio a que los miembros de la muestra de Digest se habian tomado de las gufas de telefono y de otros li stados, como las listas de suscriptores a revistas y los registros de automoviles. En estas fuentes , estaban c1aramente subrepresentados los pobres, que eran predominantemente democratas. Para hacer una inferencia sobre una poblacion (en este caso, sobre el electorado estadounidense), es importante hacer una muestra de esa poblacion y no de algun subgrupo, por muy comodo que parezca esto ultimo.
2. Los sujetos de la encuesta pueden dar una respuesta inexacta 0 falsa. Eso podria ocurrir pOl'que las preguntas se formulan de una manera diffcil de en tender 0
de una forma que parece que una respuesta es mas agradable 0 mas deseable. Ademas, muchas preguntas que uno querria hacer son tan delicadas que seria imprudente esperar que todas las respuestas fueran sinceras. Supongamos, por ejemplo, que un jefe de planta quiere evaluar las perdidas anuales de la empresa que se deben a robos de los empleados. En principio, se podrfa seleccionar una muestra aleatoria de empleados y preguntar a sus miembros «(,que ha robado en esta planta en los 12 ultimos meses?». jEsta no es, desde luego, la forma mas fiable de conseguir la informacion necesaria!
3. Falta de respuesta a las preguntas de la encuesta. Los sujetos de una encuesta pueden no responder a ninguna pregunta 0 pueden no responder a algunas. Si ocurre en muchos casos, puede haber mas errores de muestreo 0 errores ajenos al muestreo. EI error de muestreo se debe a que el tamafio de la muestra logrado sera menor que el pretendido. El error ajeno al muestreo puede deberse a que la poblacion de la muestra no es la poblacion que interesa. Los resultados obtenidos pueden considerarse una muestra aleatoria de la poblaci6n que esta dispuesta a responder. Estas personas pueden ser diferentes en importantes aspectos de la poblacion en general. En ese caso, habra un sesgo en las estimaciones resultantes.
No existe ningun metodo general para idenlificar y analizar los errores ajenos al muestreo, pero estos pueden ser importantes. El investigador debe tener cuidado en cuestiones como la identificacion de Ia poblacion relevante, el disefio del cuestionario y la falta de respuesta para reducir 10 mas posible su importancia. En el resto de este capitulo, suponemos que se tiene ese cuidado, por 10 que en nuestro an:iIisis centramos la atencion en el tratamiento de los errores de muestreo.
EJERCICIOS
Ejercicios basicos
20.6. Vuelva al estudio del ejercicio 20.2.
a) Dentro del sistema de muestreo que ha disenado, i, ve la posibilidad de que haya errores ajenos al muestreo? En caso afirmativo, i,que medidas tomarfa para reducir 10 mas posible su magnitud?
b) i,Es probable que la falta de respuesta sea una cuestion grave en este estudio? En caso afirmativo, i,que podria hacerse para resolverla?
20.7. Vuelva al estudio del ejercicio 20.3.
a) Analice las causas probables de los errores ajenos al muestreo e indique como podrfan reducirse 10 mas posiblc.
b) i,Es de esperar que la falta de respuesta sea un problema grave para realizar este estudio? En caso afirmativo, i,como podrfa paliarse el problema?
20.8. En el caso del estudio del ejercicio 20.5, analice la posibilidad de que haya en'ores ajenos al
Capitulo 20. Otros temas relacionados con el muestreo 819
muestreo Y falta de respuesta. Indique que harfa para reducir 10 mas posible estos problemas.
llamar el jueves siguiente a los hogares en los que no hay nadie en casa. Este proceso puede continuar hasta que se logra hablar el jueves siguiente con los hogares con los que no se pudo hablar los dos jueves anteriores. (,Cuat podrfa ser el valor de la informacion obtenida de esta forma?
20.9. Un metodo para hacer frente a un tipo de falta de respuesta es el metoda del recuerdo. Se realiza una encuesta a los hogares en la que los entrevistadores Uaman el jueves por la tarde. Se vuelve a
20.3. Muestreo aleatorio simple . _ ..
En el resto de este capitulo, analizamos problemas en los que se extrae una muestra de n individuos u objetos de una poblaci6n que conticne un total de N miembros. En las aplicaciones pnicticas, se han utilizado muchos sistemas para seleccionar esas muestras. Nuestros amllisis centranin en gran parte la atenci6n en los metodos de muestreo probabiUstico, que son metodos en los que se utiliza algun mecanismo en el que interviene el azar para decidir los miembros de la muestra y se sabe cmU es la probabilidad de obtener una determinada muestra. Hacemos de nuevo hincapie en el concepto de muestreo aleatorio simple y en la forma en que se toma una muestra aleatoria simple de una poblaci6n finita, debido a su importancia.
Muestreo aleatorio simple Supongamos que tenemos que seleccionar una muestra de n objetos de una poblaci6n de N objetos. Un metoda de muestreo aleatorio simple es aquel en el que todos los miembros de una poblaci6n tienen la misma probabilidad de ser elegidos para la muestra.
Supongamos que nuestra poblaci6n esta formada por 1.000 individuos, numerados del 1 al 1.000 y que se necesita una muestra aleatoria simple de 100 miembros de la poblaci6n. El programa Minitab puede generar facilmente una muestra aleatoria simple. Por ejemplo, una lista parcial de los 100 numeros aleatorios que generamos con Minitab incluye las personas que tienen los numeros
457 229 843 460 918 311
S610 consideraremos el muestreo sin repeticion, en el que se excluye cualquier numero que ya ha salido y el proceso continua hasta que se obtienen 100 numeros diferentes. No analizamos aqu! la alternativa, el muestreo con repeticion, que permite incluir un individuo en la muestra mas de una vez.
El muestreo sistematico es un metodo de muestreo estadistico que se utiliza a menudo como alternativa al muestreo aleatorio.
Muestreo sistematico Supongamos que la lista de la poblaci6n se ordena de una forma que no tiene ninguna relaci6n con el tema de interes. EI muestreo sistematico implica la selecci6n de todo j-esimo sujeto de la poblaci6n, don de j es el cociente entre el tamaiio de la poblaci6n Ny el tamaiio que se desea que tenga la muestra, n; es decir, j = Nln. Se selecciona aleatoriamente un numero del 1 al j para obtener el primer sujeto que va a incluirse en la muestra sistematica.
820 Estadistica para administraci6n y economia
Supongamos que se desea que el tamano de la muestra sea de 100 y que la poblaci6n esta formada por 5.000 nombres en orden alfabetico. En ese caso, j = 50. Seleccionamos aleatoriamente un numero del 1 alSO. Si el numero es el 20, seleccionamos ese numero y los sucesivos numeros obtenidos sumando 50 al numero inicial; de esa manera, se obtiene una muestra sistematica formada por los elementos que Ilevan los numeros 20, 70, 120, 170, etc. hasta que se seleccionan los 100 sujetos. Una muestra sistematica se analiza de la misma forma que una muestra aleatoria simple, ya que, en relaci6n con el tema investigado, la lista de la poblacion ya esta en orden aleatorio. El peligro esta en que exista alguna relaci6n sutil e inesperada entre el orden de la poblaci6n y el tema estudiado. En ese caso, habrfa un sesgo si se empleara un muestreo sistematico. Las muestras sistematicas constituyen una buena representaci6n de la poblaci6n si la poblaci6n no experimenta ninguna variaci6n ciclica.
Analisis de los resultados de un muestreo aleatorio simple
En este apartado se amplfan las estimaciones del intervalo de confianza desarrolladas en el Capitulo 8. Sin embargo, aqui se analizan los casos en los que el numero de miembros de la muestra no es una proporci6n insignificante del numero de miembros de la poblaci6n. Por 10 tanto, se utiliza el factor de correccion en el caso de una pohlacion finita, eN - n)/N. Se supondra que la muestra es 10 suficientemente grande para poder recurrir al teorema del limite central.
Estimacion de la media poblacional, muestra aleatoria simple Sean x" x2 ' . . . , Xn los valores observados en una muestra aleatoria simple de tamaiio n, tomada de una poblacion de N miembros que tiene una media /.1.
1. La media muestral es un estimador insesgado de la media poblacional, fl. La estimacion puntual es
1 II
.x = - L Xi n i=\
2. Un metoda de estimacion insesgada de la varianza de la media muestral genera la estimacion puntual
S2 N - m il~ = - x ---
x n N (20.1)
3. Siempre que el tamaiio de la muestra es grande, los intervalos de confianza al 100(1 - a)% de la media poblacional son
(20.2)
EJEMPLO 20.1. Creditos hipotecarios (intervalo de confianza)
En una ciudad, se solicitaron 1.118 creditos hipotecarios el ano pasado. Una muestra aleatoria de 60 de estos creditos era de una cuantia media de 87.300 $ y tenia una desviaci6n tfpica de 19.200 $. Estime la cantidad media de todos los creditos hipotecarios solicitados en esta ciudad el ano pasado y halle el intervalo de confianza al 95 por ciento.
Capitulo 20. Otros temas relacionados con 81 muestreo 821
Solucion
Sea II la media pobl ac ional. Se sabe que
N=1.118 n = 60 x = 87.300 $ s = 19.200
Para obtener estimaciones de intervalos, utilizamos la ecuaci6n 20.1:
r? = i x (N - 11) x n N
(19.200)2 1.058 --- x - - = 5.814.268
60 1.118
y tomamos la ralz cuadrada para hallar el error tlpico estimado,
6.>: = 2.411
Por 1o tanto, el intervalo de confianza al 95 por ciento de la cantidad media de todas las hipotecas solicitadas en esta ciudad el ano pasado es
87.300 $ - (1,96)(2.411) < II < 87.300 $ + (1,96)(2.411)
o sea
82.574 $ < II < 92.026 $
Es decir, el intervalo va de 82.574 $ a 92.026 $.
A menudo, 10 que interesa es el total poblacional en lugar de Ia media. Por ejemplo, el editor de un libro de texto de estadistica para los negocios querra una estimaci6n del numero total de estudiantes que asisten a los cursos de estadlstica para los negocios en to do el pals. Es facil hacer una inferencia sobre el total poblacional. Los resultados relevantes se deducen del hecho de que en nuestra notaci6n, el total poblacional = Nfl.
Estimacion del total poblacional, muestra aleatoria simple
Supongamos que se selecciona una muestra aleatoria simple de tamafio n de una poblaci6n de tamafio Ny que la cantidad que se quiere estimar es el total poblacional N,l.
1. Un metodo de estimaci6n insesgada del total poblacional Nil genera la estimaci6n puntual Nx.
2. Un metodo de estimaci6n insesgada de la varianza de nuestro estimador del total poblacional genera la estimaci6n puntual:
(20.3)
3. Siempre que el tamafio de la muestra es grande, se obtiene un intervalo de confianza al 100(1 - a)% del total poblacional de la forma siguiente:
(20.4)
822 Estadfstica para administraci6n y economfa
EJEMPLO 20.2. Numero de matriculados en los cursos de estadistica para los negocios (intervalo de confianza)
Supongamos que hay 1.395 universidades en un pais. En una muestra aleatoria simple de 400 universidades, se observa que la media muestral del numero de matriculados el ano pasado en los cursos de estadfstica para los negocios era de 320,8 estudiantes y que la desviacion tfpica muestral era de 149,7 estudiantes. Estime el numero total de estudiantes matriculados en estos cursos durante el ano y halle el intervalo de confianza al 99 por ciento.
Soluci6n
Si la media poblacional es J-L, para estimar NJ-L se utilizan los datos siguientes:
N = 1.395 n = 400 x = 320,8 s = 149,7
Nuestra estimacion puntual del total es
Nx = (1.395)(320,8) = 447.516
Se estima que hay un total de 447.516 alumnos matriculados en los cursos. Para obtener estimaciones de intervalos, se utiliza la ecuacion 20.3 para calcular la varianza del estimador:
S2 (1497i N2o- 2
,c = - N(N - n) = ' (1.395)(995) = 77.764,413 , n 400
Tomando la rafz cuadrada, tenemos que
NCrx = 8.818,4
Por 10 tanto, el intervalo de confianza al 99 por ciento del total poblacional se obtiene aplicando la ecuacion 20.4, siendo Za/2 = 2,58:
o sea
o sea
447.516 - (2,58)(8.818,4) < Nfl < 447.516 + (2,58)(8.818,4)
447.516 ± 22.751
424.765 < Nfl < 470.267
Por 10 tanto, nuestro intervalo va de 424.765 a 470.267 estudiantes.
Consideremos, por ultimo, el caso en el que hay que estimar la proporci6n p de individuos de la poblacion que poseen una caracterfstica especffica. La inferencia sobre esta propOl'cion debe basarse en la distribucion hipergeometrica cuando el numero de miembros de la muestra no es muy pequeno en comparacion con el numero de miembros de la poblacion. Supongamos, de nuevo, que el tamano de la muestra es 10 suficientemente grande para poder invocar el teorema del Ifrnite central.
Capitulo 20. Otros temas relacionados con el muestreo 823
Estimacion de la proporcion poblacional, muestra aleatoria simple Sea p la proporcion que posee una determinada caracterfstica en una muestra aleatoria de n observaciones de una poblacion que tiene una proporcion, P, que posee esa caracterfstica.
1. La proporcion muestral, p, es un estimador insesgado de la proporcion poblacional, P. 2. Un metoda de estimacion insesgada de la varianza de nuestro estimador de la propor
cion poblacional genera la estimacion puntual
~2 pO - F5) (N - n) (J - = X ---
P n - 1 N (20.5)
3. Siempre que el tamano de la muestra es grande, los intervalos de confianza del 100(1 - a)% de la proporcion poblacional son
(20.6)
EJEMPLO 20.3. Cursos anuales de estadfstica para los negocios (intervalo de confianza)
Se ha observado en una muestra aleatoria simple de 400 universidades de las 1.395 que hay en nuestra poblaci6n que el curso de estadfstica para los negocios era un curso anual en 141 de las universidades de la muestra. Estime la proporci6n de todas las universidades en la que el curso es anual y halle el intervale de confianza al 90 por ciento.
Solucion
Dados
N = 1.395 n = 400 ~ 141 P = - = 03525
400 '
nuestra estimaci6n puntual de la proporci6n poblacional, P, es simplemente p = 0,3525. Es decir, el curso es anual en alrededor del 35,25 por ciento de todas las universidades. Para calcular estimaciones de intervalos, la varianza de nuestra estimaci6n se halla mediante la ecuaci6n 20.5:
_? pO - p) (N - n) (0,3525)(0,6475) 995 (J"" = x = x -- = 0,0004080
P n - 1 N 399 1.395
por 10 que ai; = 0,0202
En el caso de un intervalo de confianza al 90 por ciento, Za/2 = Zo.os = 1,645. EI interva-10 de confianza al 90 por ciento se halla por medio de la .ecuaci6n 20.6:
p - Zrt/2a p < P < p + Zal2ap o sea
0,3525 - (1,645)(0,0202) < P < 0,3525 + (1,645)(0,0202) o sea
0,3193 < P < 0,3857
Por 10 tanto, el intervalo de confianza al 90 por ciento del porcentaje de todas las universidades en las que el curso de estadfstica para los negocios es anual va del 31,93 al 38,57 por ciento.
824 Estadfstica para administracion y economfa
EJERCICIOS
Ejercicios aplicados
20.10. Consulte un periodico economico para obtener un listado de todas las acciones que cotizan en bolsa. Utilice el programa Minitab para obtener una muestra aleatoria simple de 20 acciones. Halle la subida porcentual media que experimento el precio de las acciones de esta muestra la semana pasada.
20.11. Obtenga en su periodico local un listado de todos los anuncios de viviendas en venta en su ciudad. Utilice el programa Minitab para obtener una muestra aleatoria simple de 15 anuncios y halle la media muestral de los precios anunciados.
20.12. Un campus tiene 12.723 estudiantes. Quiere una muestra aleatoria de 100 de un listado completo de estos estudiantes. Explique como utili zaria el programa Minitab para obtener esa muestra aleatoria.
20.13. Tome una muestra aleatoria de 50 pagll1as de este libro y estime la proporcion de todas las paginas que contienen cifras.
20.14. Una empresa tiene 189 contables. En una muestra aleatoria de 50 de elIos, el numero medio de horas extraordinarias trabajadas en una semana fue de 9,7 y la desviacion tfpica muestral fue de 6,2 horas. Halle el intervalo de confianza al 95 pOl' ciento del numero medio de horas extraordinarias trabajadas pOl' cad a contable en esta empresa esa semana.
20.15. Un auditor, examinando un total de 820 facturas pendientes de cobro de una empresa, tomo una muestra aleatoria de 60. La media muestral era de 127,43 $ y la desviacion tfpica muestral
. era de 43 ,27 $.
a) Halle una estimacion de la media poblacional utilizando un metodo de estimacion insesgada.
b) Halle una estimacion de la varianza de la media muestral utilizando un n:etodo de estimacion insesgada.
c) Halle el intervalo de confianza al 90 por ciento de la media poblacional.
d) Un estadistico obtuvo un intervalo de confianza de la media poblacional que iba de 117,43 $ a 137,43 $. (,Cual es el contenido probabilfstico de este intervalo?
20.16. Un dfa una organizacion de consumidores recibio 125 llamadas. Se observ6 que en una muestra aleatoria de 40 llamadas, el tiempo medio dedicado a dar la informaci6n solicitada era de 7,28 minutos y la desviaci6n tipica muestral era de 5,32 minutos. Halle el intervalo de confianza al 99 pOl' ciento del tiempo medio pOl' llamada.
20.17. Indique si es verdadera 0 falsa cada una de las afirmaciones siguientes:
a) Dado un numero de miembros de una poblacion y dada una varianza muestral, cuanto mayor es el numero de miembros de la muestra, mayor es el intervalo de confianza al 95 pOI' ciento de la media poblacional.
b) Dado un numero de miembros de una poblaci6n y dado un numero de miembros de la muestra, cuanto mayor es la varianza muestral, mayor es el intervalo de confianza al 95 pOl' ciento de la media poblacional.
c) Dado un numero de miembros de una muestra y dada una varianza muestral , cuanto mayor es el numero de miembros de la poblaci6n, mayor es el intervalo de confianza al 95 por ciento de la media poblacional.
d) Dado un numero de miembros de una poblaci6n, dado un numero de miembros de la muestra y dada una varianza muestral , un intervalo de confianza al 95 pOl' ciento de la media poblacional es mayor que un interva-10 de confianza al 90 por ciento de la media poblacional.
20.18. Demuestre que nuestra estimaci6n de la varianza de la media muestral puede expresarse de la forma siguiente:
;;~ = S2 (~ - ~) n N
20.19. Basandose en los datos del ejercicio 20.14, halie el intervale de confianza al 99 pOl' ciento del numero total de horas extraordinarias trabajadas pOI' los contables en la empresa durante la semana de interes.
20.20. Basandose en los datos del ejercicio 20.15, halIe el intervalo de confianza al 95 pOl' ciento de la cuantia total de estas 820 facturas pendientes de cobro.
20.21. Basandose en los datos del ejercicio 20.16, halie el intervalo de confianza al 90 pOI' ciento de la cantidad total de tiempo dedicado a responder a estas 125 llamadas.
Capitulo 20. Otros temas relacionados con el muestreo 825
0.22. Un alto directivo, responsable de un grupo de 120 ejecutivos, estli interesado en saber cWlnto tiempo dedican en total cad a seman a estas personas a reuniones internas. Se pide a una muestra aleatoria de 35 ejecutivos que anoten diariamente sus actividades la proxima semana. Cuando se analizan los resultados, se observa que estos miembros de esta muestra dedican un total de 143 horas a reuniones internas. La desviacion tfpica muestral es de 3,1 horas. Halle el intervalo de confianza al 90 por ciento del numero total de horas dedicadas a reuniones internas por los 120 ejecutivos durante la semana.
W.23. Una muestra aleatoria simple de 400 universidades de un total de l.395 contenfa 39 que utilizaban el libro de texto Estadistiea difiei! y aburrida. Halle el intervale de confianza al 95 por ciento de la proporcion de universidades que utilizaban este libro .
W.24. EI decano de una escuela de administracion de empresas estli considerando la posibilidad de proponer un cambio de los requisitos para obtener el titulo . Actualmente, los estudiantes tienen que cursar una asignatura de ciencias elegida de
20.4. Muestreo estratificado
una li sta de asignaturas posibles. La propuesta es que se sustituya por una asignatura de ecologfa. La escuela tiene 420 estudiantes. En una muestra aleatoria de 100 estudiantes, 56 han declarado que son contrarios a esta propuesta. HaIle el intervalo de confianza al 90 por ciento de la proporcion de todos los estudiantes que se oponen al cambio de los requisitos.
20.25. En una residencia universitaria, 257 de los residentes son estudiantes de primer ano. En una muestra aleatoria de 120 de ellos, 37 declat'an que tienen mucho interes en vivir en la residencia el proximo ano. Halle el intervalo de confianza al 95 por ciento de la proporcion de estudiantes de primer ano de esta residencia que tienen mucho interes en vivir en ella el proximo ano.
20.26. Una clase tiene 420 estudiantes. El examen final es optativo: si se hace, la nota puede subir, pero nunca bajar. En una muestra aleatoria de 80 estudiantes, 31 declararon que harfan el ex amen final. Halle el intervalo de confianza al 90 por ciento del numero total de estudiantes de esta clase que tienen intencion de hacer el examen final.
Supongamos que decidimos investigar las opiniones de los estudiantes de nuestro campus universitario sobre algun tema delicado y que puede ser diffcil formular las preguntas. Es probable que queramos hacer varias preguntas a cada miembro de la muestra y, dada la limitaci6n de recursos, s610 es posible tomar una muestra bastante pequefia. Probablemente elegirfamos una muestra aleatoria simple, por ejemplo, de 100 estudiantes de una !ista de todos los estudiantes del campus. Supongamos, sin embargo, que tras examinar mas detenidamente los expedientes de los miembros de la muestra, observamos que s610 dos estudian administraci6n de empresas, aunque la proporci6n poblacional de estudiantes de administraci6n de empresas es mucho mayor. Nuestro problema en esta fase es doble. En primer lugar, podemos muy bien tener interes en comparar las opiniones de los estudiantes de administraci6n de em pres as con las del resto de la poblaci6n de estudiantes. Eso es diffcilmente viable, dada su mfnima representaci6n en nuestra muestra. En segundo lugar, podemos sospechar que las opiniones de los estudiantes de administraci6n de empresas sobre esta cuesti6n seran diferentes de las de sus compafieros. Si fuera asf, nos preocupara la fiabilidad de la inferencia basada en una muestra en la que este grupo esta seriamente subrepresentado.
Tal vez podrfamos consolarnos pensando que, como hemos tornado una muestra aJeato ria, cualquier estimador obtenido de la forma habitual sera insesgado, por 10 que Ja inferencia resultante, en el senti do estadfstico, sera estrictamente valida. Sin embargo, basta una breve reflexi6n para convencernos de que apenas sirve de consuelo. Lo que significa que el estimador es insesgado es que si se repite el metodo de muestreo muchas veces y se
826 Estadfstica para administraci6n y economfa
calcula el estimador, su media sera igual al valor poblacional correspondiente. Pero en realidad no vamos a repetir el metodo de muestreo muchas veces. Tenemos que basar nuestras conclusiones en una unica muestra, y el hecho de que los estudiantes de administracion de empresas pudieran haber estado sobrerrepresentados en otras muestras que hubieramos podido tomar, 10 que a largo plazo habrla compensado, no es muy uti!.
Existe una segunda y tentadora posibilidad que es preferible en muchos sentidos a la de utilizar la muestra original. Podrlamos descartar simplemente la muestra original y tomar otra. Si la constitucion de la muestra lograda en el segundo intento parece mas representativa de la poblacion en general, puede muy bien que sea mejor trabajar con ella. Ahora la dificultad estriba en que el metodo de muestreo que hemos adoptado -se muestrea la poblacion hasta que se logra una muestra que nos gusta- es muy diflcil de formalizar, por 10 que los resultados de la muestra son muy difkiles de analizar con algllna validez estadfstica. Ya no es un muestreo aleatorio simple, par 10 que los metodos del apartado 20.3 no son estrictamente validos.
Afortunadamente, existe un tercer sistema de muestreo para no tener este tipo de problema. Si se sospecha al principio que algllnas caracteristicas identificables de los miembros de la poblacion estan relacionadas con el tema de investigacion 0 si algunos subgrupos de la poblacion tienen un interes especial para el investigador, no es necesario (y probablemente no es deseable) conformarse con el muestreo aleatorio simple para seleccionar a los miembros de la muestra. En lugar de eso, se puede dividir la poblacion en sllbgrupos 0 estratos y tomar una muestra aleatoria simple de cada estrato. EI unico requisito es que sea posible identificar que cada miembro de la poblacion pertenece a un estrato y solo a uno.
Muestreo aleatorio estratificado Supongamos que una poblacion de N individuos puede subdividirse en K grupos mutuamente excluyentes y colectivamente exhaustivos 0 estratos. Un muestreo aleatorio estratificado es la seleccion de muestras aleatorias simples independientes de cad a estrato de la poblacion. Si los K estratos de la poblaci6n contienen N" N2 , . .. , NK miembros, entonces
No es necesario tomar el mismo numero de miembros de la muestra de cada estrato. Sea el numero de la muestra n" n2 , ... , nf(" En ese caso, el numero total de miembros de la muestra es
La poblacion de estudiantes cuyas ideas se quieren conocer podrfa dividirse en dos estratos: estudiantes de administracion de empresas y resto. Tambien es posible hacer una estratificacion menos sencilla. Supongamos que, en algun otro tema, creemos que el sexo y el curso del estudiante (cuarto curso, tercer curso, segundo curso 0 primer curso) pueden ser relevantes. En ese caso, para satisfacer el requisito de que los estratos sean mutllamente excluyentes y colectivamente exhaustivos, se necesitan ocho estratos: mujeres de cuarto curso, hombres de cuarto curso, etc.
Mas adelante en este apartado, nos preguntamos como se reparte el esfuerzo de muestreo entre los estratos. Una atractiva posibiIidad, empleada a menudo en la practica, es la asignaci6n proporcional: la proporcion de miembros de la muestra perteneciente a cualquier estrato es igual que la proparcion de miembros de la poblacion perteneciente a ese estrato.
Capftu lo 20. Otros temas relacionados can el muestreo 827
Amilisis de los resultados de un muestreo aleatorio estratificado
EI amilisis de los resultados de una muestra aleatoria estratificada es relativamente sencilIo. Sean 11 1' {i2' ... , {iK las medias poblacionales de los K estratos Y X I' X2' ... , xK las medias muestrales correspondientes. Consideremos un estrato, por ejemplo, el i-esimo estrato. Dado que se ha tornado una muestra aleatoria simple en este estrato, la media muestral del estrato es un estimador insesgado de la media poblacional {ij' Utilizando un metodo de estimaci6n insesgada de la varianza de la media muestral del estrato, la estimaci6n puntual es
donde sJ es la varianza muestral del j-esimo estrato. Es posible, pues, hacer una inferencia sobre los estratos individuales de la misma forma que en el apartado 20.3.
Generalmente, tienen interes las inferencias sobre la media poblacional {i del conjunto de la poblaci6n, que es
Una estimaci6n puntual natural es
Un estimador insesgado de la varianza del estimador de {i se deduce del hecho de que las muestras de cada estrato son independientes entre sf Y la estimaci6n puntual es
~? 1 IK2~2 (J " = - N·(J -
x" N2 J Xj j = 1
Las inferencias sobre la media del conjunto de la poblaci6n pueden basarse en estos resultados.
Estimacion de la media poblacional, muestra aleatoria estratificada Supongamos que se toman muestras aleatorias de n. individuos de estratos que contienen N. individuos (j = 1, 2, ... , K) . Sea J J
K
Y I nj = n j = 1
Sean las medias y las varianzas muestrales de los estratos X. y i': (j = 1, 2, ... , K) Y la media del conjunto de la poblacion /1. J J
1. Un metodo de estimacion insesgada de la media del conjunto de la poblacion p genera la estimacion puntual
(20.7)
828 Estadfstica para administracion y economfa
2. Un metoda de estimaci6n insesgada de la varianza de nuestro estimador de la media del conjunto de la poblaci6n genera la estimaci6n puntual
~ 2 1 IK 2 ~2 (J e = - N· (J e
.1.,1 N2 J .I j )= I
(20.8)
donde
~2 _ sJ (N) - n) (J - - - x ----=-----"---
Xj N n) )
(20.9)
3. Siempre que el tamafio de la muestra es grande, se obtienen intervalos de confianza al 100(1 - 0:)% de la media poblacional de muestras aleatorias estratificadas de la forma siguiente:
(20.10)
EJEMPLO 20.4. Cadena de restaurantes (estimacion)
Una cadena de restaurantes tiene 60 en Illinois, 50 en Indiana y 45 en Ohio. La direccion esta considerando la posibilidad de afiadir un nuevo plato a su menu. Para averiguar cual es la demanda probable de este plato, se introduce en el menu de muestras aleatorias de 20 restaurantes de Illinois, 10 de Indiana y 9 de Ohio. Utilizando los subindices 1, 2 Y 3 para representar Illinois, Indiana y Ohio, respectivamente, las medias y las desviaciones tfpicas muestrales del numero de pedidos de este plato por restaurante en los tres estados en una semana es
,t l = 21,2
X2 = 13,3
X3 = 26,1
Sl = 12,8
S2 = 11,4
S3 = 9,2
Estime el numero medio de pedidos semanaies por restaurante, {l, en todos los restaurantes de esta cadena.
Solucion
Se sabe que
N = 155
n = 31
Nucstra estimacion de la media poblacional es
__ 1 ~ __ (60)(21,2) + (50)(13,3) + (45)(26,1) _ Xst - N )~l N)x) - 155 - 20,1
Por 10 tanto, el numero medio estimado de pedidos semanales pOl' restaurante es 20,1.
Capitulo 20. Otros temas relacionados con el muestreo 829
EI paso siguiente es calcular las cantidades
(12,8)2 48 12 x 60 = 10,923
Estas cantidades, junto con las medias muestrales de cada estrato, pueden utilizarse para calcular intervalos de confianza de las medias poblacionales de los tres estratos, exactamente como en el ejemplo 20.1 (aunque en este caso el tamafio de la muestra es demasiado pequeno por comodidad). Centramos la atenci6n en la media del conjunto de la poblaci6n. Para obtener intervalos de confianza para esta cantidad,
K ~ 7 1 I ? ~2 (J'O = - N":(Jc
~\.';'l N2 j -\ j )=1
(60)2(10,923) + (50)2(10,397) + (45)2(7,524) = (155)2 = 3,353
y, tom an do la rafz cuadrada,
a- = 1 83 Xst '
POI' 10 tanto, el intervalo de confianza al 95 pOl' ciento del numero medio de pedidos por restaurante realizados en una semana es
20,1 - (1,96)(1,83) < II < 20,1 + (1,96)(1 ,83)
o sea
16,5 < /1 < 23,7
El intervalo de confianza al 95 pOl' ciento va de 16,5 a 23,7 pedidos pOl' restaurante.
Dado que el total poblacional es el pro due to de la media poblacional y el numero de miembros de la poblaci6n, estos metodos pueden modificarse facilmente para poder estimarlo.
Estimacion del total poblacional, muestra aleatoria estratificada Supongamos que se toman muestras aleatorias de n individuos de estratos que contienen N individuos (j = 1, 2, .. . , K) Y que la cantidad que quie~e estimarse es el total poblacional, N{l. J
1. Un metodo de estimaci6n insesgada de Nfl genera la estimaci6n puntual
K
NXsI = I Ni; (20.11) j=1
2. Un metodo de estimaci6n insesgada de la varianza de nuestro estimador del total poblacional genera la estimaci6n
(20.12)
3. Siempre que el tamaiio de la muestra es grande, se obtienen intervalos de confianza al 100(1 - IX)% del total poblacional de muestras aleatorias estratificadas de la forma siguiente:
(20.13)
EJEMPLO 20.5. Nlimero anual total de matriculados en estadlstica para los negocios (estimaci6n)
De las 1.395 universidades que hay en un pais, 364 son escuelas universitarias, en las que la duraci6n de los estudios es de 2 afios, y 1.031 son facultades, en las que la duraci6n de los estudios es de 4 afios. Se toma una muestra aleatoria de 40 escuelas universitarias y una muestra aleatoria simple independiente de 60 facultades. La tabla adjunta muestra las medias muestrales y las desviaciones tfpicas muestrales del numero de estudiantes matriculados el ano pasado en la asignatura de estadfstica para los negocios. Estime el numero total anual de matriculados en esa asignatura.
Media Desviacion tipica
Solucion
Se sabe que
Escuelas universitarias
N] = 364 nj = 40
N2 = 1.031 n2 = 60
154,3 87,3
XI = 154,3
X2 = 411,8
Nuestra estimaci6n del total poblacional es
K
Facultades
411,8 219,9
Sj = 87,3
S2 = 219,9
NXsI = I Njx) = (364)(154,3) + (1.031)(411,8) = 480.731 )=1
A continuaci6n,
Por ultimo,
K
N2(jt = I N](jt = (364)\169,59) + (1.031)2(759,03) = 820.289.284 i=1
Capitulo 20. Otros temas relacionados con el muestreo 831
y, tomando la ralz cuadrada, ~2
N(J", = 28.797
En el caso del intervalo de confianza al 95 por ciento,
Z::t./2 = Z0.025 = 1,96
EI intervalo al 95 por ciento que buscamos es, pues,
480.731 - (1,96)(28.797) < Nil < 480.731 + (1,96)(28.797)
o sea
424.289 < NIL < 537.173
Por 10 tanto, nuestro intervalo de confianza al 95 por ciento va de 424.289 a 537.173 estudiantes matriculados.
Consideremos ahora el problema de estimar una proporci6n poblacional basandonos en una muestra aleatoria estratificada. Sean Pl , P2 , ... , P K las proporciones poblacionales de los K estratos Y Pl' P2, ... , PK las proporciones muestrales correspondientes. Si P representa la proporci6n de la poblaci6n total, su estimaci6n se bas a en el hecho de que
P = NlP l + N2P2 + ... + NKPK = ~ I NP N N j~l J J
A continuaci6n, se muestran los metodos para estimar la proporci6n poblacional a partir de una muestra aleatoria estratificada.
Estimacion de la proporcion poblacional, muestra aleatoria estratificada Supongamos que se toman muestras aleatorias de n. individuos de estratos que contienen N. individuos (j = 1, 2, .. . , K) . Sea P la proporci6n pob(acional y p la proporci6n muestral en e( j-esimo estrato de los que poseen
i una determinada caracterfstic~. Si P es la proporci6n de la
poblaci6n total:
1. Un metoda de estimaci6n insesgada de P genera
(20.14)
2. Un metodo de estimaci6n insesgada de la varianza de nuestro estimador de la proporci6n de la poblaci6n total es
~2 1 LK 2 ~2 (J - = - N (J-Ps/ N 2 j= I J Pj
(20.15)
donde
~2 pi! - p) (Nj - n) (J - = x ----"--"--
Pj n-1 N J J
(20.16)
es la estimaci6n de la varianza de la proporci6n muestral del j-esimo estrato.
832 Estadfstica para administracion y economfa
3. Siempre que el tamano de la muestra es grande, se obtienen intervalos de confianza al 100(1 - a)% de la proporci6n poblacional de muestras aleatorias estratificadas de la forma siguiente:
(20.17)
EJEMPLO 20.6. Estadistica impartida en los departamentos de economia (estimacion)
Supongamos que en el estudio del ejemplo 20.5 observamos que la asignatura de estadfstica para los negocios se imparte en el departamento de economfa de 7 escuelas universitarias y de 13 facultades de la muestra. Estime la proporcion de todas las universidades en las que se imparte esta asignatura en el departamento de economfa.
Solucion
Se sabe que
~ 7 /7 =-=0175
I 40 '
~ 13 P2 = - = 0217
60 ' N2 = 1.031 n2 = 60
Nuestra estimacion de la proporcion poblacional es
~ = ~;, ~ = (364)(0,175) + (1.031)(0,217) = Pst N j~1 Njpj 1.395 0,206
Por 10 tanto, se estima que en el 20,6 por ciento de todas las escuelas universitarias el departamento de economfa imparte la asignatura.
A continuacion,
~2 PI(l - PI) (NI - nl) (0,175)(0,825) 324 (J- = x = x - = 0.003295
PI f11 - 1 N I 39 364·
~2 P2(l - P2) (N2 - n2) (0,217)(0,783) 971 (J- = x = x -- = 0002712
P2 n2 - 1 N2 59 1.031'
Estos valores, junto con las proporciones muestrales de cada estrato, pueden utilizarse para calcular interval os de confianza de las proporciones de la poblacion de los dos estratos, exactamente como en el ejemplo 20.3. Aqui centramos la atencion en la estimacion por interval os de la proporcion de la poblacion total, para la que
~~ = _1 IK 2~? = (364)2(0,003295) + (1.031)2(0,002712) = (Jp ~ NJ. (JI> 2 0,001706
S/ N- j= I J (1.395)
por 10 que, tomando Ia rafz cuadrada, tenemos que
6- = 00413 PoIt '
Capitulo 20. Otros temas relacionados con el muestreo 833
En el caso del intervale de confianza al 90 por ciento,
Za/2 = Zo.OS = 1,645
y el intervale de confianza al 90 por ciento de la proporcion poblacional de una muestra aleatoria estratificada es
(0,206) - (1,645)(0,0413) < P < (0,206) + (1,645)(0,0413)
0,138 < P < 0,274
Este intervale va del 13,8 al 27,4 por ciento de todas las universidades.
Afijacion del esfuerzo muestral a los distintos estratos Queda por analizar la cuestion del reparto del esfuerzo muestral entre los estratos. SUponiendo que se selecciona un total de n miembros, ~cU(intas de estas observaciones muestrales deben asignarse a cada estrato? En realidad, el estudio en cuestion puede tener muchos objetivos, 10 cual significa que no existe una clara respuesta. No obstante, es posible especificar unos criterios de eleccion que el investigador debe tener presentes. Si se sabe poco o nada de antemano sobre la poblacion y si no hay ninglin requisito para la produccion de informacion acerca de estratos poco poblados, es logico elegir una afiJaci6n proporcional.
Afijacion proporcional: tamano de la muestra La proporci6n de miembros de la muestra que hay en un estrato es igual que la proporci6n de miembros de la poblaci6n que hay en ese estrato. Por 10 tanto, considerando el j-esimo estrato,
n· N ...l.=-....!.. n N
(20.18)
por 10 que el tamano de la muestra del j-esimo estrato utilizando la afijacion proporcional es
N n· = -....!.. x n
J N (20.19)
Este mecanismo de afijacion intuitivamente razonable se emplea frecuentemente y permite, por 10 general, realizar un analisis satisfactorio. Observese que en el ejemplo 20.4 utilizamos la afijacion proporcional. Dividimos un total de N = 155 restaurantes en tres estratos (Illinois, Indiana y Ohio). Seleccionamos una muestra de n = 31, siendo
60 n] = - x 31 = 12
155
50 n2 = - x 31 = 10
155
45 n3 = - x 31 = 9
155
A veces la utilizacion estricta de la afijacion proporcional produce relativamente pocas observaciones en los estratos que Ie interesan especialmente al investigador. En ese caso, la inferencia sobre los parametros poblacionales de estos estratos podrfa ser bastante imprecisa. En estas circunstancias, puede ser preferible afijar mas observaciones a esos estratos que las que dicta la afijacion proporcional. En los ejemplos 20.5 y 20.6, 364 de las
834 Estadfstica para administracion y economfa
1.395 universidades son escuelas universitarias y se toma una muestra de 100 observaciones. Si se hubiera utilizado la afijaci6n proporcional, el numero de escuelas incluidas en la muestra habria sido
N, 364 n = - x n = - - x 100 = 26 'N l.395
Dado que al editor Ie interesaba especial mente obtener informaci6n sobre este mercado, se pens6 que no seria adecuada una muestra de 26 observaciones solamente. Por esta raz6n, 40 de las 100 observaciones muestrales se afijaron a este estrato.
Si el unico objetivo de un estudio es estimar con la mayor precisi6n posible un panime. tro relativo al conjunto de la poblaci6n, como la media, el total 0 la proporci6n, y si se
tiene bastante informaci6n sobre la poblaci6n, es posible establecer una afijacion optima.
Afijacion optima: tamano de la muestra del j-esimo estrato, media 0 total del conjunto de la poblacion Si 10 que se necesita es estimar una media 0 un total del conjunto de una poblacion y si las varianzas poblacionales de los estratos individuales se representan por medio de (J2, puede demostrarse que los estimadores mas precisos se obtienen con la afijacion optima. E{ tamaiio de la muestra del j-esimo estrato utilizando la afijacion optima es
Na n. = J J X n
J K (20.20)
Esta f6rmula es razonable intuitivamente. Comparada con la afijaci6n proporcional, asigna relativamente mas esfuerzo muestral a los estratos en los que la varianza poblacional es mayor. Es decir, se necesita una muestra de mayor tamafio donde la variabilidad poblacional es mayor. Asi, en el ejemplo 20.4, en el que hemos utilizado la afijaci6n prop orcional, si las diferencias observadas en las desviaciones tipicas muestrales reflejaran correctamente las diferencias que existen en las cantidades poblacionales, habria sido preferible tomar menos observaciones en el tercer estrato y mas en el primero.
El uso de la ecuaci6n 20.20 plantea inmediatamente una objeci6n. Requiere conocer las desviaciones tfpicas poblacionales, aj , mientras que antes de que se tome la muestra, a menudo ni siquiera se dispone de estimaciones de estos valores que merezcan la pena. Esta cuesti6n se analiza en el ultimo apartado del capitulo.
A continuaci6n, se examina el tamafio de la muestra necesario en la afijaci6n 6ptima correspondiente a una proporci6n poblacional.
Afijacion optima: tamano de la muestra del j-esimo estrato, proporcion poblacional Para estimar la proporcion de la poblacion total, se obtienen estimadores con la menor varianza posible por medio de una afijaci6n optima. EI tamaiio de la muestra del j-esimo estrato de la proporcion poblacional utilizando la afijacion optima es
Nj J Pj(l - Pj) nj = K x n (20.21)
L Ni JPi(1 - Pi) i='
Capitulo 20. Otros temas relacionados con el muestreo 835
Esta formula, en comparacion con la afijacion proporcional, asigna mas observaciones muestrales a los estratos en los que las verdaderas proporciones poblacionales son mas cercanas a 0,5, pues si una proporcion es cercana a 0 0 a 1, puede saberse con bastante seguridad con una muestra relativamente pequefia. La dificultad que plantea el uso de la ecuacion 20.21 estriba en que implica las proporciones desconocidas Pj para (j = 1, 2, ... , K) , que son las propias cantidades que el estudio pretende estimar.
No obstante, a veces la informacion anterior sobre la poblacion puede permitir hacerse al menos una idea aproximada de que estratos tienen proporciones mas cercanas a 0,5. En el ejemplo 20.6, las proporciones muestrales sugieren que el numero de escuelas universitarias que hay en la muestra deberfa haber sido menor que el numero resultante de la afijacion proporcional. Se lIega a la misma conclusion en este estudio cuando se comparan las desviaciones tfpicas muestrales del ejemplo 20.5 con la ecuacion 20.20. A pesar de eso, se decidio incluir en la nuestra mas escuelas universitarias en lugar de menos. La razon era que en este estudio el editor querfa tener informacion fiable tanto sobre el mercado de escuelas universitarias como sobre el de facultades.
Esta ilustracion es un ejemplo de una importante cuestion. Aunque la division del esfuerzo muestral que sugieren las ecuaciones 20.20 y 20.21 a menudo se denomina afijacion optima, solo es optima con respecto al estricto criterio de la estimacion eficiente de los parametros con-espondientes al conjunto de la poblacion. A menudo, los estudios tienen objetivos mas amplios que ese, en cuyo caso puede muy bien ser razonable no utilizar la afijacion optima.
EJERCICIOS
Ejercicios aplicados
20.27. Una pequefia ciudad contiene un total de 1.800 hogares. La ciudad esta dividida en tres distritos, que contienen 820, 540 Y 440 hogares, respectivamente. Una muestra aleatoria estratificada de 300 hogares contiene 120, 90 Y 90 hogares, respectivamente, de estos tres distritos. Se pide a los miembros de la muestra que estimen su factura total de electricidad consumida en los meses de invierno. Las respectivas medias muestrales son 290 $, 352 $ Y 427 $ Y las respectivas desviaciones tfpicas muestrales son 47 $, 61 $ Y 93 $.
a) Utilice un metodo de estimaci6n insesgada para estimar la factura media de electricidad consumida en los meses de invierno por todos los hogares de esta ciudad.
b) Utilice un metodo de estimaci6n insesgada para estimar la varianza del estimador del apartado (a).
c) Halle el intervalo de confianza al 95 por ciento de la media poblacional de las facturas de electricidad consumida en invierno por los hog ares de esta ciudad.
20.28. Una universidad tiene 152 profesores ayudantes, 127 titulares y 208 catedn'iticos. Las autoridades universitarias estan investigando la cantidad de tiempo que dedican estos profesores a reuniones en un cuatrimestre. Se pi de a muestras aleatorias de 40 profesores ayudantes, 40 titulares y 50 catedraticos que lleven la cuenta del tiempo que dedican a reuniones en un cuatrimestre. Las medias muestrales son 27,6 horas en el caso de los profesores ayudantes, 39,2 en el de los titulares y 43,3 en el de los catedraticos. Las desviaciones tfpicas muestrales son 7,1 horas en el caso de los profesores ayudantes, 9,9 en el de los titulares y 12,3 en el de los catedraticos.
a) Halle un intervalo de confianza al 90 por ciento del tiempo medio dedicado a reuniones par los catedraticos de esta universidad en un cuatrimestre.
b) Utilice un metodo de estimaci6n insesgad<l para estimar el tiempo media dedicado a reuniones por todos los profesores de esta universidad en un cuatrimestre.
c) Halle intervalos de confianza del 90 y el 95 por ciento del tiempo medio dedicado a reu-
836 Estadfstica para administraci6n y economfa
niones por todos los profesores de esta universidad en un cuatrimestre.
20.29. Una empresa de autobuses esta planificando una nueva ruta para dar servicio a cuatra barrios. Se toman muestras aleatorias de hogares de cada barrio y se pide a los miembros de las muestras que valoren en una escala de 1 (totalmente en contra) a 5 (totalmente a favor) su reacci6n al servicio prapuesto. La tabla adjunta muestra los resultados.
Barrio 1 Barrio 2 Barrio 3 Barrio 4
N; 240 190 350 280 ni 40 40 40 40 Xi 2,5 3,6 3,9 2,8 Si 0,8 0,9 1,2 0,7
a) Halle un intervalo de confianza al 90 por ciento de la reacci6n media de los hogares de la barrio 1.
b) Utilice un metoda de estimaci6n insesgada para estimar la reacci6n media de todos los hogares a la nueva ruta.
c) Halle intervalos de confianza al 90 y al 95 por ciento de la reacci6n media de todos los hogares a la nueva ruta.
20.30. En una muestra aleatoria estratificada de estudiantes de una pequefia universidad, se pide a los miembros de la muestra que valoren en una escala de 1 (pocas) a 5 (muchas) las oportunidades para realizar actividades extracurriculares. La tabla adjunta muestra los resultados.
Estudiantes de primer Estudiantes de tercer y segundo aiio y cuarto aiio
N; 632 529 1'li 50 50 Xi 3,12 3,37 Sf 1,04 0,86
a) Halle el intervalo de confianza al 95 por ciento de la valoraci6n media que harlan todos los estudiantes de primer y segundo afio de este campus.
b) Halle el intervalo de confianza al 95 por ciento de la valoraci6n media que harfan todos los estudiantes de tercer y cuarto afio de este campus.
c) Halle el intervalo de confianza al 95 por ciento de la valoraci6n media que harlan todos los estudiantes de este campus.
20.31. Vuelva al ejercicio 20.28.
a) Halle el intervalo de confianza al 90 por ciento de la cantidad total de tiempo dedicada a reuniones por todos los profesores catedraticos de esta universidad en un cuatrimestre.
b) Halle el intervalo de confianza al 90 por ciento de la cantidad total de tiempo dedicada a reuniones por todos los prafesores de esta universidad en un cuatrimestre.
20.32. Una empresa tiene tres divisiones y los auditores estan intentado estimar la cantidad total de facturas pendientes de cobra de la empresa. Se toman muestras aleatorias de estas facturas en cada una de las tres divisiones y se obtienen los resultados que muestra la tabla.
Division 1 Division 2 Division 3
Ni 120 150 180 nj 40 45 50 Xi 237 $ 198 $ 131 $ S; 93 $ 64 $ 47 $
a) Uti lice un metoda de estimaci6n insesgada para hallar una estimaci6n puntual del valor total de todas las facturas pendientes de cobro de esta empresa.
b) Halle el intervalo de confianza al 95 por ciento del valor total de todas las facturas pendientes de cobra de esta empresa.
20.33. De las 1.395 universidades que hay en un pais, 364 son escuelas universitarias. En una muestra aleatoria de 40 escuelas universitarias, se observa que en 10 de elias se utiliza el libra de texto La estadistica puede ser divertida. En otra muestra aleatoria de 60 facultades, se utiliza este libra de texto en 8 de elias.
a) Estime la proporci6n de todas las universidades que utilizan este libra de texto empleando un metodo de estimaci6n insesgada.
b) Halle el intervalo de confianza al 95 por ciento de la proporci6n de todas las escuelas universitarias que utilizan este libro de texto.
20.34. Una consultora ha desarrollado un curso breve sobre metodos modernos de predicci6n para ejecutivos de empresa. Al primer curso han asistido 150 ejecutivos. Con la informaci6n suministrada por ellos, se ha Ilegado a la conclusi6n de que las cualificaciones tecnicas de 100 asistentes al curso eran mas que suficientes para seguir la materia, mientras que las de los 50 restantes no 10 eran. Despues de terminar el
Capitulo 20. Otros temas relacionados con el muestreo 837
curso, se han enviado cuestionarios a muestras aleatorias independientes de 25 personas de cada uno de estos grupos para obtener informacion con el fin de mejorar la presentacion de los cursos posteriores. Seis del grupo mas cualificado y 14 del grupo menos cualificado han indicado que creen que el curso es demasiado teorico.
a) Estime la proporcion de todos los asistentes al curso que tienen esta opinion utilizando un metodo de estimacion insesgada.
b) Halle intervalos de confianza al 90 por ciento y al 95 por ciento de esta proporcion poblacional.
20.35. Una universidad tiene 152 profesores ayudantes, 127 titulares y 208 catedraticos. Un periodista del periodico estudiantil tiene interes en saber si los profesores estan real mente en su despacho a las horas indicadas. Decide investigar muestras de 40 profesores ayudantes, 40 titulares y 50 catedraticos. Envfa estudiantes voluntarios a los despachos de los miembros de la muestra durante las horas indicadas. Se observa que 31 de los profesores ayudantes, 29 de los titulares y 34 de los catedraticos estan realmente en su despacho a esas horas.
a) Uti lice un metoda de estimacion insesgada para haHar una estimacion puntual de la propOl'cion de todos los profesores que estan en su despacho a las horas indicadas.
b) Halle el intervalo de confianza al 90 por ciento y al 95 por ciento de la proporcion de todos los profesores que estan en su despacho a las horas indicadas.
20.36. Vuelva al ejercicio 20.28. Si se toma una muestra total de 130 profesores, averigiie cuantos son catedraticos utili zando cada uno de los sistemas siguientes:
a) Afijacion proporcional. b) Afijacion optima, suponiendo que las des
viaciones tfpicas poblacionales de los estra-
tos son iguales que los valores muestrales correspondientes.
20.37. Vuelva a los datos del ejercicio 20.29. Si se torna una muestra total de 160 hogares, averi gLie cuantos deben ser del barrio I utili zando cada uno de los sistemas siguientes:
a) Afijacion proporcional. b) Afijacion optima, suponiendo que las des
viaciones tfpicas poblacionales de los estratos son iguales que los valores muestrales correspondientes.
20.38. Vuelva al ejercicio 20.30. Si se toma una muestra total de 100 estudiantes, averigue cuantos son estudiantes de primero y de segundo ano utilizando cada uno de los sistemas siguientes:
a) Afijacion proporcional. b) Afijacion optima, suponiendo que las des
viaciones tfpicas poblacionales de los estratos son iguales que los valores muestrales correspondientes.
20.39. Vuelva a los datos del ejercicio 20.32. Si se torna una muestra total de 135 facturas pendientes de cobro, averigiie cuantas deben ser de la division 1 utilizando cada uno de los si stemas siguientes:
a) Afijacion proporcional. b) Afijacion optima, suponiendo que las des
viaciones tfpicas poblacionales de los estratos son iguales que los valores muestrales correspondientes.
20.40. Vuelva a los datos del ejemplo 20.5. Si se toma una muestra total de 100 universidades, averigiie cuantas seran probablemente escuelas universitarias (en vez de facultades) por medio de los siguientes sistemas:
a) Afijacion proporcional. b) Afijacion optima, suponiendo que las des
viaciones tfpicas poblacionales de los estratos son iguales que los valores muestrales correspondientes.
20.5. Eleccion del tamaiio de la muestra
Un importante aspecto de la planificaci6n de cualquier estudio es la elecci6n del numero de miembros de la muestra. Hay varios factores que pueden ser relevantes. Si se piensa que con el metodo utilizado para contactar con los miembros de la muestra probablemente la tasa de falta de respuesta sera alta, debe tenerse en cuenta esta posibilidad. En muchos casos, los recursos de los que dispone el investigador, en 10 que se refiere a tiempo y dinero,
838 Estadfstica para administraci6n y economfa
limitan los resultados. Sin embargo, en este apartado dejamos de lado estas consideraciones y relacionamos el tamano de la muestra con las varianzas de los estimadores de los panimetros poblacionales y, por consiguiente, con la amplitud de los intervalos de confianza resultantes.
Tamano de la muestra para el muestreo aleatorio simple: estimacion de la media 0 el total poblacional Consideremos el problema de estimar la media poblacional a partir de una muestra aleatoria si mple de n observaciones. Si la variable aleatoria x representa la media muestral , en el Capitulo 7 vimos que la varianza de esta variable aleatoria es
(52 (N - n) Var(X) = (52 = - x ---
x 11 (N - 1)
Si se conoce la varianza poblacional (52, resolviendo la ecuaci6n Var(x), podemos hallar el tamano de la muestra, 11, que se necesita para lograr cualquier valor especffico de si para la varianza de la media muestral. Existen metodos parecidos si la cantidad que nos interesa es el total poblacional.
Tamafio de la muestra: media 0 total de la poblacion, muestreo aleatorio simple Consideremos la estimaci6n de la media de una poblaci6n de N miembros, que tiene la varianza (52. Si se especifica la varianza deseada, ~, de la media muestral, el tamaiio de la muestra necesario para estimar la media poblacional por medio de un muestreo aleatorio simple es
n = 2 2 (N - lki + (5
(20.22)
1. A menudo es uti I especificar directamente la amplitud de los intervalos de confianza de la media poblacional en lugar de (5~. Eso se logra facilmente, ya que, por ejemplo, el intervale de confianza al 95 por ciento de la media poblacional tiene una amplitud de aproximadamente 1 ,96(5x a cada lade de la media muestral.
2. Si el objeto de interes es el total poblacional, la varianza del estimador muestral de esta cantidad es N2(J~ y el intervalo de confianza al 95 por ciento de ella tiene una amplitud de aproximadamente 1 ,96N(J x a cad a lade de la Nx.
Una dificultad obvia que plantea el uso practico de la ecuaci6n 20.22 es que implica la varianza poblacional, (52, que normalmente no se conoce. Sin embargo, un investigador a menudo tiene una idea aproximada de cual es el valor de esta cantidad . A veces la varianza poblacional puede estimarse a partir de una muestra preliminar de la poblaci6n.
EJEMPLO 20.7. Creditos hipotecarios (tamano de la muestra)
Supongamos, como en el ejemplo 20.1, que en una ciudad se solicitaron 1.118 creditos hipotecarios el ano pas ado y que se toma una muestra aleatoria simple para estimar la cantidad media de creditos hipotecarios. Basandose en estudios anteriores realizados con esas poblaciones, se estima que la desviaci6n tfpica poblacional es de 20.000 $ aproximadamente. EI intervalo de confianza al 95 por ciento de la media poblacional
Capitulo 20. Otros temas relacionados con el muestreo 839
debe tener una amplitud de 4.000 $ a cada lado de la media muestral. l,Cuantas observaciones muestrales se necesitan para lograr este objetivo?
Solucion
En primer lugar,
N=1.l18 (J = 20.000 1,96O',r = 4.000
EI tamafio de la muestra necesario es, pues,
NO'2 (1.118)(20.000)2 n = = = 885
(N - 1 )O'~ + 0'2 (1.117)(2.041)2 + (20.000)2 '
POI' 10 tanto, deberfa ser suficiente una muestra aleatoria simple de 89 observaciones para alcanzar nuestro objetivo.
Tamano de la muestra para el muestreo aleatorio simple: estimacion de la proporcion poblacional
Consideremos un muestreo aleatorio simple para estimar una proporci6n poblacional P. Recuerdese que ya hemos visto antes en este libro que
~ 2 P(l - P) (N - n) Var(p) = 0' - = X ---
P n (N - 1)
Despejando n, tenemos el tamafio de la muestra de las ecuaciones 20.23 y 20.24.
Tamafio de la muestra: proporcion poblacional, muestreo aleatorio simple
Consideremos la estimaci6n de la proporci6n P de individuos de una poblaci6n de tamafio N que poseen un cierto atributo. Si se especifica la varianza deseada, ()~, de la proporcion muestral, el tamafio de la muestra necesario para estimar la proporci6n poblacional mediante un muestreo aleatorio simple es
NP(l - P) n = ----;:-------
(N - l)O'~ + P(1 - P) (20.23)
EI mayor valor posible de esta expresi6n, cualquiera que sea el valor de P, es
0,25N n = ----;::----
max (N - I )O'~ + 0,25 (20.24)
EI intervalo de confianza al 95 por ciento de la proporci6n poblacional debe tener una amplitud de aproximadamente 1,96 () p a cad a lade de la proporcion muestral.
840 Estadfstica para administraci6n y economfa
EJEMPLO 20.S. Estudio sobre la estadfstica en las universidades (tamaiio de la muestra)
Supongamos, al igual que en el ejemplo 20.3 , que se toma una muestra aleatoria simple de 1.395 universidades que hay en un pais para estimar la proporcion en la que la asignatura de estadfstica para los negocios es anual. Cualquiera que sea la verdadera proporcion, el intervalo de confianza al 95 por ciento no debe tener una amplitud de mas de 0,04 a cada lado de la proporcion muestral. (,Cuantas observaciones muestrales deben tomarse?
Solucion
Sabemos que
o sea
(J - = 00204 p ,
EI tamafio de la muestra necesario es, pues,
0,25N (0,25)(1.395) n = = = 420 1
max (N - l)(Jt + 0,25 0.394)(0,0204)2 + 0,25 '
Por 10 tanto, se necesita una muestra de 421 observaciones.
Tamano de la muestra para un muestreo aleatorio estratificado con un grado de precision especificado Tambien es posible obtener formulas para hallar el tamafio de la muestra necesario para lograr un grado de precision especificado cuando se utiliza el muestreo aleatorio estratificado.
Varianza del estimador de la media poblacional, muestreo estratificado Sea la variable aleatoria Xst el ~stimador de la media poblacional obtenido mediante un muestreo estratificado y sea >s (j = 1, 2, ... , K) las medias muestrales de los estratos individuales. Dado que
(20.25)
se deduce que la varianza de Xst es
V (X-) 2 1 ~ N? V (X-) 1 ~ N2. (JJ x (Nj - n) ar SI = (J x" = 2 1.... ; ar j = 2 1.... J n. -N-"---. --1"-
N j= t N j= t J J
(20.26)
donde las (Jf son las varianzas poblacionales de los K estratos.
Ahora puede utilizarse la ecuacion 20.26, dada cualquier eleccion de nt, n2' ... , nK, para hallar la varianza correspondiente del estimador de la media poblacional. Sin embargo, el
Capitulo 20. Otros temas relacionados con el muestreo 8 4 1
tamafio total de la muestra, 17, necesario para obtener un determinado valor de esta varianza dependera de la manera en que se repartan las observaciones muestrales entre los estratos. En el apartado 20A hemos analizado dos metodos que se emplean frecuentemente, la afijacion proporcional y la afijacion optima. En cualquiera de los dos casos, sustituyendo los nj en la ecuacion 20.26, podemos resolver la ecuacion resultante y hallar el tamafio de la muestra, n. Los resultados se indican en las ecuaciones 20.27 y 20.28.
Tamano total de la muestra para estimar la media global (varianzas poblacionales de los estratos especificadas), muestreo aleatorio estratificado
Supongamos que se subdivide una poblacion de N miembros en K estratos que contienen N1 ,
N2
, ••• , NK miembros. Sea (J2 la varianza poblacional del j-esimo estrato y supongamos que se desea obtener una estimaclon de la media del conjunto de la poblacion. Si se especifica la varianza deseada, (J~ , del estimador muestral, el tamano total de la muestra necesario, n, se obtiene de la forma sfguiente:
1. Afijacion proporcional:
2. Afijacion optima:
K
I NpJ j=!
17 = 1 K
N(1x~ + - ~ N(12 Sf NL. )}
j=l
17 = 1 K
N(1} + - ~ N(12 sl NL. }}
j=l
EJEMPLO 20.9. Cadena de restaurantes en tres estados (tamafio de la muestra)
(20.27)
(20.28)
Tomemos, al igual que en el ejemplo 20A, una muestra aleatoria estratificada para estimar el numero medio de pedidos por restaurante de un nuevo plato cuando el numero de restaurantes que hay en los tres estados es
Supongamos tambien que la experiencia de la cadena de restaurantes sugiere que las desviaciones tfpicas poblacionales de los tres estados es probable que sean aproximadamente
(12 = 11
Si se necesita un intervalo de confianza al 95 por ciento de la media poblacional cuya amplitud sea de tres pedidos por restaurante a cada lado de la estimacion puntual muestral, l,cuantas observaciones muestrales se necesitan en total?
842 Estadfstica para administraci6n y economfa
Solucion
Observese que
1,960"x = 3, -,' por 10 que O"x" = 1,53 K
L: NiO"J = (60(13)2 + (50)(11)2 + (45)(9)2 = 19.835 j = l
y
1 ( K )2 - L: NO"-N J J
j=l
[(60)(13) + (50)(11) + (45)(9)f -----15-5----- = 19.421
En el caso de la afijacion proporcional, el tamano de la muestra necesario es
K
L: NjO"J - I 19.835
n = NO"~ J~ ~ ~ N0"2 = (l55)(1 ,53i + 19.835/155 = 40,4 x" NL. JJ
j = 1
Por 10 tanto, bastara una muestra de 41 observaciones para conseguir el nivel de precision necesario.
Si se utiliza la afijacion optima, el tamano de la muestra necesario es
por 10 que puede conseguirse el mismo grado de fiabilidad con 40 observaciones si se utiliza este metodo de afijacion. En este caso concreto, como las desviaciones tfpicas poblacionales son bastante cercanas, la afijacion optima solo representa un ahOlTo muy pequeno en comparacion con la afijacion proporcional.
EJERCICIOS
Ejercicios aplicados 20.41. Debe estimarse la cantidad media de los 812
creditos hipotecarios solicitados en una ciudad el afio pasado. Basandose en la experiencia, una agencia inmobiliaria sabe que es probable que la desviaci6n tfpica poblacional sea de alrededor de 20.000 $. Si el intervalo de confianza al 95 por ciento de la media poblacional debe tener una amplitud de 2.000 $ a cada lado de la media muestral, i,cuantas observaciones muestrales se necesitan si se toma una muestra aleatoria simple?
20.42. Un concesionario de autom6viles tiene unas existencias de 400 autom6viles usados. Para estimar el mimero medio de kil6metros de estos vehfculos, pretende tomar una muestra aleatoria simple de autom6viles usados. Los estudios anteriores sugieren que la desviaci6n tfpica poblacional es de 10.000 kil6metros . EI intervalo de confianza al 90 por ciento de la media poblacional debe tener una amplitud de 2.000 ki16-metros a cada lado de su estimaci6n muestraJ. i,De que tamafio debe ser la muestra para satisfacer este requisito?
Capftulo 20. Otros temas relacionados can el muestreo 843
O 4" Un club de campo quiere encuestar a una mues-2 .• '. rna que las desviaciones tfpicas de los valores de estos estratos seran 150 $, 200 $, 300 $ Y 400 $, respectivamente. Si el intervalo de confianza al 90 por ciento de la media del conjunto de la poblacion debe tener una amplitud de 25 $ a cada lado de la estimacion muestral, halle el tamano total de la muestra necesario utili zando tanto la afijacion proporcional como la optima.
Ira aleatoria de 320 socios para estimar la pro-pOl·cion que es probable que asista a una funcion a principio de temporada. EI nLimero de observaciones muestrales debe ser 10 suficientemente grande para garantizar que el intervalo de confianza al 99 por ciento de la poblacion tiene una amplitud maxima de 0,05 a cada lado de la proporcion muestral. iDe que tamano debe ser la muestra?
20.44. Un profesor de una c1ase de 417 alumnos esta considerando la posibilidad de hacer un examen fi nal que los alumnos puedan realizar en casa. Quiere tomar una muestra aleatoria de alumnos para estimar la proporcion que prefiere este tipo de examen. Si el intervale de confianza al 90 por ciento de la proporcion poblacional debe tener una amplitud maxima de 0,04 a cada lado de la proporcion muestral , i de que tamano debe ser la muestra?
20.45. Un auditor quiere estimar el valor medio de las facturas pendientes de cobro de una empresa. La poblacion se divide en cuatro estratos, que contienen 500, 400, 300 Y 200 facturas, respectivamente. Basandose en la experiencia, se esti-
20.46. Debe estimarse la renta media de los hogares de una ciudad que puede dividirse en tres distritos. La tabla muestra la informacion relevante.
Tamaiio de Dcsviacion tipica Distrito la poblacion estimada ($)
1 1.150 4.000 2 2.120 6.000 3 930 8.000
Si el intervale de confianza al 95 por ciento de la media poblacional debe tener una amplitud de 500 $ a cada lado de la estimacion muestral, halle el nLimero de observaciones muestrales que se necesitan en total utilizando la afijacion proporcional y la optima.
20.6. Otros metodos de muestreo
Hemos analizado brevemente el muestreo aleatorio simple y el estratificado. Estos no son los unicos metodos que se utilizan para elegir una muestra. En este apartado se analizan algunos otros.
Muestreo por conglomerados
Supongamos que un investigador quiere estudiar una poblaci6n que se encuentra repartida en una amp Ii a zona geografica, como una gran ciudad 0 una regi6n. Si se utiliza una muestra aleatoria simple 0 una muestra aleatoria estratificada, se plantean dos problemas inmediatos. En primer lugar, para extraer la muestra, el investigador necesita una lista razonablemente precisa de los miembros de la poblaci6n. Puede no disponer de esa lista 0 es posible que pueda conseguirla con un elevado coste. En segundo lugar, aunque el investigador posea una lista de la poblaci6n, los miembros de la muestra resultante estaran repartidos casi inevitablemente por una gran zona. En ese caso, sera bastante caro que los entrevistadores contacten con cada uno de los miembros de la muestra. Naturalmente, este ultimo problema no se plantea si se envfa el cuestionario por correo. Sin embargo, con este medio de contacto tambien puede oCUITir que la tasa de falta de respuesta sea inaceptablemente alta y que el investigador prefiera por ese motivo las entrevistas personales.
844 Estadfstica para administracion. y economfa
Ante el dilema de no tener una lista fiable de la poblacion 0 querer hacer entrevistas personales con miembros de la muestra cuando los recursos presupuestarios son limitados, el investigador puede recurrir a otro metodo de muestreo que se conoce con el nombre de muestreo por conglomerados. Este metoda es atractivo cuando una poblacion puede subdividirse en unidades relativamente pequefias y geognificamente compactas Ilamadas conglomerados. Por ejemplo, una ciudad podrfa subdividirse en distritos 0 en barrios, incluso aunque no se disponga de una lista completa de los residentes 0 de los hogares.
En un muestreo por conglomerados, se selecciona una muestra aleatoria simple de la poblacion y se contacta con cada individuo de cada uno de los conglomerados de la muestra; es decir, se realiza un censo completo en cada uno de los conglomerados elegidos. En las siguientes ecuaciones, mostramos como pueden hacerse inferencias vaIidas sobre la media poblacional y la proporcion poblacional a partir de los resultados de una muestra de conglomerados .
Estimadores en el muestreo por conglomerados Se subdivide una poblacion en M conglomerados, se selecciona una muestra aleatoria simple de m de estos conglomerados y se obtiene informacion de cad a miembro de los conglomerados de la muestra. Sean n" n2 , . •. , nn el numero de miembros de la poblacion que hay en los m conglomerados de la muestra. Sean las medias de estos conglomerados x" x2 ' •.• , xm y las proporciones de miembros de los conglomerados que poseen un atributo de interes P" P2 , ... ,
Pm' EI objetivo es estimar la media J1 y la proporcion P de la poblacion total.
1. Utilizando metodos de estimacion insesgada, tenemos que
k
L -njX;
- ;= 1 x =
C 111 (20.29)
L 11; ; = 1
Y k
L njP; ~ ;= ! Pc HI
(20.30)
L n; ; = 1
2. Las estimaciones de la varianza de estos estimadores, basad as en metodos de estimacion insesgada, son
_ (I nf(x; - XJ2
) ~2 M m ; = 1 (J - = '---------
Xc Mmn2 m - 1 (20.31 )
y
(20.32)
m
donde jj = I n j / m es el numero medio de individuos que hay en los conglomerados ;= ,
de la muestra.
)
Income Clusters
Capitulo 20. Otros temas relacionados con el muestreo 845
Basandose en estos estimadores, se obtienen los intervalos de confianza util izando el muestreo por conglomerados.
Estimacion de la media poblacional, muestreo por conglomerados Siempre que el tamafio de la muestra es grande, el intervale de confianza a1100(1 - ex )% de la media poblacional utilizando el muestreo por conglomerados es
(20.33)
Tambien se hallan intervalos de confianza de la proporci6n poblacional utili zan do el muestreo por conglomerados.
Estimacion de la proporcion poblacional, muestreo por conglomerados Siempre que el tamafio de la muestra es grande, el intervalo de confianza a1100(1 - IX)% de la proporcion poblacional utilizando el muestreo por conglomerados es
(20.34)
Observese que pueden hacerse inferencias con una informaci6n previa relativamente pequefia sobre la poblaci6n. Lo unico que se necesita es una divisi6n en conglomerados identificables. No es necesario saber cual es el numero total de miembros de la poblaci6n. Basta con saber cual es el numero que hay en cada uno de los conglomerados de la muestra y este puede averiguarse durante el estudio, ya que se toma un censo completo en cada conglomerado de la muestra. Ademas, dado que los miembros de la muestra estan geograficamente cerca unos de otros dentro de los conglomerados, es relativamente barato para los entrevistadores contactar con ellos.
EJEMPLO 20.10. Muestreo por conglomerados en el caso de las rentas familiares (estimacion)
Se toma una muestra aleatoria simple de 20 man zan as de una zona residencial que contiene un total de 1.100 manzanas. A continuaci6n, se entra en contacto con cada hogar de las manzanas de la muestra y se obtiene informaci6n sobre la renta familiar. El fichero de datos Income Clusters contiene la renta anual media y la proporci6n de familias que tienen una renta de menos de 15.000 $ al ano y que viven en las manzanas de la muestra. Estime la renta familiar media y la proporci6n de familias que tienen una renta de menos de 15.000 $ al ano en esta zona residencial.
Solucion
Se sabe que
m = 20 Y M = 1.1 00
El numero total de hogares que hay en la muestra es
111
L ni = (23 + 31 + .,. + 41) = 607 i = l
846 Estadfstica para administracion y economfa
Para obtener estimaciones puntuales,
III
L n;x,; = (23)(26.283) + (31)(19.197) + ... + (41)(16.493) = 15.848.158 ;=1
y III
L nJ5; = (23)(0,1304) + (31)(0,4516) + ... + (41)(0,3659) = 153 ;= I
Nuestras estimaciones puntuales son, pues,
- L nix; 15.848.158 Xc = L ni = 607 = 26.109
~ L nij; 153 Pc = L n; = 607 = 0,2521
Por 10 tanto, basandose en esta evidencia muestral, se estima que en esta zona residencial la renta anual media de los hogares es de 26.109 $ y el 25,21 por ciento de los hogares tiene una renta de menos de 15.000 $ al ano.
Para obtener estimaciones de intervalos de la media poblacional, el tamano medio de los conglomerados debe ser
L ni 607 it = - = - = 30 35
m 20 ' Ademas,
por 10 que
2 M - m L (n7(x; - xc)2 (980)(69.270.551.000) (J' = x = = 3.684.914
Xc Mmn2 m - 1 (1.000)(20)(30,35)2
y tomando la rafz cuadrada,
(JX = 1.920
El intervalo de confianza al 95 por ciento de la media poblacional es
26.109 - (1,96)(1.920) < /1- < 26.109 + (1,96)(1.920)
o sea
22.346 < /1- < 29.872
EI intervalo de confianza al 95 por ciento de la renta media de todas las familias de esta zona va, pues, de 22.346 $ a 29.872 $.
Capitulo 20. Olros temas relacionados con el muestreo 847
Para obtener estimaciones de intervalos de la proporcion poblacional ,
(23)2(0,1304 - 0,02521)2 + ... + (41)2(0,3659 - 0,2521)2 19 =38,1547 m - l
De donde
y tomando la rafz cuadrada,
(980)(38,1547) - ------;:: = 00020297 (1.000)(20)(30,35)2 '
El intervalo de confianza al 95 por ciento de la proporcion poblacional es
0,2521 - (1,96)(0,0451) < P < 0,2521 + (1,96)(0,0451)
o sea
0,164 < P < 0,340
Nuestro intervalo de confianza al 95 por ciento del porcentaje de hogares cuya renta anual es de menos de 15.000 $ va de 16,4 a 34,0 por ciento.
El muestreo por conglomerados se parece superficialmente al muestreo estratificado. En ambos casos, la poblacion se divide primero en subgrupos. Sin embargo, la similitud es bastante ilusoria. En el muestreo aleatorio estratificado, se toma una muestra de cada estrato de la poblacion en un intento de garantizar que se da el debido peso a importantes segmentos de la poblacion. En cambio, en el muestreo por conglomerados se toma una muestra aleatoria de conglomerados, por 10 que algunos conglomerados no tienen miembros en la muestra. Dado que dentro de los conglomerados los miembros de la poblacion probablemente son bastante homogeneos, se corre el riesgo de que importantes subgrupos de la poblacion no esten representados en absoluto 0 esten muy subrepresentados en la muestra final. En consecuencia, aunque la gran ventaja del muestreo por conglomerados se encuentra en su comodidad, esta comodidad puede muy bien conseguirse a costa de una imprecision mayor de las estimaciones muestrales. Otra distincion entre el muestreo por conglomerados y el muestreo estratificado es que en el primero se toma un censa campleta de miembros del conglomerado, mientras que en el segundo se toma una muestra aleatoria de miembros del estrato. Sin embargo, esta diferencia no es esencial. De hecho, a veces un investigador puede extraer una muestra aleatoria de miembros de un conglomerado en lugar de tomar un censo completo.
Muestreo bietapico En much as investigaciones, la poblacion no se encuesta en una sola etapa sino que a menudo es comodo realizar primero un estudio piloto en el que se contacta con una propor-
8 4 8 Estadfstica para administraci6n y economfa
cion relativamente pequena de los miembros de la muestra y se analizan los resultados obtenidos antes de realizar la mayor parte del estudio. El principal inconveniente de ese metodo es que puede IIevar mucho tiempo. Sin embargo, tiene varias ventajas que compensan este factor. Una de las ventajas importantes es que el investigador puede probar, con un pequeno coste, el cuestionario propuesto para asegurarse de que las distintas preguntas se entienden perfectamente. El estudio piloto tambien puede sugerir otras preguntas cuya importancia se habfa pasado por alto. Ademas, este estudio tambien debe dar una estimacion de la tasa probable de falta de respuesta. Si esta fuera inaceptablemente alta, podrfa ser deseable modificar algo el metodo para recabar las respuestas.
La realizacion de un estudio bietapico, comenzando con un estudio piloto, se conoce con el nombre de muestreo bietapico. Este enfoque tiene otras dos ventajas . En primer lugar, si se emplea un muestreo aleatorio estratificado, el estudio piloto puede utilizarse para obtener estimaciones de las varianzas de los distintos estratos. Estas pueden utilizarse, a su vez, para estimar la afijacion optima de la muestra a los distintos estratos. En segundo lugar, los resultados del estudio piloto pueden utilizarse para estimar el numero de observaciones necesarias para obtener estimadores de los parametros poblacionales con un nivel especificado de precision. Los ejemplos siguientes sirven para iIustrar estas cuestiones. Consideremos una senciIIa situacion en la que se utiliza una muestra aleatoria simple para estimar una media poblacionai. AI principio, la informacion sobre esta poblacion es relativamente escasa, por 10 que se realiza una encuesta piloto para hacerse una idea del tamano que debe tener la muestra.
EJEMPLO 20.11. Valor medio de las facturas pendientes de cobro (tamano de la muestra)
Un auditor desea estimar el valor medio de las facturas pendientes de cobro en una poblacion total de 1.120 facturas. Quiere hallar un intervalo de confianza al 95 por ciento de la media poblacional que tenga una amplitud de aproximadamente 4 $ a cada lado de la media muestral. Para empezar, toma una muestra aleatoria simple de 100 facturas y observa una desviacion tfpica muestral de 30,27 $. l,Cuantas facturas mas debe tener la muestra?
Solucion
En el apartado 20.5, hemos visto que el tamano de la muestra necesario es
donde N = 1.120 es el numero de miembros de la poblacion en este caso. Para que el intervalo de confianza al 95 por ciento tenga la amplitud exigida,
1,960"; = 4
por 10 que 0";, la desviacion tfpica de la media muestral, debe ser
4 0"- = - = 204
x 1,96 '
Capitulo 20. Otros temas relacionados can el muestreo 849
La desviaci6n tfpica poblacional, (J, se desconoce. Sin embargo, como consecuencia del estudio inicial de 100 facturas pendientes de cobro, se estima que es 30,27. El numero total de observaciones muestrales necesario es, pues,
N(J2 (l.120)(30,27i n = = = 1841
(N - 1)(J~ + (J2 (l.119)(2,04)2 + (30,27)2 '
Dado que ya se han tornado 100 observaciones, senln suficientes 85 mas para satisfacer el objetivo del auditor.
EJEMPLO 20.12. Renta (tamano de la muestra)
Un investigador quiere tomar una muestra aleatoria estratificada para estimar la renta familiar media de una ciudad en la que el numero de familias que hay en cada uno de los tres distritos es
N2 = 2.120
Para empezar, el investigador hace un estudio piloto, tomando una muestra de 30 hogares de cada distrito y obteniendo desviaciones tfpicas muestrales de 3.657 $, 6.481 $ y 8.403 $, respectivamente. Sup6ngase que el objetivo es obtener, con el tamafio mas pequefio posible, un intervalo de confianza al 95 por ciento de la media poblacional que tenga una amplitud de 500 $ a cada lado de la estimaci6n muestral. (,Cuantas observaciones adicionales deben tomarse en cada distrito?
Solucion
El requisito de que debe conseguirse un grado especificado de precisi6n con el menor numero de observaciones muestrales posible implica que debe utilizarse la afijaci6n 6ptima. Recuerdese que en la ecuaci6n 20.20 hemos visto que los numeros 12 1, n2 Y n3 que deben muestrearse en los tres estratos son los siguientes:
N(J " n
J" = K J J X n (J' - 1 ') ") - ,~,-~
don de las (Ji son las desviaciones tfpicas poblacionales de los estratos. Utilizando nuestras estimaciones muestrales en lugar de estas cantidades,
( 1.150)(3.657) n = x 12 = 0 163n
I (1.150)(3.657) + (2.120)(6.481) + (930)(8.403) ,
(2.120)(6.481) n = x n = o 533n
2 (1.150)(3.657) + (2.l20)(6.481) + (930)(8.403) ,
(930)(8.403) n = x n = 0303n
3 0.150)(3.657) + (2.120)(6.481) + (930)(8.403) ,
Hemos especificado las propiedades de la muestra total que debe afijarse a cada estrato con el sistema 6ptimo. Queda por averiguar el numero total n de observaciones muestrales.
850 Estadfstica para administraci6n y economfa
Metodos de muestreo no probabillsticos
Hemos analizado algunos sistemas de muestreo en los que es po sible especificar la probabilidad de que se extraiga una determinada muestra de la poblacion. Esta caracteristica de los metodos de muestreo permite hacer inferencias estadfsticas validas basadas en los resultados muestrales. De 10 contrario, no podrian obtenerse estimaciones puntuales insesgadas e intervalos de confianza con un contenido probabilistico especificado que tuvieran una estricta validez estadistica.
No obstante, en much as aplicaciones practicas se utili zan metodos no probabilisticos para seleccionar rniembros de la muestra, principalmente por comodidad. Supongamos, por ejemplo, que queremos evaluar las reacciones de los estudiantes de nuestra universidad a algun tema de interes. Una posibilidad seria preguntar a nuestros amigos cual es su opinion. Este grupo no constituirfa una muestra aleatoria de la poblacion de todos los estudiantes. Por 10 tanto, si analizamos los datos como si procedieran de una muestra aleatoria, la inferencia resultante carecerfa de validez estadfstica.
Las organizaciones que realizan encuestas utilizan a menudo una version mas sofisticada del enfoque que acabamos de describir, Hamada muestreo por cuotas. Se asignan encuestadores a un lugar y se les dice que contacten con un numero especificado de personas de una determinada edad, raza y sexo. Estas cuotas asignadas representan las proporciones del conjunto de la poblacion que se consideran adecuadas. Sin embargo, una vez decididas las cuotas, los entrevistadores tienen flexibilidad para elegir los miembros de la muestra. Su eleccion normalmente no es aleatoria. El muestreo por cuotas puede producir y a menudo produce estimaciones bastante precisas de los parametros poblacionales. Su inconveniente es que, como no se elige la muestra utilizando metodos probabilfsticos, no existe una forma valida de averiguar la fiabilidad de las estimaciones resultantes.
EJERCICIOS
Ejercicios aplicados estan encendidos los televisores en esta ciudad.
20.47. Una empresa de estudios de mercado quiere estimar la cantidad semanal media de tiempo que estan encendidos los televisores en los hogares de una ciudad que contiene 65 barrios. Se selecciona una muestra aleatoria simple de 10 barrios y se pregunta a cada hogar de cada barrio de la muestra. La tabla adjunta muestra los resultados.
Barrio
1 2 3 4 5 6 7 8 9
10
Numero de hogares
28 35 18 52 41 38 36 30 23 42
Tiempo medio de uso del televisor (horas)
29,6 18,4 32,7 26,3 22,4 31,6 19,7 23,8 25,4 24,1
a) Halle una estimaci6n puntual de la media poblacional de la cantidad de tiempo que
20.48.
b) Halle el intervalo de confianza al 90 por ciento de la media poblacional.
Un dirigente sindical quiere estimar el valor medio de las primas pagadas a los administrativos de una empresa en el primer mes de un nuevo plan. Esta empresa tiene 52 subdivisiones y se toma una muestra aleatoria simple de 8. A continuaci6n, se obtiene informaci6n de las n6minas de cada administrativo de cada subdivisi6n de la muestra. La tabla adjunta muestra los resultados.
Subdivisi6n 1 2 3 4 5 6 7 8
Numero de administrativos
69 75 41 36 59 82 64 71
Prima media (d6Iares)
83 64 42
108 136 102 95 98
Capitulo 20. Otros temas relacionados con el muestreo 851
a) Halle una estimaci6n puntual de la prima media por administrativo de este meso
b) Halle el intervalo de confianza al 99 por ciento de la media poblacional.
20.49. En el estudio del ejercicio 20.47, se pregunta a los hogares si tienen televi si6n por cable. La tabla adjunta muestra el numero que tiene televisi6n por cable.
Barrio 2 3 4 5 6 7 8 9 10
Numero 12 11 10 29 15 13 20 14 9 26
a) Halle una estimaci6n puntual de la proporci6n de todos los hogares de la ciudad que tienen televisi6n por cable.
b) Halle el intervalo de confianza al 90 por ciento de esta proporci6n poblacional.
20.50. En el estudio del ejercicio 20.48, se pregunt6 a los administrativos de las ocho subdivisiones de la muestra si estaban satisfechos con el funcionamiento del plan de primas. La tabla adjunta muestra los resultados.
Subdivision
Numero satisfecho
2 3 4 5 678
24 25 11 21 35 44 30 34
a) Halle una estimaci6n puntual de la prop orci6n de todos los administrativos satisfechos con el plan de primas.
b) Halle el intervalo de confianza al 95 por ciento de esta proporci6n poblacional.
20.51. Una ciudad esta dividida en 50 subdivisiones geogrMicas. Se necesita una estimaci6n de la proporci6n de los hogares de la ciudad interesados en un nuevo servicio de jardinerfa. Una muestra aleatoria de tres subdivisiones contiene 6 11, 521 Y 734 hogares, respectivamente. EI nLlmero que expresa interes por el servicio es 128, 131 Y 172, respectivamente. Halle el intervalo de confianza al 90 por ciento de la proporci6n de todos los hogares de la ciudad interesada en el servicio de jardinerfa.
20.52. Un banco tiene 720 creditos hipolecarios para la adquisici6n de viviendas en situaci6n de morosidad. Necesita una estimaci6n del valor catastral medio de estas viviendas. Al principio, se considera una muestra aleatoria de 20 y se halla una desviaci6n tfpica muestral de 37.600 $. Si el banco requiere un intervalo de confianza al 90 por ciento de la media poblacional que tenga una amplitud de 5.000 $ a cada lado de la medi a muestral, i,cuantas viviendas mas deben considerarse?
20.53. Una universidad tiene 3.200 estudiantes de grado y 800 estudiantes de postgrado. Los investigadores tienen interes en saber cuanto dinero se gastan estos estudiantes en un ano en libros de texto. Al principio se toman muestras aleatorias simples de 30 estudiantes de grado y 30 de postgrado. Las desviaciones tfpicas muestrales de las cantidades gas tad as son 40 $ y 58 $, respectivamente. Se necesita un intervale de confianza al 90 por ciento de la media del conjunto de la poblaci6n que tenga una amplitud de 5 $ a cada lado de la estimaci6n puntual muestral. Estime el men or numero total de observaciones muestrales adicionales necesario para lograr este objetivo.
20.54. Una empresa tiene una flota de 480 autom6viles: 100 pequefios, 180 de tamano intermedio y 200 grandes. Para estimar los costes totales anuales medios de reparaci6n de estos autom6-viles, se toma una muestra aleatoria preliminar de 10 autom6viles de cada tipo. Las desviaciones t[picas muestrales de los costes de reparaci6n son 105 $ en el caso de los autom6viles pequefios, 162 $ en el de los autom6viles de tamano intermedio y 183 $ en el de los autom6viles grandes. Se necesita un intervalo de confianza al 95 por ciento del coste total anual medio de reparaci6n por autom6vil que tenga una amplitud de 20 $ a cada lado de la estimaci6n puntual muestral. Estime el menor numero total de observaciones muestrales adicionales que deben tomarse.
RESUMEN .. En este capitulo, hemos centrado la atenci6n en el problema de un investigador que quiere descubrir algo de una poblaci6n que no es necesariamente grande. EI investigador pretende recoger informaci6n solamente de un Subconjunto de miembros de la poblaci6n y pide asesoramiento para hacerlo. En primer lugar, deben
considerarse los pasos necesarios en un plan de muestreo. A continuaci6n, deb en distinguirse los errores de muestreo y los errores ajenos al muestreo; deben formularse ecuaciones para estimar una media poblacional, un total poblacional y una proporci6n poblacional para el muestreo aleatorio simple, asf como para el
852 Estadfstica para administracion y economfa
muestreo estratificado; debe decidirse el tamano de la muestra para esti mar una media poblacional, un total poblacional y una proporc ion poblacional utilizando el muestreo aleatorio simple 0 el muestreo estratificado si se especifica la varianza deseada de la media muestral; debe considerarse el muestreo por conglomerados y las ecuaciones establecidas para hallar los intervalos de confianza de la media poblacional y de la proporcion poblacional, si el tamano de la muestra
es grande. Hemos mencionado brevemente el metodo de muestreo bietapico y e l metodo de muestreo no probabilfstico.
Dado que la estadistica se ocupa en gran parte de los problemas que plante an las afirmaciones sobre una poblacion a partir de la informacion muestral, nos interesa comprender este capitu lo. Para un analisis mas detallado de los disenos de muestreo, veanse las notas que se encuentran al final de este capitulo.
TERMINOS CLAVE
estimacion: media poblacional, aleatorio, 820 media poblacional , conglomerado, 845 media poblacional, estratificado, 827 proporcion poblacional, aleatorio, 823 proporcion poblacional,
error ajeno al muestreo, 817 error de muestreo, 817
tamano de la muestra: afijacion optima, 834 afijacion proporcional , 833 media poblacional,
factor de correccion en el caso
conglomerado, 845 proporcion poblacional,
estratificado, 831
de una poblacion finita, 820 metodos no probabilfsticos, 850 muestreo aleatorio simple, 819 muestreo aleatorio estratificado, 826 muestreo por conglomerados, 844 muestreo por cuotas, 850
aleatorio, 838 media poblacional,
estratificado, 840 proporcion poblacional,
aleatorio, 839 total poblacional, aleatorio, 821 total poblacional, estratificado, 829
muestreo bietapico, 848 muestreo sistematico, 819
EJERCICIOS V APLICACIONES DEL CAPiTULO
20.55. Ha recibido el encargo de disenar y realizar una encuesta en su ciudad sobre la eficacia de una campana publicitaria por radio destinada a promocionar una nueva pelfcula.
a) Explique que haria. b) Analice las posibilidades de que haya erro
res ajenos al muestreo y los medios para reducir 10 mas posible su importancia.
c) (,Hasta que punto espera que la falta de respuesta sea un problema en esta encuesta?
20.56. Basandose en una muestra aleatoria de 10 miembros de su clase, estime la cantidad media de dinero que gastan los miembros de la clase en libros de texto cada cuatrimestre.
20.57. Explique minuciosamente la distincion entre muestreo aleatorio estratificado y muestreo por conglomerados. Ponga ejemp!os de problemas de muestreo en los que podria ser uti! cada una de estas tecnicas.
20.58. Se hace un examen a 90 estudiantes y se toma una muestra aleatoria de 10 calificaciones:
93 71 62 75 81 63 87 59 84 72
a) Halle el intervalo de confianza a! 90 par ciento de la media poblacional de las calificaciones.
b) Sin hacer los calculos, indique si el intervalo de confianza al 95 por ciento de la media poblacional serfa mas amplio 0 mas estrecho que el obtenido en el apartado (a).
20.59. Una empresa tiene 272 facturas pendientes de cobro en una determinada categoria. Se toma una muestra aleatoria de 50 facturas. La media muestral es de 492,36 $ y la desviacion tipica muestral es de 149,92 $. a) Halle el intervalo de confianza al 99 por
ciento de la media poblacional del valor de estas facturas pendientes de cobro.
b) Halle el intervalo de confianza al 95 por ciento del valor total de estas facturas pendientes de cobro.
c) Indique sin hacer los calculos si el intervalo de confianza al 90 por ciento del total poblacional serra mas amplio 0 mas estrecho que el intervalo obtenido en el apartado (b).
20.60. En el Senado de Estados Unidos hay 100 senadores. Se obtuvo informacion de los individuos
Capitulo 20. Otros temas relacionados con el muestreo 853
responsables de gestionar la carrespondencia de 61 despachos de senadores. De estos, 38 indicaron que debian recibir un numero minimo de cartas sobre una cuesti6n antes de escribir una carta en respuesta.
a) Suponga que estas observaciones constituyen una muestra aleatoria de la poblaci6n y halle el intervalo de confianza al 90 por ciento de la proporci6n de despachos de senadores que siguen esta polftica.
b) En rea!idad, no se obtuvo informaci6n de una muestra aleatoria de despachos de senadores. Se enviaron cuestionarios a los 100 despachos, pero s610 respondieron 6l. (,C6-mo influye esta informaci6n en su respuesta al apartado (a)? Vease la referencia bib!iognifica 2.
20.61. Una empresa tiene 148 representantes de ventas. Se toma una muestra aleatoria de 60 y se observa que en el caso de 36 de los miembros de la muestra, eJ volumen de pedidos de este mes es mayor que el del mismo mes del ano pasado. Halle el intervalo de confianza al 95 por ciento de la proporci6n poblacional de representantes de ventas que tienen un volumen de pedidos mayor.
20.62. Una empresa tiene tres subdivisiones, en las que hay un total de 970 directivos. Se toman muestras aleatarias independientes de directivos de cada subdivisi6n y se halla el numero de anos que lleva en la empresa cada miembro de las muestras. La tabla adjunta muestra los resultados.
Subdivision 1 Subdivision 2 Subdivision 3
N; 352 287 331 Hi 30 20 30 Xi 9,2 12,3 13,5 Si 4,9 6,4 7,6
a) Halle el intervalo de confianza al 99 por ciento del numero medio de anos que lIevan en la empresa los directivos de la subdivisi6n 1.
b) Halle el intervalo de confianza al 99 par ciento del numero medio de anos que llevan en la empresa todos los directivos.
20.63. De las 300 paginas de un libro, 180 son principalmente poco tecnicas, mientras que el resto es tecnico. Se toman muestras aleatorias independientes de paginas tecnicas y no tecnicas y se anota el numero de erratas par pagina. La tabla resume los resultados.
Ttknicas No tecnicas
N; 120 180 "j 20 20 x · I 1,6 0,74 s· I 0,98 0,56
a) Halle el intervalo de confianza al 95 par ciento del numero medio de erratas por pagina de este !ibro.
b) Halle el intervalo de confianza al 99 por ciento del numero total de erratas del libro.
20.64. En el analisis del ejercicio 20.63, se observa que 9 de las paginas tecnicas de la muestra y 15 de las paginas no tecnicas de la muestra no contienen ninguna errata. Halle el intervalo de confianza al 90 por ciento de la proporci6n de todas las paginas de este Iibro que no contiene erratas.
20.65. Vuelva a los datos del ejercicio 20.62. Si se torna una muestra de un total de 80 directivos, averiglie cuantos miembros de la muestra pertenecerfan a la subdivisi6n 1 utilizando cada uno de los siguientes sistemas:
a) La afijaci6n proporcional y b) La afijaci6n 6ptima, suponiendo que las des
viaciones tfpicas de los estratos son iguales que las cantidades muestrales correspondientes.
20.66. Vuelva a los datos del ejercicio 20.63. Si se torna una muestra de un total de 40 paginas, averiglie cuantas paginas de la muestra sedan tecnicas utilizando cada uno de los siguientes sistemas:
a) La afijaci6n proporcional y b) La afijaci6n 6ptima, suponiendo que las des
viaciones tfpicas de los estratos son iguales que las cantidades muestrales correspondientes.
20.67. Se pretende tomar una muestra de los estudiantes de su universidad para conocer su opini6n sobre la cantidad de espacio que hay en la biblioteca. Se decide utilizar una mllestra estratificada por ano: estudiantes de primer ano, de segundo ano, etc. Analice los factores que se tendrfan en cuenta para decidir el numero de observaciones muestrales que deben tomarse ell cada estrato.
20.68. Un concesionario de automoviles tiene unas existencias de 328 autom6viles usados. Hay que estimar el numero medio de ki16metros de
854 Estadfstica para administraci6n y economfa
estos vehfculos. La experiencia dice que es probable que la desviacion tfpica poblacional sea de unos 12.000 kilometros. Si el intervalo de confianza al 90 por ciento de la media poblacional debe tener una amplitud de 2.000 kilometros a cada lade de la media muestral, (,de que tamano debe ser la muestra si se emplea el muestreo aleatorio simple?
20.69. Debe tomarse una muestra aleatoria simple de 527 estudiantes de administracion de empresas de una universidad para estimar la proporcion que es partidaria de que se ponga mas enfasis en la etica empresarial en el programa de estudios. (,Cuantas observaciones son necesarias para garantizar que el intervalo de confianza al
Bibl iografla
95 par ciento de la proporcion poblacional tiene una amplitud maxima de 0,06 a cada lado de la proparcion muestral?
20.70. Suponga que la junta electoral debe ayudar a resolver un conflicto electoral entre dos candidatos (0 quiza una persona debe hacer de experto estadfstico en un juicio relacionado con el resultado de unas renidas elecciones). Son muchas las cuestiones que se plantean. (,Deben recontarse todos los votos de todas las circunscripciones? Si solo se recuentan los de algunas, (,c uales? Analice las ventajas y los inconvenientes de algunos disenos muestrales que podrfan utilizarse para seleccionar los votos que van a recontarse.
l. Cochran, W. G., Sampling Techniques , Nueva York, Wiley, 1977, 3." ed. 2. Cui nan, M. J., «Processing Unstructured Organizational Transactions: Mail Handling in the U.S.
Senate», Organizational Science, 3, 1992, pags. 117-l37. 3. Deming, W. E. , Sample Design in Business Research, Nueva York, Wiley, 1960. 4. Hogg, Robert y Allen T. Craig, Introduction to Mathematical Statistics, Nueva York, Macmillan,
1977, 4. ' ed. 5. Kish, Leslie, Survey Sampling, Nueva York, Wiley, 1965. 6. Levy, Paul S. y Stanley Lemeshow, Sampling of Populations: Methods and Applications, Nueva
York, Wiley, 1991. 7. Minitab for Windows Version 13, State College, PA, Minitab, Inc., 2000. 8. Schaeffer, Richard L., William Mendenhall y Lyman Ott, Elementary Survey Sampling, Bel
mont, CA, Duxbury Press, 1996, 5." ed.
Top Related