ESTIMACIÓN DE PARÁMETRO › ... · Web viewhamlet mata mata. estimaciÓn de parÁmetro y....

79
HAMLET MATA MATA EL TIGRE/ANZOÁTEGUI/VENEZUELA/ 1 GUÍA SOBRE ESTIMACIÓN DE PARÁMETRO Y CONTRASTE DE HIPÓTESIS ESTIMACIÓN DE PARÁMETRO Y CONTRASTE DE HIPÓTESIS

Transcript of ESTIMACIÓN DE PARÁMETRO › ... · Web viewhamlet mata mata. estimaciÓn de parÁmetro y....

ESTIMACIÓN DE PARÁMETRO

HAMLET MATA MATA

ESTIMACIÓN DE PARÁMETRO Y

CONTRASTE DE HIPÓTESIS

GUÍA

SOBRE

ESTIMACIÓN DE PARÁMETRO Y

CONTRASTE DE HIPÓTESIS

EL TIGRE/ANZOÁTEGUI/VENEZUELA/

ESTIMACIÓN DE PARÁMETRO

HAMLET MATA MATA

INTRODUCCIÓN

Es muy interesante conocer las características de las muestras. El cálculo de los estadísticos o índices que las definen y describen son netos y muy rentable. Pero en ocasiones nos preguntamos por las características de la población de origen de donde proceden las muestras. El objetivo parece ambicioso: se trata de conocer lo que por definición es inalcanzable. Normalmente las poblaciones son inabarcables puesto que son infinitas, o en el mejor de los casos cuasi-infinitas, lo cual nos deja como estábamos.

Los parámetros poblacionales caracterizan y describen las poblaciones. Son equivalentes a los estadísticos o estadígrafos en las muestras. Un estadístico es una función de la muestra, esto es, depende sola y exclusivamente de nuestra muestra. Varía y está sometido al error (variabilidad) del muestreo. Los parámetros no varían, son constantes y además desconocidos. Contienen las características de la población. En una población cuya distribución es conocida pero desconocemos algún parámetro, podemos estimar dicho parámetro a partir de una muestra representativa.

La inferencia estadística se ocupa, entre otras cuestiones, de los procedimientos de estimación de parámetros desconocidos de la distribución de una variable aleatoria o de la población,  a partir de la información suministrada por una muestra de tamaño reducido, extraída al azar. La estimación de parámetros por intervalos, permite construir un intervalo que contendrá el parámetro a estimar con una confianza fijada a priori por el experimentador. 

El objetivo más importante de la Estadística es obtener una inferencia con respecto a la población basándose en la información contenida en una muestra. Como las poblaciones se describen mediante medidas numéricas denominadas parámetros, el objetivo de la mayoría de las investigaciones estadísticas es deducir una inferencia con respecto a uno o más parámetros de la población.

Se han estudiado, hasta el momento, las nociones fundamentales de distribución de probabilidades; se está en condiciones, entonces, de tratar los métodos de inferencia estadística, los cuales comprenden los procedimientos para estimar parámetros de poblaciones y probar (contrastar) si una afirmación provisional sobre un parámetro poblacional se ve apoyada o desaprobada ante la evidencia de la muestra.

Hablando en general, hay dos tipos de inferencia: la deductiva y la inductiva. Una inferencia deductiva es un juicio o generalización que se basa en un razonamiento o proceso dialéctico a priori. Por ejemplo, se supone que dos monedas están perfectamente equilibradas y que entonces la probabilidad de cada una de caer "cara" es = 0,5 (premisa). La media o número esperado de "caras" en la jugada de las monedas deber ser 1 (conclusión). Si las premisas son ciertas, las conclusiones no pueden ser falsas.

Una inferencia inductiva, por otra parte, es un juicio o generalización derivado de observaciones empíricas o experimentales; la conclusión sobre el número promedio de "caras" con base en los resultados de una muestra de prueba. Si los resultados de las pruebas son diferentes, la conclusión también será diferente. No se requiere una suposición a priori sobre la naturaleza de las monedas. La inferencia estadística es primordialmente de naturaleza inductiva y llega a generalizaciones respecto de las características de una población al valerse de observaciones empíricas de la muestra.

Es muy probable que una estadística muestral sea diferente del parámetro de la población y sólo por coincidencia sería el uno exactamente igual al otro. La diferencia entre el valor de una estadística muestral y el correspondiente parámetro de la población se suele llamar error de estimación. Sólo se sabría cuál es el error si se conociera el parámetro poblacional, pero éste por lo general se desconoce. La única manera de tener alguna certeza al respecto es hacer todas las observaciones posibles del total de la población en la mayoría de las aplicaciones prácticas, lo cual, desde luego, es imposible o impracticable.

Y en efecto, la razón de ser de la inferencia estadística es la falta de conocimientos acerca de las características de la población. Pero que tales características se desconozcan no impide el que se actúe.

Las inferencias estadísticas se hacen por posibilidades o probabilidades. De la media de la muestra se hacen inferencias sobre la media de la población. No se sabe exactamente cuál es la diferencia entre estas dos medias, ya que la última es desconocida en la mayoría de los casos. No obstante, si se sabe que es más bien poca la probabilidad de que esta diferencia sea mayor que, por ejemplo, tres a aún dos errores estándares.

Los problemas que se tratan en la inferencia estadística se dividen generalmente en dos clases: los problemas de estimación y los de prueba de hipótesis. Como al estimar un parámetro poblacional desconocido se suele hacer una afirmación o juicio este último ofrece solamente una estimación. Es un valor particular obtenido de observaciones de la muestra. No hay que confundir este concepto con el de estimador, que se refiere a la regla o método de estimar un parámetro poblacional. Por ejemplo, se dice que X es un estimador de porque la media muestral proporciona un método para estimar la media de la población. Un estimador es por naturaleza un estadístico y como tal tiene una distribución. El procedimiento mediante el cual se llega a la obtención y se analizan los estimadores se llama estimación estadística, que a su vez se divide en estimación puntual y estimación por intervalos. En una población cuya distribución es conocida pero desconocemos algún parámetro, podemos estimar dicho parámetro a partir de una muestra representativa.

Uno de los principales objetivos de la estadística inferencial es estimar parámetros poblacionales. Desde el punto de vista matemático, los parámetros son valores que definen la forma y localización de un modelo probabilístico. Los parámetros poblacionales son constantes que caracterizan una población. Estos parámetros pueden ser de ubicación (como la media, mediana, proporción) o de dispersión (como la varianza o coeficiente de variación). Los parámetros se estiman mediante el muestreo de la población. Los valores que se calculan a partir de muestras para estimar parámetros se llaman estimadores. Los estimadores se calculan mediante reglas matemáticas (fórmulas) a partir de los elementos de la muestra. Por ejemplo, la media muestral, un estimador de la media poblacional se calcula como:

La selección de elementos en una muestra se puede hacer de distintas formas, El muestreo aleatorio es la selección al azar de los elementos que constituyen una población. El muestreo puede ser sin reemplazo, en este caso, los elementos que se extraen no son devueltos. El muestreo con reemplazo ocurre cuando el elemento extraído es devuelto a la población. En el caso de que el tamaño de la población sea muy grande, el muestreo sin reemplazo no afecta las estimaciones, de lo contrario debe considerarse el efecto de la extracción de los elementos de la población. La selección y extracción aleatoria de los elementos de la población para realizar inferencias sobre atributos poblacionales es necesaria para evitar sesgos, lograr independencia entre las observaciones y mantener objetividad en las inferencias realizadas. Puesto que los elementos de la muestra varían de manera impredecible (si la extracción es aleatoria), los estimadores también varían. Por lo tanto, los estimadores son variables aleatorias.

Para la estimación de los estadísticos de posición se toma como base el cálculo combinatorio y permutacional. Se utilizan fundamentalmente las técnicas de remuestreo, Bootstrap y Jackknife. Estas técnicas no han sido suficientemente desarrolladas y utilizadas porque históricamente los economistas (padres de los estadistas) empleaban las sumatorias y la medias y nunca las medidas de posición, medianas o cuartiles. Esto es lógico cuando hablamos de dinero.

La estimación de parámetros puede ocurrir de dos formas: a) Estimación puntual, la cual es la estimación del valor del parámetro y b) Estimación por intervalo, en este caso se construye un intervalo probabilístico que expresa la probabilidad de que el parámetro se encuentre dentro de dicho intervalo con cierto nivel de confiabilidad. Se recomienda que en la presentación de estimaciones puntuales siempre se asocie su variabilidad, por ejemplo, en el caso de la media muestral, es recomendable presentar también el error estándar y tamaño de muestra

Un  estimador es un valor que puede calcularse a partir de los datos muestrales y que proporciona información sobre el valor del parámetro. Por ejemplo la media muestral es un estimador de la media poblacional, la proporción observada en la muestra es un estimador de la proporción en la población.

Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Los estimadores más probables en este caso son los estadísticos obtenidos en la muestra, aunque es necesario cuantificar el riesgo que se asume al considerarlos. Recordemos que la distribución muestral indica la distribución de los valores que tomará el estimador al seleccionar distintas muestras de la población. Las dos medidas fundamentales de esta distribución son la media que indica el valor promedio del estimador y la desviación típica, también denominada error típico de estimación, que indica la desviación promedio que podemos esperar entre el estimador y el valor del parámetro.

Más útil es la estimación por intervalos en la que calculamos dos valores entre los que se encontrará el parámetro, con un nivel de confianza fijado de antemano.

Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza, contiene al parámetro que se está estimando.

Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al verdadero valor del parámetro. Se indica por 1 habitualmente se da en porcentaje (1-)100%. Hablamos de nivel de confianza y no de probabilidad ya que una vez extraída la muestra, el intervalo de confianza contendrá al verdadero valor del parámetro o no, lo que sabemos es que si repitiésemos el proceso con muchas muestras podríamos afirmar que el (1- )% de los intervalos así construidos contendría al verdadero valor del parámetro. Por lo general los nivele de confianza más utilizados son: 99, 95 y 90 %, a estos se les denominan coeficientes de confianza: es el nivel de confianza que se tiene en el que el intervalo contenga el valor desconocido del parámetro; estos son simplemente convencionales.

Un intervalo de confianza tiene un límite inferior de confianza (LIC) y un límite superior de confianza (LSC). Esos limites se encuentran calculando primero la media muestral,. Luego se suma una cierta cantidad a para obtener el LSC y la misma cantidad se resta a para obtener el LIC, estos valores que se suman y restan a la media muestral se les denominan errores de estimación.

Confianza e Intervalos de confianza

La estimación de parámetros mediante un solo valor se conoce como estimación puntual. Es bastante arriesgada puesto que no conocemos ni la imprecisión ni se establece el grado de confianza que nos merece el resultado. Estos dos inconvenientes se obvian con la estimación por intervalos confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza. Por otro proporcionan un valor de la fiabilidad que nos debería merecer nuestra estimación, o nivel de confianza.

Afortunadamente algo tan sutil como la confianza se puede cuantificar, y no sólo eso sino que se mueve en unos límites tan cómodos para el pensamiento como son entre el cero y el cien por ciento. Por convenio, y nadie parece en desacuerdo, para la mayoría de las ocasiones una confianza del 95% parece suficiente. Este es el valor que gobierna la longitud del intervalo de confianza.

¿Como se interpreta una confianza del 95%?. Si llevamos a cabo un experimento 100 veces obtendríamos 100 distribuciones muestrales de datos y 100 intervalos de confianza. De estos 100 intervalos, 95 de ellos cubrirían el valor del verdadero parámetro poblacional. Desgraciada o afortunadamente, nosotros solo realizamos el experimento una sola vez. Con lo que nunca sabremos si nuestro intervalo es uno de esos 95 que contienen el parámetro de estudio.

Técnicamente, aunque esto suene a una sofisticación innecesaria, no podemos asociar el concepto de nivel de confianza con el concepto de probabilidad. Así no se puede establecer que tenemos una probabilidad del 95% de que el parámetro buscado este dentro de nuestro intervalo.

Las técnicas de estimación de parámetros poblacionales se incluyen dentro de la estadística inferencial.

Un Teorema Importante

Todos los parámetros poblacionales pueden ser estimados a partir de técnicas de estimación. La mayoría de los estimadores se basan en la distribución de los estadísticos en el muestreo y toman como base algunas propiedades deseables del teorema del límite central. Este teorema tiene unas propiedades tan deseables que es la base de la estadística analítica. Viene a decir fundamentalmente dos cosas:

1.- Que las muestras individualmente son diferentes de las poblaciones pero en conjunto son muy parecidas

2. Que las muestras no son gobernadas por el azar, sino que en conjunto siguen, no importa de lo que estemos tratando, las leyes universales de las funciones teóricas de probabilidad. La función de probabilidad normal rige, en la mayoría de las ocasiones cuando las muestras son mayores de 30, estas distribuciones muestrales.

Otro Enfoque

Para la estimación de los estadísticos de posición se toma como base el cálculo combinatorio y permutacional. Se utilizan fundamentalmente las técnicas de remuestreo, Bootstrap y Jackknife. Estas técnicas no han sido suficientemente desarrolladas y utilizadas porque históricamente los economistas (padres de los estadistas) empleaban las sumatorias y la medias y nunca las medidas de posición, medianas o cuartiles. Esto es lógico cuando hablamos de dinero.

La estimación de parámetros puede ocurrir de dos formas: a) Estimación puntual, la cual es la estimación del valor del parámetro y b) Estimación por intervalo, en este caso se construye un intervalo probabilístico que expresa la probabilidad de que el parámetro se encuentre dentro de dicho intervalo con cierto nivel de confiabilidad. Se recomienda que en la presentación de estimaciones puntuales siempre se asocie su variabilidad, por ejemplo, en el caso de la media muestral, es recomendable presentar también el error estándar y tamaño de muestra.

ESTIMACIÓN DE PARÁMETROS

La teoría clásica de la Inferencia Estadística trata de los métodos por los cuales se selecciona una muestra de una población y, basándose en las pruebas de las muestras, se trata de:

* Estimar el valor de un parámetro desconocido, por ejemplo θ.

* Verificar si θ es o no igual a cierto valor predeterminado, por ejemplo θ0.

El primero de estos dos procedimientos, de inferir de una muestra a una población, se llama estimación de un parámetro; el segundo, prueba de una hipótesis acerca de un parámetro. Dentro del primer procedimiento, la estimación de un parámetro puede tener por resultado un solo punto (estimación puntual), o un intervalo dentro del cual exista cierta probabilidad de encontrarlo (estimación por intervalos).

Un estimador puntual es un único punto o valor, el cual se considera va a estimar a un parámetro. La expresión E() = sugiere que el único valor de es un estimador puntual insesgado o no viciado de .

Un estimador por intervalo se construye sobre el concepto de un estimador puntual, pero además, proporciona algún grado de exactitud del estimador. Como el término lo sugiere, un estimador por intervalo es un rango o banda dentro de la cual el parámetro se supone va a caer.

Las técnicas estadísticas de estimación intentan conocer el valor de estos parámetros. La media de edad de un conjunto de personas es fácilmente calculable y no está sometido a ninguna clase de imprecisión. La media de edad de la población de donde proviene esa muestra es desconocida. Si la muestra cumple la condición de ser aleatoria, es posible intentar calcular la media poblacional. El cálculo de los parámetros se basa en la información suministrada por la muestra.

En el proceso de ir de la información de la muestra (estadísticos) al estimado de los parámetros poblacionales ocurren dos cosas, una buena y otra mala:

a.- Ganamos en generalización. Esto es, pasamos de la parte al todo. De las muestras a las poblaciones

b.- Perdemos precisión o lo que es lo mismo, ganamos en imprecisión. La estimación de parámetros poblacionales se realiza construyendo intervalos (segmentos) que suponemos cubren o contienen el parámetro buscado.

ESTIMACIÓN CON Y SIN SESGO

Si la media de las distribuciones de muestreo de un estadístico es igual que la del correspondiente parámetro de la población, el estadístico se llama un estimador sin sesgo del parámetro; si no, se denomina un estimador sesgado. Los correspondiente valores de tales estadísticos se llaman estimaciones sin sesgo y sesgadas, respectivamente.

ESTIMACIÓN EFICIENTE

Si las distribuciones de muestreo de los estadísticos tienen las mismas medias (o esperanza matemática), el de menor varianza se llama un estimador eficiente de la media, mientras que el otro se llama un estimador ineficiente. Los valores correspondientes de esos estadísticos se llaman estimación eficiente e estimación ineficiente, respectivamente. Si consideramos todos los posibles estadísticos cuyas distribuciones de muestreo tienen la misma media, aquel de varianza mínima se llama a veces el estimador de máxima eficiencia, o sea el mejor estimador.

ESTIMACIÓN - GENERALIDADES

El uso principal de la inferencia estadística en la investigación empírica, es lograr conocimiento de una gran clase de unidades estadísticas (seres humanos, plantas, parcelas de tierra), de un número relativamente pequeño de los mismos elementos.

Los métodos de inferencia estadística emplean el razonamiento inductivo, razonamiento de lo particular a lo general y de lo observado a lo no observado.

Cualquier colección o agregación grande de cosas que deseamos estudiar o de las cuales deseamos hacer inferencias, se llama población. El término población tiene más significado cuando se lo junta con la definición de muestra de una población: una muestra es una parte o subconjunto de una población. Una muestra de n elementos de la población de N elementos, debería ser seleccionada de forma tal que las características de la población puedan ser estimadas con un margen de error conocido. Los valores de varias medidas descriptivas calculadas para las poblaciones, se llaman parámetros. Para las muestras, estas mismas medidas descriptivas se llaman estadísticos o estadígrafos.

Matemáticamente, podemos describir muestras y poblaciones al emplear mediciones como la media, mediana, moda y desviación estándar. Cuando estos términos describen las características de una muestra se denominan estadísticos o estadígrafos y cuando describen las de una población se denominan parámetros, con lo que podemos decir que:" Un estadístico es una característica de una muestra y un parámetro es una característica de una población." Un parámetro describe una población de la misma manera que un estadígrafo describe a una muestra. Los investigadores de la estadística usan la palabra población para referirse no sólo a personas sino a todo los elementos que han sido escogidos para su estudio; mientras que emplean la palabra muestra par describir una porción escogida de la población. La notación utilizada empleada para denotar estadísticos de muestra es de letras latinas minúsculas y para representar parámetros de una población se utilizan letras griegas o latinas mayúsculas.

MUESTRA

POBLACIÓN

ESTADÍSTICO

PARÁMETRO

Media Aritmética

Variancia

2

Desvío Estándar

S

Coeficiente de Correlación

r

Tamaño

n

Un estadígrafo o estadístico calculado a partir de una muestra es un estimador del parámetro en la población. Una estimación es alguna función de los resultados de una muestra que produce un valor, llamado estimador. El estimador da alguna información respecto al parámetro. Por ejemplo, la media de la muestra, , es un estimador de la media en la población. Las poblaciones pueden ser infinitas o finitas. Para la mayoría de los propósitos de investigación, se supone que las poblaciones son infinitas, no finitas, en tamaño, las cuales son algo artificial o imaginario. Una población finita puede ser extremadamente grande. Es posible concebir un proceso de conteo de los elementos de la población, el cual puede ser computado; luego la población es técnicamente finita. Afortunadamente no es necesario crear problemas en cuanto a la distinción entre poblaciones infinitas y finitas.

El método usado para seleccionar la muestra es muy importante al juzgar la validez de la inferencia que se hace de la nuestra a la población. Para que una muestra sirva adecuadamente como base para obtener estimadores de parámetros poblacionales, debe ser representativa de la población. El muestreo al azar de una población producirá muestras que "a la larga" son representativas de la población. Si una muestra se extrae aleatoriamente, es representativa de la población en todos los aspectos, esto es, el estadígrafo diferirá del parámetro solo por azar. La habilidad para estimar el grado de error debido al azar (error de muestreo), es un rasgo importante de una muestra al azar.

PROPIEDADES DE UN BUEN ESTIMADOR

Para poder utilizar la información que se tenga de la mejor manera posible, se necesita identificar los estadígrafos que sean buenos estimadores, cuyas propiedades son:

Insesgabilidad:, estimador de es una variable aleatoria y por lo tanto tiene una distribución de probabilidad con una cierta media y variancia. Se puede definir estimador insesgado diciendo: Si se utiliza un estadístico muestral para estimar el parámetro de la población , se dice que es un estimador insesgado de , si la esperanza matemática de coincide con el parámetro que desea estimar.

En símbolos: es insesgado

O sea que es de esperar que si se toman muchas muestras de igual tamaño partiendo de la misma distribución y si de cada una se obtiene un valor , la media de todos los valores de ha de estar muy cerca de .

* La media muestral es un estimador insesgado de la media poblacional, o sea que E () =

* La variancia muestral, ¿es un estimador insesgado de la variancia poblacional?

La respuesta depende de como se defina la variancia muestral.

Si , entonces S² es un estimador sesgado de pues . Mas aún, . Pero el sesgo se puede corregir alterando la definición de variancia muestral.

En efecto, si es la variancia muestral corregida, entonces y S² es un estimador insesgado de .

Eficiencia: si se utilizan dos estadísticos o estadígrafos como estimadores del mismo parámetro, entonces aquel cuya distribución muestral tenga menor variancia, es un estimador más eficiente o más eficaz que el otro. Es decir: es eficiente mínima.

Consistencia: Si es un estimador muestral calculado a partir de una muestra de tamaño n y si es el parámetro de población que se va a estimar, entonces es un estimador consistente de si la probabilidad de que el valor absoluto de la diferencia entre y su esperanza iguale o supere a e (error admitido que tiende a cero, o sea que es tan pequeño como se quiera), tienda a cero cuando el número de elementos de la muestra tienda a infinito. Es decir, la consistencia se refiere a que al aumentar el tamaño de muestra, el estimador se aproxima al parámetro.

Suficiencia: La suficiencia se refiere a que el estimador haga uso de toda la información de la muestra para estimar al parámetro. La media muestral hace uso de todas las observaciones. Un estimador suficiente del parámetro es aquel que agota toda la información pertinente sobre que se puede disponer en la muestra. Por ejemplo, si se toma una muestra de n = 30 valores con el fin de estimar , pueden utilizarse como estimadores la primera, la décimo quinta o la última observación, o el promedio entre la primera y la quinta observación. Pero estos estimadores no son suficientes pues no contienen toda la información disponible de la muestra. La media aritmética calculada con las 30 observaciones sí lo es pues tiene en cuenta todas las observaciones. En definitiva, por ejemplo la media aritmética muestral y la forma corregida de la variancia muestral, son estadísticas que satisfacen los criterios o propiedades de "buenos" estimadores.

Evaluación de la bondad de un Estimador

Para evaluar si un estadístico es mejor estimador que otro, se evalúan cuatro criterios:

Imparcialidad: Se dice que un estadístico es un estimador imparcial si, en promedio, tiende a tomar valores que están por encima del parámetro de la población que se está estimando con la misma frecuencia y la misma extensión con la que tiende a asumir valores por debajo del parámetro que se está estimando. Se refiere al hecho de que una media de muestra es un estimador no sesgado de una media de población, porque la media de distribución de muestreo de las medias de muestras tomadas de la misma población es igual a la media de la población misma. Podemos decir que una estadística es un estimador imparcial (o no sesgado) si, en promedio, tiende a tomar valores que están por encima del parámetro de la población y la misma extensión con la que tiende a asumir valores por debajo del parámetro de población que se está estimando.

Eficiencia: Esta característica se refiere al tamaño del error estándar del estadístico, mientras más pequeño sea el error estándar, en más eficiente el estimador. Se refiere al tamaño del error estándar de la estadística. Si comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cuál de ellas es un estimador más eficiente, escogeríamos la estadística que tuviera el menor error estándar o la menor desviación estándar de la distribución de muestreo. Tiene sentido pensar que un estimador con un error estándar menor (con menos desviación) tendrá una mayor oportunidad de producir una estimación más cercana al parámetro de población que se está considerando.

Coherencia: Un estadístico es un estimador coherente de un parámetro de población si al aumentar el tamaño de la muestra, se tiene casi la certeza de que el valor de la estadística se aproxima bastante al valor del parámetro de la población. Si un estimador es coherente, se vuelve más confiable si tenemos tamaños de muestras más grandes.

Suficiencia: Un estimador es suficiente si utiliza una cantidad de la información contenida en la muestra que ningún otro estimador podría extraer información adicional de la muestra sobre el parámetro de la población.

ESTIMACIÓN POR INTERVALOS DE CONFIANZA

Lo dicho hasta ahora se refiere a una estimación puntual, es decir, estimar un parámetro a través de un único valor. Esta estimación no es muy conveniente pues con ella no se puede determinar el error de muestreo, ni la precisión de la estimación, ni la confianza que merece tal estimación. Existen otros métodos para estimar parámetros poblacionales que son mucho más precisos. Por ejemplo:

* Método de los mínimos cuadrados.

* Método de los momentos.

* Método de la máxima verosimilitud se basa en el principio de que generalmente ocurre lo más probable.

* Método de estimación por intervalos de confianza, este será el que se desarrollara en este curso.

El procedimiento de determinar un intervalo (a, b) que comprenda un parámetro de población con cierta probabilidad 1 , se llama estimación por intervalos. Se verán los casos paramétricos, es decir, aquellos en los que se tiene conocimiento del tipo de distribución de la población (Binomial, Normal, etc.). DISTRIBUCIONES MUESTRALES

Este concepto se relaciona con la idea de variación o fluctuaciones al azar, para lo cual todas las posibles muestras de un tamaño N en una población dada (con o sin reposición). Para cada muestra, podemos calcular un estadístico (tal como la media o la desviación típica) que variará de muestra a muestra. De esta manera obtendremos una distribución del estadístico que se llama su distribución de muestreo. Si, por ejemplo, el estadístico utilizado es la media muestral, entonces la distribución se llama la distribución de muestreo de medias, o, distribución de muestreo de la media. Análogamente, podríamos tener  distribuciones de muestreo de la desviación típica, de la varianza, de la mediana, de las proporciones, etc. Para  cada distribución de muestreo podemos calcular la media, la desviación típica, etc. Así pues, podremos hablar de la media y la desviación típica de la distribución de muestreo de medias, etc.

DISTRIBUCIÓN DE MUESTREO DE MEDIAS

Es una distribución probabilística que consta de una lista de todas las medias muestrales posibles de un tamaño dado de una población y la probabilidad de ocurrencia asociada con cada media muestral. Si tomamos varias muestras de una población con el objetivo de obtener la media poblacional, observaríamos que cada una de ellas posiblemente nos dan diferentes valores de dicha media. Si se organizaran las medias de todas las muestras posibles de un tamaño específico tomadas de una población se obtendría lo que se conoce como una distribución muestral de medias.

Para muestras de tamaño N, sin reposición, de una población finita de tamaño Np>N tenemos,

        y    

Si la población es infinita o si el muestreo es con reposición, los resultados anteriores se reducen a:

         y 

Para valores grandes de N (N30), la distribución de muestreo de medias, es aproximadamente normal con media y desviación típica , independientemente de la población (en tanto en cuanto la media poblacional y la varianza sean finitas y el tamaño de la población sea al menos doble que el de la muestra). Este resultado para una población infinita es un caso especial del teorema del límite central de teoría avanzada de probabilidades, que afirma que la precisión de la aproximación mejora al crecer N. Esto se indica en ocasiones diciendo que la distribución de muestreo es asintóticamente normal.

Debemos anotar que las características de la población serán las mismas que tendrán las diferentes muestras de la misma:

Si la población no tiene distribución normal, la distribución muestral de medias de cualquier manera tenderá a aproximarse a la forma normal.

La dispersión en la distribución de las medias muestrales es siempre menor que la dispersión de la población y será mucho más pequeña mientras más grande sea el tamaño de la muestra.

ESTIMACIONES DE INTERVALO DE CONFIANZA PARA PARÁMETROS DE POBLACIÓN

Sean x la media y la desviación típica (error típico) de la distribución de muestreo de un estadístico S. Entonces, si la distribución de S es aproximadamente normal (que como hemos visto es cierto para mucho estadísticos si el tamaño de la muestra N30), podemos esperar hallar un estadístico real S que esté en los intervalos s -s a s +s, s -2s a s+s, o s -s a s +3s alrededor del 68.27 %, 95,45 % y 99.73 % de la curva normal, respectivamente.

Equivalentemente, podemos esperar hallar (o sea, podemos estar confiados en encontrar)s en los intervalos S - s a S + s, S - 2s a S + 2s, o S - 3s a S + 3s alrededor del 68.27%, 95.45% y 99.73% , de la curva normal, respectivamente. Por esta razón, llamamos a ese respectivos intervalos los intervalos de confianza 68.27%, 95.45% y 99.73% para estimar s. Los números extremoso de estos intervalos se llaman entonces los límites de confianza 68.27%, 95.45% y 99.73%.

Análogamente, S ± 1.96s. y S ± 2.58s son los límites de confianza 95% y 99% (o sea 0.95 y 0.99) para S. El porcentaje de confianza se suele llamar nivel de confianza. Los números 1.96 y 2.58, etc. en los límites de confianza se llaman coeficientes de confianza o valores críticos, y se denotan por zc. De los niveles de confianza que no aparecen en la tabla, los valores de zc se pueden encontrar gracias a las tablas de áreas bajo la curva normal.

NIVELES DE CONFIANZA

NIVEL DE CONFIANZA

99.73%

99%

98%

96%

95.45%

95%

90%

80%

68.27%

50%

ZC

3.00

2.58

2.33

2.05

2.00

1.96

1.645

1.28

1.00

0.6745

Una normal de media y desviación se transforma en una z. De acuerdo a las siguientes figuras. Llamando z al valor de una variable normal tipificada que deja a su derecha un área bajo la curva de , es decir, que la probabilidad que la variable sea mayor que ese valor es (estos son los valores que ofrece la tabla de la normal). Podremos construir intervalos de la forma , para los que la probabilidad es 1 - .

ERRORES TÍPICOS:

La desviación típica de una  una distribución de muestreo de un estadístico se suele llamar su error típico. En la siguiente tabla, se presentan errores típicos de distribución de muestreo para varios estadísticos bajo las condiciones de muestreo aleatorio de una población infinita (o muy grande) o de muestreo con reposición de una finita. También recoge observaciones particulares que garantizan la validez de estos resultados y otras notas pertinentes.

Se debe tomar en cuenta que si el tamaño de la muestra es lo bastante grande, las distribuciones de muestreo son normales o casi normales. Por ellos, los métodos se conocen como métodos de grandes muestras. Cuando N30, las muestras se llaman pequeñas. Cuando los parámetros de la población, tales comoro, son desconocidos, pueden ser estimados con precisión por sus correspondientes estadísticos muestrales, a saber, s,, y r, si las muestras son suficientemente grandes.

DISTRIBUCIÓN DE MUESTREO

ERROR TÍPICO

OBSERVACIONES

Medias

Esto es cierto para muestras grandes y pequeñas. La distribución muestral de medias es casi normal para 30, incluso cuando la población no es normal.

, la media de la población, en todos lo casos.

Proporciones

La nota precedente para las medias se aplica aquí también

, en todos los casos.

Desviaciones Típicas

(1)

Para 100, la distribución muestral de s es casi normal.s viene dada por (1) sólo si la población es normal (o aproximadamente normal). Si la población no es normal, se puede usar (2).Note, que (2) se reduce a (1) cuando 2=2  y 4=4, lo cual es cierto para poblaciones normales.Para 100, s= muy aproximadamente

(2)

Varianzas

(1)

Las observaciones hechas sobre la desviación típica son aplicables también aquí. Debemos notar que (2) da (1) en el caso de poblaciones normales.s2=2(N-1)/N, que es casi igual a 2 para N grandes.

(2)

Intervalo de Confianza para μ; con σ Conocida

Si es la media de una muestra aleatoria de tamaño n de una población con varianza conocida , un intervalo de confianza de para esta dado por , donde es el valor de z que delimita un área de a su derecha. Este teorema se cumple en el caso de muestras de tamaño n ≥ 30.

Es la probabilidad de que el intervalo no incluya al verdadero valor del parámetro. 1 es el nivel de confianza, es una medida de la fiabilidad de la estimación. Por ejemplo, si se toma = 10%, entonces 1 = 90% y se dice que se tiene un intervalo de confianza del 90% y que la probabilidad de que el intervalo contenga al verdadero valor del parámetro es del 90%. Es decir, que si repetidamente se muestra y se construye tal intervalo una y otra vez, 90 de cada 100 de estos intervalos, contendrá al parámetro y 10 de ellos no. Se puede pensar que 1 significa certeza, seguridad y significa riesgo. La seguridad menos el riesgo, es decir 1 da, por lo tanto, el coeficiente de confianza de nuestras afirmaciones.

En general, es posible construir intervalos de confianza para cualquier coeficiente de confianza para basado en una muestra grande

, es decir:

, es el límite inferior del intervalo de confianza y

, el límite superior del intervalo de confianza.

Una vez determinado el intervalo, es decir, una vez calculados numéricamente los limites inferiores y superiores, ya no debe hablarse en términos de confiabilidad ni en términos probabilísticos, pues la situación pasa a ser completamente determinística. De tal manera, asociado a un intervalo de confianza ya calculado, se tiene una probabilidad 0 ó 1 de que contenga al parámetro a estimar y no hay otra opción, ya que lo contiene o no lo contiene. Resumiendo, los extremos del intervalo son variables aleatorias, mientras que el parámetro a determinar es constante.

Muestras diferentes originaran valores distintos de y, consecuentemente originaran diferentes estimaciones por intervalos del parámetro . Mientras mayor sea el valor que se elija para , más amplio serán los intervalos y abra mayor confianza de que la muestra seleccionada en particular dará un intervalo que contenga al parámetro desconocido .

Figura: Intervalo de confianza para la media.

En general, los pasos a seguir para estimar un parámetro por el método de los intervalos de confianza, son:

* Fijar el coeficiente de confianza que se desea en la estimación.

* Extraer la muestra y calcular el o los estadísticos necesarios.

* Determinar la distribución en el muestreo que tiene el estadístico empleado.

INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL

CASO 1 Con conocido:

Sea donde es desconocido y conocido.

Sea x1, x2, ... , xn una muestra aleatoria de la variable aleatoria X y sea la media muestral.

Se sabe que independientemente del valor de n, por el teorema central del límite.

Luego, tipificando:

Se plantea: entonces:

Observaciones:

Si las muestras se toman sin reposición de una población finita de tamaño N, debe emplearse el factor de corrección por finitud y el intervalo será:

Si la población es sólo aproximadamente normal, la igualdad sigue siendo válida en forma aproximada.

Figura: La distribución N (0,1) y el intervalo más pequeño posible cuya probabilidad es . Por simetría, los cuartiles y sólo difieren en el signo.

Ejemplo 1: Un grupo de investigadores en Medicina desea estimar el cambio medio de presión sanguínea por paciente en un sanatorio. Se ha seleccionado una muestra al azar de 30 pacientes y se halló que puls/seg. Los investigadores saben que la desviación estándar de los cambios de presión sanguínea para todos los pacientes es σ = 3 puls/seg según estudios anteriores. Ellos desean estimar el cambio medio de la presión sanguínea por paciente con un intervalo del 95% de confianza, suponiendo que la variable aleatoria "cambios de presión sanguínea" tiene asociada una distribución normal de probabilidad.

Respuesta:

X = cambio en la presión sanguínea por paciente del sanatorio (en pulsaciones por segundo)

n = 30, , = 3, 1 - = 0.95

Por tabla: Entonces:

Límite inferior (LIC) =

Límite superior (LSC) =

Por lo tanto resulta el Intervalo del 95% de confianza para la media: (3,9; 6,1). Entonces, se puede afirmar que el cambio medio en la presión sanguínea por paciente, pertenece al intervalo (3,9; 6,1) pulsaciones, con un nivel de confianza del 95%.

En cuanto al tamaño óptimo de muestra, determina el error máximo admitido de muestreo e indica la precisión de la estimación. Lógicamente se pretende que sea lo más pequeño posible. Por otra parte, (1 - ) es el coeficiente de confianza y se pretende que sea lo más grande posible. Pero depende del valor de y al hacer mayor el coeficiente de confianza (1 - ), el valor será mayor y por lo tanto el error aumentará. Esto se puede regular aumentando el tamaño de la muestra con lo que el error disminuirá.

Para el ejemplo 1, con un nivel de confianza del 95%.

Si se utiliza como una estimación de , se puede tener una confianza de de que el error será menor que una cantidad especificada e cuando el tamaño de la muestra es

.

Si se desea elevar el nivel de confianza a 99% en el problema anterior, pero sin aumentar el error e de estimación, el tamaño de la muestra debería ser:

Es decir, que se debe tomar una muestra de aproximadamente 52 pacientes en lugar de 30.

Por el contrario, si el investigador deseara un error de estimación menor, por ejemplo 1 puls/seg, manteniendo el nivel de confianza en 95%, el tamaño de la muestra requerido será:

Pacientes.

EJEMPLO 1A.-Para una muestra de 81 habitantes de cierta población se obtuvo una estatura media de 167 cm. Por estudios anteriores se sabe que la desviación típica de la altura de la población es de 8 cm. Construye un intervalo de confianza para la estatura media de la población al 95%.

Datos:

Entonces el intervalo de confianza buscado es: (165.26; 168.74)

Por lo tanto resulta el Intervalo del 95% de confianza para la media: (165.26, 168.74). Entonces, se puede afirmar que el cambio medio en la estura de esa población, pertenece al intervalo (165.26, 168.74), con un nivel de confianza del 95%.

El estudiante debe calcular los intervalos para los niveles de confianza de 90% y de 99%. 

EJEMPLO: La media y la desviación estándar para los promedios de puntuación de una muestra aleatoria de 36 estudiantes de un Tecnológico son 2.6 y 0.3, respectivamente. ¿De qué tamaño debería ser la muestra si se desea tener una confianza de 95 % de que la estimación de es menor que0.05?

SOLUCIÓN: Puesto que el tamaño de la muestra es grande, la desviación estándar puede aproximarse mediante , y e = 0.05. Aplicando la siguiente formula se tiene:

Por lo tanto, se puede tener una confianza de 95 % de que una muestra aleatoria de tamaño 138 proporcionará una estimación de la media aritmética de la muestra que será diferente de la media aritmética de la población en una cantidad menor que 0.05.

EJEMPLO: La desviación típica de la altura de los habitantes de un país es de 8 cm. Calcular el tamaño mínimo que ha de tener una muestra de habitantes de dicho país para que el error cometido al estimar la altura media sea inferior a 1 cm. con un nivel de confianza del 90%.

SOLUCIÓN: Se aplica la formula para calcular el tamaño de la muestra , donde de acuerdo con la tabla; e =1; , entonces

Por lo tanto, se puede tener una confianza de 90 % de que una muestra aleatoria de tamaño 173 proporcionará una estimación de la media aritmética de la muestra que será diferente de la media aritmética de la población de ese país en una cantidad menor que 1 cm.

CASO 2 Con desconocido

Para estimar se debe utilizar el desvío estándar muestral corregido así: , ya que según se ha visto, es un estimador insesgado del correspondiente parámetro poblacional . Reemplazando en la variable tipificada por resulta el siguiente teorema:

Intervalo de Confianza de Muestras Pequeñas para μ; con σ desconocida

Si y S son la media y la desviación estándar de una muestra aleatoria de tamaño n < 30, tomada de una población aproximadamente normal con varianza desconocida , un intervalo de confianza para viene expresada por, , donde es el valor t con v = n – 1 grados de libertad, que delimitan un área de a su derecha.

Por lo tanto:

P [ ]

Dada la distribución del estadístico y el nivel de confianza, se tiene la siguiente igualdad probabilística:

, donde es el valor critico dela variable T de Student verificando

La expresión anterior es equivalente a: que hace referencia a que con una probabilidad 1- el intervalo aleatorio contendrá el valor medio . El intervalo es aleatorio ya que sus extremos se determinan a partir de los estimadores media muestral y desviación típica muestral, tratándose de variables aleatorias. La probabilidad a que se refiere dicho intervalo aleatorio, puede interpretarse de manera informal pero quizás más clara: "Si consideramos todas las muestras distintas de tamaño n que puedan ser extraídas  de la población X, y con las observaciones de cada una construimos los correspondientes intervalos, según la estructura anterior,  el (1- de estos intervalos contendrán el parámetro "

Por tanto, si extraemos una muestra de tamaño n y con los datos u observaciones, x1, x2 ,..., xn , calculamos los extremos del intervalo, dispondremos del concreto intervalo de confianza para el parámetro que, en función de la interpretación informal anterior, contendrá dicho parámetro con una confianza  (1-

Observación: el nivel de confianza establece en alguna medida la longitud del correspondiente intervalo de confianza. Aumentando el nivel de confianza (mayor certeza), aumenta la longitud (menor precisión).

Figura: La distribución de Student tiene las mismas

propiedades de simetría que la normal tipificada

Ejemplo 2: Una muestra de 15 pollos tomadas al azar en un galpón con 5000 pollos, (que elabora alimentos balanceados), permitió establecer un aumento de peso promedio de 90 g por semana y por pollo, y un desvío típico de 10 g. Se busca estimar el incremento de peso promedio para los 5000 pollos del establecimiento con un intervalo de confianza del 90%.

Respuesta:

X = aumento de peso por ave

n = 15; = 90g; S = 10 g.

Por tabla:

y el intervalo resultante será:

Interpretando este resultado, se dice que el aumento de peso por ave por semana en el establecimiento está entre 85,5 y 94,6 gramos, con un 90% de confianza.

INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS

ESTIMACIÓN DE LA DIFERENCIA DE DOS MEDIAS

CASO 1: Poblaciones normales y μ1 y μ2 con σ1 y σ2 conocidos.

Si se tienen dos poblaciones con medias y y varianzas y respectivamente, un estimador puntual de la diferencia entre y esta dado por el estadístico . Por lo cual, para obtener una estimación puntual de , se seleccionaran dos muestras aleatorias independientes, una de cada población, de tamaño n1 y n2, y se calculara la diferencia de las medias maestrales.

Si la selección de las muestras se realizaron independientemente a partir de poblaciones normales o en caso contrario, n1 y n2 son mayores que 30, se puede establecer un intervalo de confianza para considerando la distribución muestral de . De acuerdo con este planteamiento puede esperarse que la distribución muestral de tenga una distribución aparentemente normal con media y desviación estándar . De acuerdo con este planteamiento se puede afirmar con una probabilidad de que la variable normal estándar es:

y caerá entre y , entonces ,

y ahora sustituyendo Z por su valor, se expresa en forma equivalente que

Intervalo de Confianza para μ1 – μ2; con σ2 1 y σ2 2Conocidas

Si y son las medias de muestras aleatorias independientes del tamaño de n1 y n2 a partir de poblaciones con varianzas conocidas , respectivamente, un intervalo de confianza de para esta dada por la formula matemática siguiente:

, donde es el valor Z que delimita un área de a su derecha.

En forma general se tiene:

.

Observación: En la fórmula también puede utilizarse y en ese caso debe considerarse en lugar de .

El grado de confianza es exacto cuando se seleccionan muestras a partir de poblaciones normales. Cuando las poblaciones no son normales, se obtienen un intervalo de confianza aproximado muy aceptable cuando .Cuando se desconocen y y las muestras son suficientemente grandes, se puede reemplazar por y sin que se afecte en forma alguna el intervalo de confianza.

Ejemplo 3: Al determinar la superficie en miles de hectáreas de las explotaciones agrícola-ganaderas de cierta zona, una muestra de 40 explotaciones dio una superficie media de 900 ha, con una desviación típica de 300 ha. En otra zona, al muestrear también 40 explotaciones, la superficie media fue de 600 ha con una desviación típica de 150 ha. Suponiendo que en ambas zonas la variable "superficie en ha por explotación" se distribuye normalmente, estimar por un intervalo de confianza del 90%, la diferencia entre las superficies medias de las explotaciones de ambas zonas.

Respuesta:

X1 = superficie de cada explotación agropecuaria de la primera zona

X2 = superficie de cada explotación agropecuaria de la segunda zona

,, n = 40; , por ser una muestra grande se puede remplazar sin que se afecte el intervalo de confianza.

Por tabla: Luego aplicando la formula se tiene:

Entonces, IC0.90 = (212,8; 387,2)

Interpretando este resultado, se puede afirmar que la diferencia entre las superficies medias de las explotaciones agrícola-ganaderas de ambas zonas, se encuentra entre 212,8 y 387,2 ha, con un 90% de confianza.

EJEMPLO 4. Cincuenta alumnas y setenta y cinco alumnos del IUJAA presentan una prueba de Estadística. Las muchachas obtuvieron una calificación promedio de 76 puntos, con una desviación típica de 6, mientras que los muchachos lograron un promedio de 82, con una desviación estándar de 8. Encuentre el intervalo de confianza de 96 % para la diferencia de , donde es la puntuación media de todos los alumnos y es la puntuación promedio de todas las alumnas que presentaron esa prueba.

SOLUCIÓN: La estimación puntual de es Puesto que son grandes, se puede sustituir . Por tabla , por lo tanto, sustituyendo en la formula estos datos, el intervalo de confianza de 96 % es:

, .

, luego el intervalo buscado es:

(3.43; 8.57), o también,

DISTRIBUCIÓN DEL MUESTREO DE PROPORCIONES

Supongamos que una población es infinita y que la probabilidad de ocurrencia de un suceso (su éxito) es p, mientras la probabilidad de que no ocurra es q =1 – p. Por ejemplo, la población puede ser la de todas las posibles tiradas de una moneda, en la que la probabilidad del suceso <> es p = ½. Consideremos todas las posibles muestras de tamaño N de tal población, y para cada una de ellas determinemos la proporción de éxitos P. En el caso de una moneda, P sería la  proporción de caras en N tiradas. Obtenemos así una distribución de muestreo de proporciones cuya media p y cuya desviación típica p viene dada por

   y  

Para valores grandes de N (N30), la distribución de muestreo está, muy aproximadamente, normalmente distribuida, Nótese que la población está binomialmente distribuida. Las ecuaciones anteriores son válidas también para una población en la que se hace muestreo con reposición. Para poblaciones finitas en que se haga muestreo sin reposición, dichas ecuaciones quedan sustituidas por   y   .

Intervalo de confianza para p, a partir de una muestra grande

Si Es la proporción de éxito en una muestra aleatoria de tamaño n, y , un intervalo de confianza aproximado de para el parámetro binomial p esta dado por la siguiente formula matemática:

, donde es el valor de a su derecha. En forma general la formula se puede expresar así:

.

La proporción de la muestra se utiliza como estimación de porque se desconoce el valor de p y se trata de la cantidad que se debe estimar. Para estar seguro de su confiabilidad, se requiere que los productos sean mayores o iguales a 5.

EJEMPLO: En una muestra aleatoria de n = 500 familias propietarias de equipos de televisión en la ciudad de El Tigre se encontró que x = 340 se suscribieron a Cables El Tigre. Obtenga un intervalo de confianza de 95 % para estimar la proporción real de familias en la ciudad mencionada que se suscribieron a Cables El Tigre.

SOLUCIÓN: La estimación puntual de Por tabla se sabe que ; luego el intervalo de confianza aplicando la formula general será:

Ejemplo: En una muestra de 100 pacientes sometidos a un cierto tratamiento se obtienen 80 curaciones. Calcular el intervalo de confianza al 95% de la eficacia del tratamiento.

.

Intervalo de confianza al 95 %:

Luego el intervalo de confianza al 95 % es:(0.72; 0.88)

¿Qué significa este intervalo? La verdadera proporción de curaciones está comprendida entre, aproximadamente, 72% y 88% con un 95% de probabilidad. ¿Es suficientemente preciso? Habrá que juzgarlo con criterios clínicos.

EJEMPLO: Una máquina fabrica piezas de precisión y en una caja de 200 piezas, recibida por un cliente han aparecido 7 piezas defectuosas, a un nivel de confianza del 99% ¿entre qué valores se puede esperar que esté la verdadera proporción de piezas defectuosas fabricadas por la máquina?

SOLUCIÓN: Se calcula la proporción de de piezas defectuosas en la muestra: , luego , por tabla , ahora aplicando la formula general , se tiene:

, luego el intervalo buscado es: (0.002; 0.068).

Se deja al estudiante que calcule los intervalos para los niveles de confianza de 90% y 95%

Si p es valor central de un intervalo de confianza de , entonces estimará sin error el valor de p. Sin embargo, la mayoría de las veces no será exactamente igual a p, y la estimación puntual será errónea. El tamaño de ese error será la diferencia positiva que separa p y , y puede tenerse una confianza de de que esa diferencia no excederá de . De acuerdo con este planteamiento se afirma que:

Si se utiliza como una estimación de p, puede tenerse una confianza de de que el error no excederá de . Por lo tanto, se puede afirmar que:

Si se utiliza como una estimación de p, puede tenerse una confianza de de que el error será menor que una cantidad especificada e cuando el tamaño de la muestra es aproximadamente de .

EJEMPLO: En una muestra aleatoria de n = 500 familias propietarias de equipos de televisión en la ciudad de El Tigre se encontró que x = 340 se suscribieron a Cables El Tigre. ¿De qué tamaño debe ser la muestra necesaria, si se desea tener una confianza de 95 % de que la estimación de p este dentro de 0.02?

SOLUCIÓN: Se tomarán las 500 familias como una muestra preliminar que proporcionará una muestra ; por tabla ; e = 0.02. Luego se aplica la formula

Por lo tanto, si la estimación de p se basa en una muestra aleatoria de tamaño 2090, se puede tener una confianza de 95 % de que la proporción de la muestra no será diferente de la proporción real en más de 0.02.

Algunas veces será poco práctico obtener una estimación de p que habrá de utilizarse al determinar el tamaño de la muestra para un grado de confianza especificado. Si esto ocurre, se establece un límite superior para n, observando que lo cual debe ser por lo menos igual a ¼, ya que debe estar entre 0 y 1. De acuerdo con este planteamiento se puede enunciar lo siguiente:

Si se utiliza como una estimación de p, se puede tener por lo menos una confianza de de que el error no excederá de una cantidad especificada e cuando el tamaño de la muestra sea

EJEMPLO: En una muestra aleatoria de n = 500 familias propietarias de equipos de televisión en la ciudad de El Tigre se encontró que x = 340 se suscribieron a Cables El Tigre. ¿De qué tamaño debe ser la muestra necesaria, si se desea tener una confianza de 95 % de que la estimación de p este dentro de un 2 %?

SOLUCIÓN: En este caso a diferencia del ejemplo anterior, se supondrá ahora que no se ha tomado ninguna muestra preliminar para tener una estimación de p. Por lo tanto, puede tenerse por lo menos 95 % de confianza de que la proporción en la muestra no será diferente de la proporción verdadera en más de 0.02 si se elige una muestra de tamaño aplicando la formula así:

Datos: y como se desconoce p esta se toma como p = 05.

EJEMPLO: Imagina que queremos estimar con un error máximo del 3%, el porcentaje de audiencia de un programa de TV, y queremos un 95% de confianza para nuestros resultados. No disponemos de información previa sobre el posible valor de p. ¿Cuántos teleespectadores deberán ser encuestados?

SOLUCIÓN: Puesto que desconocemos p, tomaremos p = 0,5. Para un nivel de confianza del 95% deberemos tomar =1,96. Aplicando la formula

, entonces se tiene:

Con lo que n =1067. Tenemos pues un 95% de confianza en que el porcentaje que encontremos se halle a menos de tres puntos porcentuales de la proporción exacta.

Estimación de la diferencia entre dos proporciones

Considérese el problema en el que se desea estimar la diferencia entre dos parámetros binomiales, p1 y p2. Por ejemplo, se puede considerar que p1 es la proporción de fumadores con cáncer pulmonar y p2 la de los que no fuman y tienen también cáncer pulmonar. El problema, entonces, es estimar la diferencia entre estas dos proporciones. En primer lugar, se seleccionan muestras aleatorias independientes de tamaño n1 y n2 a partir de las dos poblaciones binomiales con medías n1p1 y n2p2, y variancia n1p1q1 y n2p2q2, respectivamente; luego se determinan los números x1 y x2 de personas de cada muestra con padecimiento de cáncer pulmonar y se forman las proporciones y . Un estimador puntual de la diferencia entre las dos proporciones está dado por el estadístico . Así la diferencia de las proporciones de muestra, será utilizada como estimación puntual de .

Un intervalo de confianza para puede establecerse considerando la distribución muestral de . Se sabe que y están distribuidos aproximadamente en forma normal cada uno, con medias p1 y p2 y variancias p1q1/n1 y p2q2 /n2, respectivamente. Eligiendo muestras independientes a partir de las dos poblaciones, las variables y serán independientes; luego, por la propiedad de la distribución normal, se concluye que y está distribuida de modo aproximadamente normal, con media y varianza , por lo tanto, se puede aseverar que , donde después de realizar las simplificaciones algebraicas usuales, se reemplazan en el radical por sus estimaciones

Siempre que sean todos mayores o iguales a 5, obteniéndose .

Intervalo de Confianza para p1 – p2, a Partir de Muestras Grandes

Si p1 y p2 son las proporciones de éxitos en muestras aleatorias de tamaño n1 y n2 respectivamente, y además y , entonces un intervalo de confianza p1 – p2 , esta dado la formula:

, donde es el valor que delimita un área de a su derecha.

EJEMPLOS: Un fabricante de insecticida en presentación aerosol desea comparar desea comparar dos productos nuevos, A y B. En el experimento se emplean dos habitaciones del mismo tamaño, cada una con 1000 mosquitos. En uno de los cuartos se rocía el insecticida A y en el otro se rocía el insecticida B en igual cantidad. Después del experimento se obtiene un total de 825 y 760 mosquitos muertos por acción de los insecticidas A y B respectivamente. Se desea estimar la diferencia de la proporción de éxito para los dos insecticidas cuando se usan en condiciones similares a las experimentadas. Resuelva el caso.

SOLUCIÓN: El estimador puntual de (p1 – p2) es . Por tabla ,

El intervalo de confianza del 95 % es:

El intervalo resultante es: .

Por lo tanto se estima que la diferencia de proporciones de éxito esta entre 0.03 y 0.100. Es decir, se estima que p1 excede de p2 por al menos 0.03 y a lo más por 0.100, entonces se puede tener buena confianza en esta estimación.

CONCEPTOS BÁSICOS

· Estimación: valor específico de un estimador, calculado en base a una muestra dada.

· Estimación de intervalo: intervalo de valores utilizado para estimar un parámetro de población desconocido.

· Estimación de parámetros: Aproximación del valor de parámetros poblacionales desconocidos mediante el empleo de estadísticos muestrales.

· Estimación puntual: un solo número que se utiliza para estimar un parámetro de población desconocido.

· Estimador: estadístico de muestra utilizada para estimar un parámetro de población. Conceptualmente es una variable aleatoria.

· Estimador coherente: estimador que produce valores que se acercan más al parámetro de la población conforme aumenta el tamaño de la muestra.

· Estimador eficiente: estimador con un menor error estándar que algún otro estimador del parámetro de la población, esto es, cuanto más pequeño sea el error estándar de un estimador, más eficiente será ese estimador.

· Estimador imparcial: estimador de un parámetro de población que, en promedio, asume valores por encima del parámetro de la población con la misma frecuencia, y al mismo grado, con que tiende a tomarlos por debajo del parámetro de la población.

· Estimador suficiente: estimador que utiliza toda la información disponible en los datos correspondientes a un parámetro.

· Intervalo de confianza: intervalo de valores que tiene designada una probabilidad de que incluya el valor real del parámetro de la población.

· Límites de confianza: límites inferior y superior de un intervalo de confianza.

· Nivel de confianza: probabilidad que los estadísticos asocian con una estimación de intervalo de un parámetro de población, ésta indica qué tan seguros están de que la estimación de intervalo incluirá el parámetro de la población. Probabilidad, designada de antemano, de que un intervalo de confianza incluya al valor del parámetro desconocido.

· Propiedades de un buen estimador: características deseables de un estimador, para lograr la mejor aproximación posible de un parámetro poblacional.

CONTRASTE DE HIPÓTESIS

HAMLET MATA MATA

Un Contraste o Test de Hipótesis es una técnica de Inferencia Estadística que permite comprobar si la información que proporciona una muestra observada concuerda (o no) con la hipótesis estadística formulada sobre el modelo de probabilidad en estudio y, por tanto, se puede aceptar (o no) la hipótesis formulada. Llamaremos hipótesis estadística a una afirmación respecto a una característica de una población. Contrastar una hipótesis es comparar las predicciones que se deducen de ella con la realidad que observamos: si hay coincidencia, dentro del margen de error admisible, mantendremos la hipótesis; en caso contrario, la rechazaremos. La hipótesis estadística puede ser:

Paramétrica: es una afirmación sobre los valores de los parámetros poblacionales desconocidos. Las hipótesis paramétricas se clasifican en:

Simple: si la hipótesis asigna valores únicos a los parámetros

Compuesta: si la hipótesis asigna un rango de valores a los parámetros poblacionales desconocidos

No Paramétrica: es una afirmación sobre alguna característica estadística de la población en estudio. Por ejemplo, las observaciones son independientes, la distribución de la variable en estudio es normal, la distribución es simétrica.

La hipótesis que se contrasta se denomina hipótesis nula y, normalmente, se denota por H0. Si se rechaza la hipótesis nula es porque se asume como correcta una hipótesis complementaria que se denomina hipótesis alternativa y se denota por H1 o Ha.

Rechazar una hipótesis implica sustituirla por otra capaz de explicar los datos observados.

Las siguientes afirmaciones son hipótesis estadísticas:

1. El tabaco produce cáncer de pulmón.

2. Disminuir la grasa en las comidas evita los infartos.

3. Las mujeres son más disciplinadas que los hombres.

Estas tres hipótesis no se refieren a individuos particulares, sino al conjunto de elementos de una o varias poblaciones. En estos ejemplos vemos que el contraste de hipótesis requiere, como pasos previos:

1. Especificar la población de interés

2. Definir la variable a que nos referimos y como medirla.

3. Relacionar la hipótesis con los parámetros de la o las poblaciones.

HIPÓTESIS

"La  imaginación, impaciente por remontarse a las causas, se complace en crear hipótesis y a menudo deforma los hechos para plegarlos a su labor: en tales casos, las hipótesis son peligrosas. Pero cuando sólo se las considera como medios para conectar entre sí los fenómenos a fin de descubrir sus leyes, cuando, procurando no atribuirles realidad, se las rectifica continuamente con ayuda de nuevas observaciones, entonces pueden llevarnos a las causas verdaderas o, por lo menos, ponernos en condiciones de inferir de los fenómenos observados aquellos que, dadas las circunstancias, han  debido originarlos".     Pierre Simon de Laplac Ensayo filosófico sobre las probabilidades (de las diversas formas de acercarse a la certeza) 1795.

Es interesante tener en cuenta que la veracidad de una hipótesis no puede ser probada nuncaLo que se puede hacer es afirmar que tiene tal o cual probabilidad  de ser falsaSi esa probabilidad es muy alta (95% o 99%) por ejemplo, se concluye que la hipótesis es poco creíble y se califica provisoriamente como falsa. Si no se consigue "falsar" (rechazar) la hipótesis, se acepta provisionalmente como verdadera. Esta calidad de provisorias  de las conclusiones estadísticas no debería sorprender a nadie: toda la ciencia es un constructo provisorio. La verificación de hipótesis  es el proceso que lleva a juzgar la credibilidad de afirmaciones (hipótesis) relativas a las poblaciones (habitualmente a sus parámetros) de las que fueron extraídas las muestras.

Ejemplificando

La Hipótesis nula puede ser: un parámetro    que tiene un valor k y la Hipótesis alternativa será su negación. Es decir:

Si se toma una muestra y en ella se calcula un estadístico cuya distribución en el muestreo en el caso de que Ho sea verdadera se conoce, se puede determinar qué Probabilidad (P) hay de que si el verdadero valor del parámetro es   k  se obtenga un valor  observado del estadístico ,  tan  alejado (o más)  de k. Ver grafica siguiente:

Si  P es muy baja  la probabilidad de que la muestra no pertenezca  a una población con k es muy alta, por lo tanto se rechaza Ho. Consecuentemente se acepta H1.

Las hipótesis estadísticas más habituales pueden clasificarse en dos grupos, según que:

1. Especifiquen un valor concreto o un intervalo para un parámetro de la distribución de una variable.

2. Establezcan la igualdad de algún parámetro en las distribuciones de una variable en dos o más poblaciones.

Un ejemplo del primer tipo es establecer que el tiempo medio diario invertido en bañarse por los estudiantes de una universidad es de 15 minutos. Del segundo tipo, que el tiempo medio invertido es el mismo para los estudiantes de mañana y de la tarde.

Aunque la metodología para realizar el contraste es análoga en ambos casos, es importante distinguir entre ellos porque:

1. El contraste de una hipótesis respecto a un parámetro está muy relacionado con la construcción de intervalos de confianza, y tiene frecuentemente una respuesta satisfactoria en términos de estimación.

2. La comparación de dos o más poblaciones requiere en general un diseño experimental que asegure la homogeneidad de las comparaciones.

Una hipótesis es una afirmación acerca de algo. En estadística, puede ser una suposición acerca del valor de un parámetro desconocido. Una hipótesis estadística es una afirmación respecto a alguna característica de una población.  Contrastar una hipótesis es comparar las predicciones con la realidad que observamos. Si dentro del margen de error que nos permitimos admitir, hay coincidencia, aceptaremos la hipótesis y en caso contrario la rechazaremos.

La prueba de hipótesis comienza con una suposición, llamada hipótesis, que hacemos con respecto a un parámetro de población. Después recolectamos datos de muestra, producimos estadísticos de muestra y usamos esta información para decidir qué tan probable es que sea correcto nuestro parámetro de población acerca del cual hicimos la hipótesis. Debemos establecer el valor supuesto o hipotetizado del parámetro de población antes de comenzar a tomar la muestra. La suposición que deseamos probar se conoce como hipótesis nula, y se simboliza H0. Siempre que rechazamos la hipótesis, la conclusión que sí aceptamos se llama hipótesis alternativa y se simboliza H1.

· La hipótesis emitida se suele designar por H0 y se llama Hipótesis nula porque parte del supuesto que la diferencia entre el valor verdadero del parámetro y su valor hipotético es debida al azar, es decir no hay diferencia.

· La hipótesis contraria se designa por H1 y se llama Hipótesis alternativa.

Los contrastes pueden ser unilaterales o bilaterales (también llamados de una o dos colas) según establezcamos las hipótesis, si las definimos en términos de igual y distinto estamos ante una hipótesis unilateral, si suponemos una dirección (en términos de mayor o menor) estamos ante uno bilateral.

Pasos a seguir en una prueba de hipótesis:

Se trata, de extraer conclusiones a partir de una muestra aleatoria y significativa, que permitan aceptar o rechazar una hipótesis previamente emitida, sobre el valor de un parámetro desconocido de la población. El método que seguiremos es el siguiente:

1. Definir la hipótesis nula: suponer una hipótesis acerca de una población. Se determina si es una prueba de una o dos cola.

2. Formular una hipótesis alternativa: es una contra-hipótesis.

3. Elegir un nivel de significación y construir la zona de aceptación, intervalo fuera del cual sólo se encuentran el 100% de los casos más raros. A la zona de rechazo la llamaremos Región Crítica, y su área es el nivel de significación o aceptación.

4. Verificar la hipótesis extrayendo una muestra cuyo tamaño se ha decidido en el paso anterior y obteniendo de ella el correspondiente estadístico (media o proporción en nuestro caso). Decida que distribución (t o z) es la más apropiada y encuentre los valores críticos adecuados para el nivel de significancia escogido de la tabla adecuada.

5. Recabar datos de la muestra.

6. Calcule el error estándar del estadístico de la muestra y utilice el error estándar para convertir el valor observado del estadístico de la muestra a un valor estandarizado. Determine si el valor calculado en la muestra cae dentro de la zona de aceptación de ser así se acepta la hipótesis y si no se rechaza.

7. Utilice el estadístico de la muestra para evaluar la hipótesis.  

Aquí nos vamos a limitar a estudiar hipótesis sobre la media y sobre la proporción en una población. En cada caso se trabaja con un contraste bilateral o unilateral. Los contrastes unilaterales son de distinta dirección en cada ejemplo, pero el método a seguir es análogo para ambos.

Hipótesis nula y alternativa

Llamaremos hipótesis nula, y la representaremos por H0, a la hipótesis que se desea contrastar. La hipótesis nula es en general un supuesto simple que permite hacer predicciones sin ambigüedad. La hipótesis alternativa (H1 o H0) da una suposición opuesta a aquella presentada en la hipótesis nula. El experimento se lleva a cabo para conocer si la hipótesis alternativa puede ser sustentada.

El nombre de nula (H0) representa la hipótesis que mantendremos a no ser que los datos indiquen su falsedad. “Nula” debe entenderse en el sentido de “neutra“. La hipótesis H0 nunca se considera probada, aunque puede ser rechazada por los datos. Por ejemplo, la hipótesis de que todos los elementos de una población tienen el mismo valor de una variable puede ser rechazada encontrando un elemento que no lo contenga, pero no puede ser “demostrada” más que estudiando todos los elementos de la población, tarea que puede ser imposible. De igual manera, la hipótesis de que la media de una población es diez puede ser rechazada fácilmente si la media verdadera está muy lejos de diez analizando una muestra suficientemente grande. Sin embargo, no puede ser “demostrada” mediante muestreo, ya que es posible que la media difiera de diez en un valor pequeño imperceptible en el muestreo). Por esta razón no afirmamos que aceptamos H0, sino que no podemos rechazarla.

La hipótesis H0 se elige normalmente de acuerdo con el principio de simplicidad científica. Este principio establece que solamente debemos abandonar un modelo simple a favor de otro más complejo cuando la evidencia a favor de este último sea fuerte. Si rechazamos H0, estamos implícitamente aceptando la hipótesis alternativa, H1, que puede ser simplemente la negación de H1. En algunos casos queremos decidir entre dos hipótesis simples y H1 está perfectamente determinada. Desconocemos antes de realizar el contraste en qué dirección puede ser falsa H0. Entonces H1 es simplemente la negación de . Decimos entonces que el contraste es bilateral. Conocemos la dirección en que H0 puede ser falsa. Es decir, si H0 es falsa, en ese caso forzosamente (o bien). Por ejemplo, se introduce una medida en una población que, si tiene efectos, puede mejorar una variable pero es imposible que pueda empeorarla. Tenemos entonces un contraste unilateral.

Al realizar una prueba de hipótesis, se parte de de un valor supuesto (hipotético) de un parámetro poblacional. Después de recolectar una muestra aleatoria, se compara el estadístico muestral, así como la media , con el parámetro hipotético, se compara con una supuesta media poblacional . Después, se acepta o se rechaza el valor hipotético, según proceda. Se rechaza el valor hipotético solo si el resultado muestral resulta muy poco probable cuando la hipótesis es cierta. Se acepta la hipótesis alternativa H1 solo si se rechaza la hipótesis nula.

Los tests ( o pruebas) asociados con las hipótesis pueden ser uni o bi laterales, según las hipótesis planteadas 

Estadístico de la prueba

Los datos se deben sintetiza en un estadístico de la prueba. Dicho estadístico se calcula para ver si es razonablemente compatible con la hipótesis nula. Cuando se prueba una proporción el estadístico de la prueba es muy simple: se cuenta el número de éxitos en la muestra para encontrar el estadístico.

En las pruebas de hipótesis es necesario trazar una línea entre los valores del estadístico de la prueba que son relativamente probables dada la hipótesis nula y los valores que no lo son. ¿En qué valor del estadístico de la prueba comenzamos a decir que los datos apoyan a la hipótesis alternativa? Para contestar a esta pregunta se requiere conocer la distribución muestral del estadístico de la prueba. Los valores del estadístico de la prueba que son sumamente improbables bajo la hipótesis nula (tal como los determina la distribución muestral) forman una región de rechazo para la prueba estadística.

Nivel de significación

Para realizar un contraste de hipótesis se define normalmente una medida de discrepancia, entre los datos muestrales y la hipótesis nula H0. Intuitivamente la discrepancia debe depender de la diferencia entre el valor del parámetro especificado por H0 y el valor del estimador calculado en la muestra. Para obtener una medida de discrepancia que no dependa de las unidades de medida de la variable podemos dividir esta diferencia por su valor promedio, que es el error típico de estimación del parámetro. Por tanto, la medida de discrepancia más habitual es:

Hay que decidir que discrepancias consideramos inadmisibles bajo H0, es decir, cual es la máxima diferencia entre el estimador y el parámetro que estamos dispuestos a considerar compatible con H0. Esta decisión depende de:

· La distribución de la medida de discrepancia cuando es cierta H0. Como veremos, la medida de discrepancia tiene generalmente una distribución normal, de media cero y desviación típica uno, cuando H0 es cierta.

· Que el contraste sea unilateral o bilateral. Para contrastes unilaterales interesan las discrepancias en una dirección, mientras que para los bilaterales interesan en ambas.

Interpretación del nivel de significancia.

El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico de la muestra, sino hacer un juicio respecto a la diferencia entre ese estadístico de muestra y un parámetro de población hipotetizado. El siguiente paso después de establecer la hipótesis nula y alternativa consiste en decidir qué criterio utilizar para decidir si aceptar o rechazar la hipótesis nula. Si suponemos que la hipótesis es correcta, entonces el nivel de significancia indicará el porcentaje de medias de muestra que está fuera de ciertos límites. Siempre que afirmemos que aceptamos la hipótesis nula, en realidad lo que queremos decir es que no hay suficiente evidencia estadística para rechazarla. El empleo del término aceptar, en lugar de rechazar, se ha vuelto de uso común. Significa simplemente que cuando los datos de la muestra n hacen que rechacemos una hipótesis nula, nos comportamos como si fuera cierta. 

Selección del nivel de significancia.

Nuestra elección del estándar mínimo para una probabilidad aceptable, o el nivel de significancia, es también el riesgo que asumimos al rechazar una hipótesis nula cuando es cierta. Mientras más alto sea el nivel de significancia que utilizamos para probar una hipótesis, mayor será la probabilidad de rechazar una hipótesis nula cuando es cierta.

Error Tipos I y II en un Contraste de Hipótesis

Si rechazamos una hipótesis cuando debiera ser aceptada, cometemos un error de tipo I, mientras que si la aceptamos debiendo ser rechazada diremos que hemos cometido un error de tipo II. Minimizar los errores no es una cuestión sencilla, un tipo suele ser más grave que otro y los intentos de disminuir uno suelen producir el aumento del otro. La única forma de disminuir ambos a la vez es aumentar el tamaño de la muestra. 

· La probabilidad de cometer un error de tipo I es el nivel de significación , la probabilidad de cometer un error de tipo II depende del verdadero valor de µ y del tamaño de la muestra.

· Comprueba que la probabilidad de cometer un error de tipo II disminuye al aumentar el tamaño de la muestra (n). Comprueba también lo que ocurre al variar la diferencia entre la media hipotética de la población (µo) y la verdadera (µ).

El rechazo de una hipótesis nula cuando es cierta se denomina error de tipo I, y su probabilidad (que es también el nivel de significancia) se simboliza como .

El hecho de que P sea muy bajo no califica el acontecimiento como imposible. Simplemente que tiene poca probabilidad de ocurrir al azar. A la probabilidad de cometer error tipo I se la denomina nivel de significación Habitualmente el investigador fija a priori el nivel de significación crítico para rechazar Ho (). Si P es menor que , se rechaza. En caso contrario, se acepta Ho.

El hecho de aceptar una hipótesis nula cuando es falsa se denomina error de tipo II, y su probabilidad se simboliza como . La probabilidad de cometer un tipo de error puede reducirse sólo si deseamos incrementar la probabilidad de cometer el otro tipo de error. Con el propósito de obtener una baja, tendremos que tolerar una alta. Los responsables de la toma de decisiones deciden el nivel de significancia adecuado, al examinar los costos o desventajas vinculadas con ambos tipos de errores.

En realidad,   puede asumir infinitos valores distintos de k. Si el verdadero valor de    no dista excesivamente del postulado en Ho, es posible aceptar ésta siendo falsa:

Como el valor observado  cae en el área de aceptación de Ho, no se rechaza la hipótesis. Sin embargo el valor verdadero del parámetro es distinto de k. La probabilidad de cometer un error de tipo II es . Al valor (1-) se le llama potencia de un test. El valor depende de y del valor alternativo que se ponga para Cuanto menor sea , mayor será .La única forma de disminuir ambos errores, es aumentar el tamaño de la muestra (n).

Las hipótesis nula y alternativa son aseveraciones sobre la población que compiten entre sí. O la hipótesis nula H0 es verdadera, o lo es la hipótesis alternativa H1, pero no ambas. En el caso ideal, el procedimiento de prueba de hipótesis debe conducir a la aceptación de H0 cuando sea verdadera y al rechazo de H0 cuando H1 sea verdadera. Desafortunadamente no siempre son posibles las conclusiones correctas. Como las pruebas de hipótesis se basan en información de muestra, debemos considerar la posibilidad de errores.

Situaciones posibles en un contraste de hipótesis

Condición de la población

H0 verdadera

H1 verdadera

Aceptar H0

Conclusión correcta

Error de tipo II

Rechazar H0

Error de tipo I

Conclusión correcta

Esta tabla muestra los dos tipos de errores que se pueden cometer en la prueba de hipótesis. El primer renglón muestra lo que puede suceder cuando la conclusión es aceptar H0. Si H0 es verdadera, esta conclusión es correcta. Sin embargo, si H1 es verdadera, hemos cometido un error de tipo II, es decir, hemos aceptado H0 siendo falsa. El segundo renglón muestra lo que puede suceder cuando la conclusión es rechazar H0. Si H0 es verdadera, hemos cometido un error de tipo I, es decir, rechazar H0 cuando es verdadera. Sin embargo, si H1 es verdadera, es correcto rechazar H0.

Si bien no se puede eliminar la posibilidad de errores en la prueba de hipótesis, sí podemos considerar la probabilidad de su ocurrencia. Se usa la siguiente notación estadística normal para indicar las probabilidades de cometer esos errores:

= probabilidad de cometer un error de tipo I.

= probabilidad de cometer un error de tipo II.

Al realizar un contraste se puede cometer uno de los dos errores siguientes:

Error tipo I, se rechaza la hipótesis nula H0 cuando es cierta.

Error tipo II, se acepta la hipótesis nula H0 cuando es falsa.

Debe tenerse en cuenta que sólo se puede cometer uno de los dos tipos de error y, en la mayoría de las situaciones, se desea controlar la probabilidad de cometer un error de tipo I. Se denomina nivel de significación de un contraste a la probabilidad de cometer un error tipo I, se denota por y, por tanto,

. Fijar el nivel de significación equivale a decidir de antemano la probabilidad máxima que se está dispuesto a asumir para rechazar la hipótesis nula cuando es cierta. El nivel de significación lo elige el experimentador y tiene por ello la ventaja de tomarlo tan pequeño como desee (normalmente se toma = 0.10, 0.05 o 0.01)

Contraste de Hipótesis de Dos Colas (Bilateral) y de una Cola (Unilateral)

Un contraste de hipótesis dos colas, recibe el nombre de bilateral, debido a que rechazará la hipótesis nula si la media de la muestra es significativamente mayor o menor que la media de la población hipotetizada. En un contraste de este tipo, la región critica o de rechaza se separa en dos colas, con la misma probabilidad en cada cola de la distribución del estadístico de contraste. Existen pues, dos regiones de rechazo.

 Hay situaciones en las que no es apropiada una prueba de dos extremos, por lo que debemos usar una prueba de un extremo, que pueden ser de extremo izquierdo (o inferior) o extremo derecho (o superior). En contrastes de hipótesis, tales como:

o

Si la hipótesis alternativa es la región critica o de rechazo debe encontrarse en la cola superior (derecha) de la distribución del estadístico de contraste, mientras que si la hipótesis alternativa es la región crítica debe encontrarse en la cola inferior (izquierda) de la distribución. En general, la desigualdad en la hipótesis alternativa apunta en la dirección de la región crítica.

Al construir hipótesis, siempre se plantea la hipótesis nula como una igualdad, en H0 los signos siempre deben ser: = (igual) o ≤ (menor o igual que) o ≥ (mayor o igual que), de modo que la probabilidad alfa del error tipo I pueda controlarse en valor especifico. La hipótesis alternativa puede ser unilateral o bilateral, dependiendo de las conclusiones que ha de obtenerse si se rechaza . Si el objetivo es hacer una afirmación donde aparezcan proposiciones tales como mayor que, menor que, superior a, excede a, al menos y otras similares, entonces la alternativa unilateral es la que resulta más apropiada. Si la afirmación no implica ninguna dirección, o si es del tipo no es igual a, entonces debe utilizarse la alternativa bilateral.

La Hipótesis nula siempre se refiere a un valor especificado del parámetro de la población (μx, σx, p), no a una muestra estadística .La declaración de la hipótesis nula siempre contiene una igualdad (es decir, ). La declaración de la hipótesis alternativa nunca contiene una igualdad (es decir, ).

Para decidir con relación a la hipótesis nula, se tiene que determinar primero el valor crítico para la distribución estadística de interés: El valor critico separa la región de no rechazo de la de rechazo. Si la prueba estadística cae en la región de no rechazo no se puede rechazar la hipótesis nula y se concluirá que la cantidad promedio no proporciona evidencias estadística para rechazarla. Si cae en la región de rechazo, se rechazara la hipótesis nula y la conclusión será que la media de la población no es igual a la media de la muestra.

Formule la hipótesis en base a los objetivos del estudio, pero siempre antes de extraer la muestra y calcular el estimador puntual del parámetro desconocido, para no verse influenciado por este resultado.

Tenga en cuenta que si bien la hipótesis nula es la que se pone bajo prueba, eso no significa que deba ser siempre la suposición que el experimentador desea que se compruebe.

Como en todo proceso de inferencia, existe algún grado de subjetividad en la realización de una prueba, particularmente en la elección del nivel de significancia y del tamaño de la muestra. Trate de que la elección de estos valores responda a un análisis cuidadoso del problema en cuestión.

Una vez fijadas las condiciones de la prueba, el resultado de la misma es totalmente objetivo.

Para fijar el nivel de significancia de la prueba, hay que tener en cuenta que cuando la probabilidad del error tipo I aumenta, la del error tipo II disminuye. La forma de minimizar el error tipo II independientemente del nivel de significancia, es aumentando el tamaño de la muestra.

Como las probabilidades de los errores tipo I y II están relacionadas entre si, pero el experimentador puede fijar la primera, antes de elegir el nivel de significancia hay que ver cuál de los dos tipos de errores resulta más crítico.

OBSERVACIÓN IMPORTANTE

En ocasiones pueden surgir dudas en el planteamiento de cuál debe ser la hipótesis H0 y cuál la hipótesis H1, en estos casos debemos tener presente las siguientes reglas:

Cuando el problema de manera expresa pide que se contraste una hipótesis con determinado nivel de significación, la hipótesis que contrastamos es la hipótesis H0