Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de...

141
Unidad 5 EL TEOREMA DEL LÍMITE CENTRAL 5.1 Estadígrafos como estimadores de parámetros poblacionales Estadígrafos ó Estadísticos En este capítulo se tratarán funciones de las variables X 1 , X 2 , ... , X n observadas en una muestra aleatoria seleccionada de una población bajo estudio. Las variables son independientes y tienen una distribución común. Con mucha frecuencia se utilizan ciertas funciones de v.a. observadas en una muestra para estimar o tomar decisiones con respecto de parámetros poblacionales desconocidos. Por ejemplo, supongamos que se desea estimar la media de una población . Si obtenemos una muestra aleatoria de n observaciones, x 1 , x 2 , ... , x n , resulta adecuado estimar a través de la media de la muestra: La bondad de la estimación del comportamiento de las v.a. X 1 , X 2 , ... , X n y el efecto de este comportamiento sobre

Transcript of Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de...

Page 1: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Unidad 5

EL TEOREMA DEL LÍMITE CENTRAL

5.1 Estadígrafos como estimadores de parámetros poblacionales

Estadígrafos ó Estadísticos

En este capítulo se tratarán funciones de las variables X1, X2, ... , Xn observadas en una muestra aleatoria seleccionada de una población bajo estudio. Las variables son independientes y tienen una distribución común. Con mucha frecuencia se utilizan ciertas funciones de v.a. observadas en una muestra para estimar o tomar decisiones con respecto de parámetros poblacionales desconocidos. Por ejemplo, supongamos que se

desea estimar la media de una población . Si obtenemos una muestra aleatoria de n

observaciones, x1, x2, ... , xn, resulta adecuado estimar a través de la media de la muestra:

La bondad de la estimación del comportamiento de las v.a. X1, X2, ... , Xn y el efecto de

este comportamiento sobre . Nótese que la v.a. es una función de (solamente) las v.a. X1, X2, ... , Xn y el tamaño (constante) n de la muestra.

Por lo tanto la v.a. representa un estadígrafo ó estadístico.

Una definición más formal sería: “Un estadístico (estadígrafo) es una función de las variables que se pueden observar en una muestra y de las constantes conocidas. Los estadísticos se utilizan para hacer inferencias (estimaciones o decisiones) con respecto a parámetros poblacionales desconocidos”.

Page 2: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Como el estadístico es una función de variables aleatorias observadas en una muestra aleatoria, un estadístico en sí, es una variable aleatoria.

Por lo anteriormente expuesto, deduciremos su distribución de probabilidad, la cual la llamamos Distribución Muestral del estadístico.

Debe quedar claro que la forma de distribución muestral teórica de un estadístico dependerá de la distribución de las variables aleatorias observadas en la muestra.

5.2 Muestreo Aleatorio Simple

La teoría del muestreo tiene por objetivo, el estudio de las relaciones existentes entre la distribución de un carácter en dicha población y las distribuciones de dicho carácter en todas sus muestras.

Las ventajas de estudiar una población a partir de sus muestras son principalmente:

Coste reducido: Si los datos que buscamos los podemos obtener a partir de una pequeña parte del total de la población, los gastos de recogida y tratamiento de los datos serán menores. Por ejemplo, cuando se realizan encuestas previas a una elección, es más barato preguntar a 4.000 personas su intención de voto, que a 30.000.000; Mayor rapidez: Estamos acostumbrados a ver cómo con los resultados del escrutinio de las primeras mesas electorales, se obtiene una aproximación bastante buena del resultado final de unas elecciones, muchas horas antes de que el recuento final de votos haya finalizado; Más posibilidades: Para hacer cierto tipo de estudios, por ejemplo el de duración de cierto tipo de bombillas, no es posible en la práctica destruirlas todas para conocer su vida media, ya que no quedaría nada que vender. Es mejor destruir sólo una pequeña parte de ellas y sacar conclusiones sobre las demás.

De este modo se ve que al hacer estadística inferencial debemos enfrentarnos con dos problemas:

Elección de la muestra (muestreo), que es a lo que nos dedicaremos en este capítulo.

Extrapolación de las conclusiones obtenidas sobre la muestra, al resto de la población (inferencia).

El tipo de muestreo más importante es el muestreo aleatorio, en el que todos los elementos de la población tienen la misma probabilidad de ser extraídos.

Page 3: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Muestreo aleatorio

Consideremos una población finita, de la que deseamos extraer una muestra. Cuando el proceso de extracción es tal que garantiza a cada uno de los elementos de la población la misma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de selección muestreo aleatorio.

El muestreo aleatorio se puede plantear bajo dos puntos de vista: Sin reposición de los elementos; Con reposición.

   Muestreo aleatorio sin reposición Consideremos una población E formada por N elementos. Si observamos un elemento

particular, , en un muestreo aleatorio sin reposición se da la siguiente circunstancia:

La probabilidad de que e sea elegido en primer lugar es ;

Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de ), la

probabilidad de que sea elegido en el segundo intento es de . en el (i+1)-ésimo intento, la población consta de N-i elementos, con lo cual si e no ha sido seleccionado

previamente, la probabilidad de que lo sea en este momento es de .

Si consideramos una muestra de elementos, donde el orden en la elección de los mismos tiene importancia, la probabilidad de elección de una muestra

cualquiera es

lo que corresponde en el sentido de la definición de probabilidad de Laplace a un caso posible entre las VN,n posibles n-uplas de N elementos de la población. Si el orden no interviene, la probabilidad de que una muestra

sea elegida es la suma de las probabilidades de elegir una cualquiera de sus n-uplas, tantas veces como permutaciones en el orden de sus elementos sea posible, es decir

Page 4: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

   Muestreo aleatorio con reposición Sobre una población E de tamaño N podemos realizar extracciones de n elementos, pero de modo que cada vez el elemento extraído es repuesto al total de la población. De esta forma un elemento puede ser extraído varias veces. Si el orden en la extracción de la muestra interviene, la probabilidad de una cualquiera de ellas, formada por n elementos es:

Si el orden no interviene, la probabilidad de una muestra cualquiera, será la suma de la anterior, repitiéndola tantas veces como manera de combinar sus elementos sea posible. Es decir, sea n1 el número de veces que se repite cierto elemento e1 en la muestra; sea n2 el número de veces que se repite cierto elemento e2;

sea nk el número de veces que se repite cierto elemento ek,

de modo que . Entonces la probabilidad de obtener la muestra

es

es decir,

Muestreo aleatorio Simple

El Muestreo Aleatorio Simple es aquel en que cada uno de los elementos de la

Page 5: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

población tiene la misma probabilidad de ser elegido, y en las que la selección de un nuevo elemento no afecta las probabilidades de elección de cualquier otro elemento. De forma más general, se puede considerar que una muestra aleatoria simple es aquella en la que todas las posibles muestras extraídas tienen la misma probabilidad de ser elegidas.

5.3 El teorema del Límite Central

Si se saca una muestra de una población que es normal, tiene una distribución muestral que es Normal. ¿Pero que podemos decir de la distribución de si los Xi no están distribuidos normalmente?.

El Teorema del Límite Central nos mostrará que tendrá una distribución aproximadamente normal si el tamaño de la muestra es grande.

Matemáticamente lo podemos definir de la siguiente manera:

Sean X1,X2, ... ,Xn variables aleatorias independientes e idénticamente distribuidas con

E(Xi) = y V(Xi) = < ∞. Definimos

Un = ( - ) √( / n )

en donde

entonces la función de distribución Un converge a una función de distribución normal estándar cuando n→∞.

Ejemplo

Los tiempos de espera para los clientes que pasan por una caja registradora a la salida de una tienda de menudeo son variables aleatorias independientes con una media de 1.5 minutos y una varianza de 1.0. Aproxime la probabilidad de que se pueda atender a 100 clientes en menos de 2 horas.

Solución

Si Xi denota el tiempo de espera para el i-ésimo cliente, entonces se desea calcular

Page 6: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

P ( Xi ≤ 120 ) = P ( ≤ 120/100) = P ( ≤ 1.20)

Así la probabilidad de que se pueda atender a 100 clientes en menos de 2 horas es aproximadamente 0.0013. Esta pequeña probabilidad indica que es prácticamente imposible despachar a 100 clientes en menos de 2 horas.

Resumiendo, el Teorema del Límite Central establece que cuando el tamaño de la muestra se incrementa, la distribución de muestreo de la media (así como de otras estadísticas muestrales) se aproxima en cuanto a su forma a la distribución normal, independientemente de la distribución de la población de la que fue tomada la muestra.

Para efectos prácticos, puede suponerse que la distribución de muestreo de la media tiene una distribución aproximadamente normal, incluso en las poblaciones o procesos menos normales, siempre que el tamaño de la muestra sea n ≤ 30.

Ejemplo

Un auditor toma una muestra aleatoria de tamaño n =36 de una población de 1000 cuentas por cobrar. El valor medio de las cuentas por cobrar para la población es = $260.00, con la desviación estándar de la población = $45.00. ¿Cuál es la probabilidad deque la media muestral sea inferior a $250.00?

Solución

Figura: En la figura aparece la curva de probabilidad. La distribución de muestreo es descrita por la media y el error estándar.

Page 7: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

E( ) = = 260.00 (como se estableció)σ = ( σ /√n ) = ( 45.0 / √36 ) = ( 45.0 / 6 ) = 7.50

Por lo tanto,

P( < 250.0 | = 260.0 , σ = 7.50 ) = P( z < -1.33 )P( z < -1.33 ) = 0.0918 (valor tabulado).

5.4 Ley de los grandes números

Convergencia en Probabilidad

Recordemos que si X es una v.a. continua y X1,X2, ... , Xn son v.a. independientes e idénticamente distribuidas, que tienen la misma probabilidad que X.

=> Y = Xi tiene

y = E [ y ] = E [ Xi ] = n

z = Xi / n =

E [ z ] =

es una v.a.

V(Y) = n σ2 V(Z) = σ2 / n

Recordemos que la desigualdad de Tchebysheff

P ( | X - | ≥ K σ/√n ) ≤ 1 / k2

Si tomamos como la v.a.

=> P ( | - | ≥ K σ/√n ) ≤ 1 / k2

sea ε = K σ/√n => k = ε √n / σ

Page 8: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

P ( | - | ≥ ε ) ≤ ( σ2 / ε2 n )

Para ε > 0

Límn→∞ P( | - | > ε ) = 0

Si se cumple esta igualdad, decimos que converge con probabilidad a .

Al hecho de que sea consistente con , o que converja en probabilidad a , suele designarse como la Ley de los Grandes Números. Esta es la justificación teórica del procedimiento de promediar las mediciones utilizado por muchos investigadores para obtener mayor precisión en las medidas.

Por ejemplo, un investigador puede calcular el promedio de varias mediciones del peso de un animal para obtener una estimación más exacta de dicho peso. Su consideración, es que el promedio de muchos pesos obtenidos independientemente debe estar bastante próximo del peso real, con una alta probabilidad.

Ejemplo

A una población de cuatro mecanógrafas se les pidió que escribieran la misma página de un manuscrito. Los errores cometidos por cada mecanógrafa fueron:

Mecanógrafa No. de ErroresA 3B 2C 1D 4

Solución

Cuando se dispone de la información de una población se puede calcular la media de ella, entonces

x = ( Xi ) / N

y la desviación estándar

Por lo tanto

x = ( 3 + 2 + 1 + 4 ) / 4 = 2.5 errores

σx = 1.12 errores ( aplicando la fórmula anterior)

Page 9: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Si se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición, la media de estos

valores ( ) sería igual a 2.5, que es la media de la población x.

Por otra parte, si el muestreo se hubiera realizado sin reposición debería haber seis muestras posibles de dos mecanógrafas:

N! / [ n! ( N – n )! ] = 4! / [ 2! * 2! ] = 6

A continuación se presentan las posibles muestras

1. Total 16 muestras de n =2 y N =4, muestreo con reposición

Muestra Mecanógrafa Resultados de la muestra

Media muestral i

1 A, A 3,3 32 A, B 3,2 2.53 A, C 3,1 24 A, D 3,4 3.55 B, A 2,3 2.56 B, B 2,2 27 B, C 2,1 1.58 B, D 2,4 39 C, A 1,3 210 C, B 1,2 1.511 C, C 1,1 112 C, D 1,4 2.513 D, A 4,3 3.514 D, B 4,2 315 D, C 4,1 2.516 D, D 4,4 4

=2.5= x

2. Total 6 muestras posibles de n =2, N =4, muestreo sin reposición

Muestra Mecanógrafa Resultados de la muestra

Media muestral i

1 C, D 1,4 2.52 A, B 3,2 2.53 A, C 3,1 24 A, D 3,4 3.55 B, C 2,1 1.56 B, D 2,4 3

=2.5= x

Page 10: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

En este pequeño ejemplo, aunque se puede observar gran fluctuación en la media muestral, dependiendo de las mecanógrafas que se seleccionaron, no hay tanta fluctuación como en la población real en sí. El hecho de que las medias muestrales sean menos variables que los datos de población, se deriva directamente de la Ley de los Grandes Números.

5.5 Distribuciones muestrales basados en normalidad

Se ha mencionado que muchos fenómenos observados en la realidad tienen distribuciones de frecuencias relativas que se pueden representar en forma adecuada mediante el modelo de una distribución de probabilidad normal. Es por esto que se

establece la distribución muestral del estadístico

Sea una muestra aleatoria de tamaño n de una distribución normal con

media y varianza . entonces

Tiene una distribución normal con media y varianza / n, es decir

Figura: Función de densidad de una v.a. con respecto a una v.a. X que tiene

función de densidad de probabilidad Normal Estándar.

Page 11: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Ejemplo

Una máquina embotelladora puede regularse de tal manera que llene un promedio de onzas por botella. Se ha observado que la cantidad de contenido que suministra la máquina presenta una distribución normal con σ = 1.0 onza. De la producción de la máquina cierto día, se obtiene una muestra aleatoria de n = 9 botellas llenas (todas fueron llenadas con las mismas posiciones de control operativo) y se miden las onzas

del contenido de cada una. Determinar la probabilidad de la media real para tales posiciones del control.Solución

Si X1, X2, ... , X9 representan las onzas de contenido a observarse, se deduce que Xi

presenta una distribución normal con una media y una varianza =1 para i = 1,

2, ... , 9. por tanto, tiene una distribución normal con media y X = /n = 1/9. Se desea calcular

P( | - | ≤ 0.3 ) = P( -0.3 ≤ ( - ) ≤ 0.3 )

ya que ( - ) / (σ / √n ) representa una distribución normal estándar. Aplicando los valores tabulados, se tiene

P ( - 0.9 ≤ Z ≤ 0.9 ) = 1 – 2 P( Z > 0.9)

Page 12: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

= 1 – 2 (0.1841)= 0.6318

Por tanto la probabilidad es solo de 0.63 de que la media muestral diste a lo más en 0.3 de onza de la población real.

Distribución Ji – Cuadrado ( )

Sean una muestra aleatoria de tamaño n de una distribución normal

con media y varianza . Entonces Zi = ( Xi - ) / σ son v.a. normales estándar e independientes, i = 1, 2, ...,n, y la suma de los cuadrados de variables aleatorias normales estándares e independientes tiene una distribución Ji-cuadrado con n grados de libertad.

Bajo las condiciones anteriormente expuestas, para cuestiones más prácticas se suele trabajar con la siguiente fórmula:

= ( n – 1 ) S2 /

Ejemplo

Continuando con el ejemplo anterior, se supone que las onzas del contenido que vacía la máquina embotelladora tiene una distribución normal con =1. Supóngase que se desea obtener una muestra aleatoria de 10 botellas y medir el contenido en cada botella. Si se utilizan estas 10 observaciones para calcular S2, podría ser útil especificar un intervalo de valores que incluyeran a S2 con una alta probabilidad. Encuentre los números b1 y b2 tales que

P( b1 ≤ S2 ≤ b2) = 0.90

Solución

Ya que = 1, en consecuencia (n – 1) S2 / = (n – 1) S2 tiene una distribución con (n – 1) grados de libertad. Por tanto, utilizando los valores tabulados de esta función podemos encontrar dos números , a1 y a2, tales que

P( a1 ≤ (n – 1) S2 ≤ a2) = 0.90

Page 13: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Un método para hacerlo es encontrar el valor a2 que limita un área de 0.05 de la cola derecha y un valor a1 que limita un área de 0.05 de la cola izquierda (0.95 de área a la derecha). Ya que hay 9 grados de libertad, la tabla nos da a2 = 16.919 y a1 = 3.325.

Así debemos tener

a1 = (n – 1)b1 / = (n – 1)b1 = 9 b1

a2 = (n – 1)b2 / = (n – 1)b2 = 9 b2

o sea

b1 = 3.325 / 9= 0.369 y b2 = 16.919 / 9 = 1.880

de donde se deduce que si se desea tener un intervalo que incluya a S2 con una probabilidad de 0.90, uno de tales intervalos es ( 0.369, 1.880). Obsérvese que este intervalo es bastante grande.

Distribución t de Student

La distribución -Student se construye como un cociente entre una normal y la raíz de

una independientes. De modo preciso, llamamos distribución t-Student con n grados

de libertad, a la de una v.a. T,

 

donde , . Este tipo de distribuciones aparece cuando tenemos n+1 v.a. independientes

y nos interesa la distribución de

La función de densidad de es

Page 14: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

   Figura: Función de densidad de una de Student

La distribución de Student tiene propiedades parecidas a :

Es de media cero, y simétrica con respecto a la misma; Es algo más dispersa que la normal, pero la varianza decrece hasta 1 cuando el número de grados de libertad aumenta;

   Figura: Comparación entre las funciones

de densidad de y .

Page 15: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Para un número alto de grados de libertad se puede aproximar la distribución de Student por la normal, es decir,

Figura: Cuando aumentan los grados de libertad, la distribución de Student se aproxima a la distribución normal estandarizada.

Para calcular

en lugar de considerar una primitiva de esa función y determinar la integral definida,

buscaremos el resultado aproximado en una tabla de la distribución . Véase la tabla 4, al final del libro.

La distribución F de Snedecor

Otra de la distribuciones importantes asociadas a la normal es la que se define como

cociente de distribuciones independientes. Sean e v.a. independientes. Decimos entonces que la variable

Page 16: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

sigue una distribución de probabilidad de Snedecor, con (n,m) grados de libertad.

Obsérvese que . La forma más habitual en que nos encontraremos esta distribución será en el caso en que tengamos n+m v.a. independientes

y así

De esta ley de probabilidad lo que más nos interesa es su función de distribución:

y para ello, como en todas las distribuciones asociadas a la normal, disponemos de una tabla (la número 6) donde encontrar aproximaciones a esas cantidades

  

Figura: Función de densidad de .

Page 17: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Es claro que la distribución de Snedecor no es simétrica, pues sólo tienen densidad de probabilidad distinta de cero, los punto de . Otra propiedad interesante de la distribución de Snedecor es:

5.6 Generación de Números Seudo Aleatorios

Existen varios métodos para la generación de números seudo aleatorios, el más utilizado es el Método de Montecarlo, también llamado Método de la Transformada Inversa, el cual lo analizaremos a continuación.

Método de Montecarlo

El método de Montecarlo es una técnica para obtener muestras aleatorias simples de una v.a. X, de la que conocemos su ley de probabilidad (a partir de su función de distribución F). Con este método, el modo de elegir aleatoriamente un valor de X siguiendo usando su ley de probabilidad es:

1. Usando una tabla de números aleatorios se toma un valor u de una v.a.

. 2. Si X es continua tomar como observación de X, la cantidad x=F-1(u). En el caso en que X sea discreta se toma x como el percentil de X, es decir el

valor más pequeño que verifica que .

Este proceso se debe repetir n veces para obtener una muestra de tamaño n.

Ejemplo

Si queremos extraer n =10 muestras de una distribución podemos recurrir a una tabla de números aleatorios de k =5 cifras, en las que observamos las cantidades (por ejemplo)

A partir de ellas podemos obtener una muestra de usando una tabla de la distribución normal:

Page 18: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Números aleatorios Muestra Muestra

ti xi = F-1(ui)

76.293 0.76 0.71

31.776 0.32(=1-0.68) -0.47

50.803 0.51 0.03

71.153 0.71 0.55

20.271 0.20(=1-0.80) -0.84

33.717 0.34(=1-0.66) -0.41

17.979 0.18(=1-0.82) -0.92

52.125 0.52 0.05

41.330 0.41(=1-0.59) -0.23

95.141 0.95 1.65

Obsérvese que como era de esperar, las observaciones xi tienden a agruparse alrededor

de la esperanza matemática de . Por otra parte, esto no implica que el valor medio de la muestra sea necesariamente . Sin embargo sabemos que

su dispersión con respecto al valor central es pequeña, lo que implica que probablemente el valor medio estará muy próximo a 0, como se puede calcular:

Obsérvese que si el problema fuese el inverso, donde únicamente conociésemos las observaciones xi y que el mecanismo que generó esos datos hubiese sido una distribución normal de parámetros desconocidos, con obtenida hubiésemos tenido una

buena aproximación del ``parámetro desconocido'' .

Page 19: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Unidad 6

ESTIMACIÓN PUNTUAL Y DE INTERVALOS

6.1 Estimaciones puntuales más eficientes, insesgados y de máxima verosimilitud

Sea X una v.a. cuya función de probabilidad (o densidad de probabilidad si es continua)

depende de unos parámetros desconocidos.

Representamos mediante una muestra aleatoria simple de la variable. Denotamos mediante fc a la función de densidad conjunta de la muestra, que por estar formada por observaciones independientes, puede factorizarse del siguiente modo:

Se denomina estimador de un parámetro , a cualquier v.a. que se exprese en

función de la muestra aleatoria y que tenga por objetivo aproximar el valor de ,

Obsérvese que el estimador no es un valor concreto sino una variable aleatoria, ya que aunque depende unívocamente de los valores de la muestra observados (Xi=xi), la elección de la muestra es un proceso aleatorio. Una vez que la muestra ha sido elegida, se denomina estimación el valor numérico que toma el estimador sobre esa muestra.

Ejemplo

Consideremos una v.a. de la que sólo conocemos que su ley de distribución es normal,

Page 20: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Para muestras aleatorias de tamaño n=3,

un posible estimador del parámetro es

Si al realizar un muestreo aleatorio simple obtenemos

Intuitivamente, las características que serían deseables para esta nueva variable aleatoria (que usaremos para estimar el parámetro desconocido) deben ser:

Consistencia Cuando el tamaño de la muestra crece arbitrariamente, el valor estimado se aproxima al parámetro desconocido.

El estimador n es un estimador consistente de si para cualquier número positivo ε,Límn→∞ P( | n - | ≤ ε ) = 1

Ö su forma equivalente

Límn→∞ P( | n - | > ε ) = 0

La notación n se utiliza por el hecho de expresar que el estimador de se calcula mediante una muestra de tamaño n. Por ejemplo, 2 es el promedio de dos observaciones, mientras que 100 es el promedio de las 100 observaciones contenidas en una muestra de tamaño n = 100.

Insesgado (Carencia de sesgo) El valor medio que se obtiene de la estimación para diferentes muestras debe ser el valor del parámetro.

Se dice que un estimador de un parámetro es insesgado si:

Eficiencia

Page 21: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Al estimador, al ser v.a., no puede exigírsele que para una muestra cualquiera se obtenga como estimación el valor exacto del parámetro. Sin embargo podemos pedirle que su dispersión con respecto al valor central (varianza) sea tan pequeña como sea posible.

Sea es el estimador del parámetro de la población X, la cual tiene función de densidad de probabilidad f(x),

Si V( ) = I ( ), al estimador se le denomina eficiente, donde

I( ) = (1 / n) E [ - ( ∂2 ln f(x)) / ( ∂ 2 ) ]

Suficiencia El estimador debería aprovechar toda la información existente en la muestra.

A continuación vamos a enunciar de modo más preciso y estudiar cada una de esas características.

Estimadores de Máxima Verosimilitud

Sea X una v.a. con función de probabilidad

Las muestras aleatorias simples de tamaño n, tienen por distribución de probabilidad conjunta

Esta función que depende de n +1 cantidades podemos considerarla de dos maneras:

Fijando , es una función de las n cantidades xi. Esto es la función de probabilidad o densidad. Fijados los xi como consecuencia de los resultados de elegir una muestra mediante un experimento aleatorio, es únicamente función de . A esta función de la denominamos función de verosimilitud.

En este punto podemos plantearnos el que dado una muestra sobre la que se ha observado los valores xi, una posible estimación del parámetro es aquella que maximiza la función de verosimilitud.

  Figura: La función de verosimilitud se obtiene a partir de la función de densidad, intercambiando los papeles entre parámetro y estimador. En una función de verosimilitud consideramos que las observaciones x1, ..., xn, están fijadas, y se representa la gráfica con el valor de los

Page 22: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

valores que tomaría la función de densidad para todos los posibles valores del parámetro . El estimador máximo

verosímil del parámetro buscado, , es aquel que maximiza su función de

verosimilitud, .

Como es lo mismo maximizar una función que su logaritmo (al ser este una función estrictamente creciente), este máximo puede calcularse derivando con respecto a la función de verosimilitud ( bien su logaritmo) y tomando como estimador máximo verosímil al que haga la derivada nula:

De modo más preciso, se define el estimador máximo verosímil como la v.a.

Los estimadores de máxima verosimilitud tienen ciertas propiedades en general que a continuación enunciamos:

1. Son consistentes;

2. Son invariantes frente a transformaciones biunívocas, es decir, si es el estimador

máximo verosímil de y es una función biunívoca de , entonces es el

estimador máximo verosímil de .

3. Si es un estimador suficiente de , su estimador máximo verosímil, es función de la muestra a través de ;

4. Son asintóticamente normales;

Page 23: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

5. Son asintóticamente eficientes, es decir, entre todos los estimadores consistentes de un parámetro , los de máxima verosimilitud son los de varianza mínima.

6. No siempre son insesgados.

Es decir, la técnica llamada método de máxima posibilidad ó verosimilitud selecciona como estimaciones aquellos valores de los parámetros que maximizan la verosimilitud (función de probabilidad conjunta o la función de densidad conjunta) de la muestra observada.

Ejemplo

Sea x1,x2, ... ,xn una muestra aleatoria de observaciones de una distribución uniforme con función de densidad de probabilidad f(x) = 1/ , 0 ≤ x ≤ , i = 1, 2, ... , n. Determine el estimador de máxima verosimilitud de .

En este caso la verosimilitud está dado por

L = f(x1,x2, ... ,xn) = f(x1) f(x2) ... f(xn) = (1 / )(1 / ) ... (1 / ) = (1 / n)

Nótese que L es una función monótona decreciente de y por lo tanto dL/ d no se hará igual a cero para ningún valor del intervalo 0 < < ∞. Sin embargo, L crece cuando decrece y que debe ser igual o mayor que el máximo valor observado en el conjunto . Por lo tanto el valor de que maximiza L es la mayor observación en la muestra. Es decir que

= X(n) = máx (X1, ... , Xn).

Algunos estimadores fundamentales

Vamos a estudiar las propiedades de ciertos estimadores que por su importancia en las aplicaciones resultan fundamentales: estimadores de la esperanza matemática y varianza de una distribución de probabilidad.

Estimador de la esperanza matemática

Consideremos las muestras de tamaño n, , de un carácter sobre una población que viene expresado a través de una v.a. Xque posee momentos de primer y

segundo orden, es decir, existen y :

El estimador media muestral que denotaremos normalmente como (en lugar de es

Page 24: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

verifica:

Por tanto es un estimador insesgado. Si además sabemos que X se distribuye como una v.a. Normal, es sencillo comprobar que coincide con el estimador de máxima verosimilitud (figura superior):

Proposición :

Demostración: La función de densidad de una observación cualquiera de la muestra es:

Por tanto la distribución conjunta de la muestra es

Para unos valores fijados, la función de verosimilitud es

(en principio escribimos también el otro parámetro desconocido, , aunque no nos interesamos en su estimación por el momento). La expresión de la función de verosimilitud es algo engorrosa. Por ello es preferible trabajar con su logaritmo:

 

El máximo de la función de verosimilitud se alcanza donde lo hace su logaritmo

(monotonía), por tanto derivando con respecto a e igualando a cero se llega a:

Page 25: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Es decir, el estimador máximo verosímil de la media poblacional, , coincide con la media muestral

como queríamos demostrar:  

Figura: El estimador de máxima verosimilitud de para una variable aleatoria Normal es la media muestral.

   Figura: La distribución del estimador

muestral del parámetro poblacional ,

tiene por valor esperado al mismo (insesgado), y su dispersión disminuye a medida que aumenta el número de observaciones

Page 26: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Estimador de la varianza

A la hora de elegir un estimador de , podemos comenzar con el estimador más natural:

 

Podemos comprobar que cuando el carácter que se estudia sobre la población es Normal, en realidad este es el estimador máximo verosímil para la varianza. Sin embargo se comprueba también su falta de sesgo, lo que hace mas adecuado que se utilice como estimador de la varianza al siguiente concepto: cuasi varianza muestral   

Proposición:

Demostración: Recuperamos el logaritmo de la función de verosimilitud escrita en la relación anterior, donde en esta ocasión el primer parámetro ya fue obtenido por el método de máxima verosimilitud (y vimos que era la media muestral) y tratamos de maximizarla con respecto al segundo parámetro:

Derivando con respecto a e igualando a 0se obtiene el estimador máximo verosímil:

Despejando de esta ecuación se obtiene que el estimador máximo verosímil coincide con la varianza muestral,

Proposición: El valor esperado del estimador

no es , y por tanto el estimador máximo verosímil para la varianza no es insesgado.

Más aún,

Demostración

Comenzamos escribiendo

Page 27: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Por otro lado

Luego

Cuasivarianza muestral

Para tener un estimador insesgado de la varianza introducimos la cuasivarianza muestral que se define como

 

Es inmediato comprobar que realmente este estimador es insesgado

Esa esperanza puede ser calculada de un modo más directo, ya que la distribución del estimador es conocida:

 

luego

Page 28: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Es consecuencia de las relaciones anteriores que la distribución de la cuasivarianza muestral es tal que

Figura: Función de densidad del estadístico que relaciona , y los grados de libertad de la muestra (n-1). La falta de simetría del mismo hace que su valor esperado (n-1) se desplace a la derecha de la moda (asimetría positiva).

6.2 Intervalos de Confianza para proporciones, medias, varianzas y cocientes de varianzas.

Intervalo para una proporción

Sean . Si queremos estimar el parámetro p, la manera más natural de hacerlo consiste en definir la suma de estas, lo que nos proporciona una distribución Binomial:

y tomar como estimador suyo a la v.a.

Page 29: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Es decir, tomamos como estimación de p la proporción de éxitos obtenidos en las n

pruebas, .

La distribución del número de éxitos es binomial, y puede ser aproximada a la normal cuando el tamaño de la muestra n es grande, y p no es una cantidad muy cercana a cero o uno:

El estimador no es más que un cambio de escala de X, por tanto

Esta expresión presenta dificultades para el cálculo, siendo más cómodo sustituirla por la siguiente aproximación:

Para encontrar el intervalo de confianza al nivel de significación para p se considera

el intervalo que hace que la distribución de deje la probabilidad fuera

del mismo. Es decir, se considera el intervalo cuyos extremos son los cuantiles y

. Así se puede afirmar con una confianza de que:

Esto se resume en la siguiente expresión:

con una confianza de

  

Page 30: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Figura: Intervalo de confianza para una proporción.

Ejemplo

 Se quiere estimar el resultado de un referéndum mediante un sondeo. Para ello se realiza un muestreo aleatorio simple con n=100 personas y se obtienen 35% que votarán a favor y 65% que votarán en contra (suponemos que no hay indecisos para simplificar el problema). Con un nivel de significación del 5%, calcule un intervalo de confianza para el verdadero resultado de las elecciones.

Solución:

Dada una persona cualquiera (i) de la población, el resultado de su voto es una variable Bernulli:

El parámetro a estimar en un intervalo de confianza con es p, y tenemos sobre una muestra de tamaño n =100, la siguiente estimación puntual de p:

Sabemos que

En la práctica el error que se comete no es muy grande si tomamos algo más simple como

Así el intervalo de confianza buscado lo calculamos como se indica:

Page 31: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Por tanto, tenemos con esa muestra un error aproximado de 9,3 puntos al nivel de confianza del 95%.

En la siguiente Figura podemos observar gráficamente la interpretación del cálculo realizado.

Figura: Región a partir de la cual se realiza una estimación confidencial para una proporción, con una confianza del 95%.

Intervalo para la media si se conoce la varianza

Este caso que planteamos es más a nivel teórico que práctico: difícilmente vamos a

poder conocer con exactitud mientras que es desconocido. Sin embargo nos aproxima del modo más simple a la estimación confidencial de medias.

Para estimar , el estadístico que mejor nos va a ayudar es , del que conocemos su ley de distribución:

Page 32: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Esa ley de distribución depende de (desconocida). Lo más conveniente es hacer que la ley de distribución no dependa de ningún parámetro desconocido, para ello estandarizamos:

Este es el modo en que se hará siempre la estimación puntual:

se buscará una relación en la que intervengan el parámetro desconocido junto con su estimador y de modo que estos se distribuyan según una ley de probabilidad que es bien conocida y a ser posible tabulada.

De este modo, fijado , consideramos la v.a. y tomamos un

intervalo que contenga una masa de probabilidad de . Este intervalo lo queremos tan pequeño como sea posible. Por ello lo mejor es tomarlo simétrico con respecto a la media (0), ya que allí es donde se acumula más masa.

Figura: La distribución y el intervalo más pequeño posible cuya

probabilidad es . Por simetría, los cuantiles y sólo difieren en el signo.

Page 33: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Así las dos colas de la distribución (zonas más alejadas de la media) se repartirán a partes iguales el resto de la masa de probabilidad, .

Vamos a precisar cómo calcular el intervalo de confianza: Región de aceptación

Sea el percentil de Z, es decir, aquel valor de que deja por debajo de sí

la cantidad de la masa de probabilidad de Z, es decir:

Sea el percentil , es decir,

Es útil considerar en este punto la simetría de la distribución normal, y observar que los percentiles anteriores son los mismos aunque con el signo cambiado:

El intervalo alrededor del origen que contiene la mayor parte de la masa ( ) es el intervalo siguiente:

lo que habitualmente escribiremos como:

Page 34: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

De este modo podemos afirmar que existe una probabilidad de de que al extraer una muestra aleatoria de la variable en estudio, ocurra:

De este modo un intervalo de confianza al nivel para la esperanza de una normal de varianza conocida es el comprendido entre los valores

La forma habitual de escribir este intervalo está inspirada en la Figura de abajo:

Como se dijo anteriormente: , lo que nos permite utilizar esta otra forma de expresar el intervalo

Figura: Intervalo de confianza para la media.

Page 35: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Intervalo para la media cuando se desconoce la varianza de la población

Como hemos mencionado, los casos anteriores se presentarán poco en la práctica, ya que lo usual es que sobre una población quizás podamos conocer si se distribuye

normalmente, pero el valor exacto de los parámetros y no son conocidos. De ahí nuestro interés en buscar intervalos de confianza para ellos.

El problema que tenemos en este caso es más complicado que el anterior, pues no es tan sencillo eliminar los dos parámetros a la vez. Para ello nos vamos a ayudar de lo siguiente:

Como se analizó en la Unidad 5. El Teorema del Límite Central, en el tema 5.5 Distribuciones muestrales basados en la normalidad, se tiene una variable t con v grados de libertad.

La única diferencia entre el intervalo de confianza para la media cuando no se conoce la varianza es que se debe estimar este parámetro por medio de su estimador s.

Ejemplo

 Se quiere estimar un intervalo de confianza al nivel de significación para la

altura media de los individuos de una ciudad. En principio sólo sabemos que la distribución de las alturas es una v.a. X de distribución normal. Para ello se toma una muestra de n=25 personas y se obtiene

Solución:

En primer lugar, en estadística inferencial, los estadísticos para medir la dispersión más convenientes son los insesgados. Por ello vamos a dejar de lado la desviación típica muestral, para utilizar la cuasidesviación típica:

Si queremos estimar un intervalo de confianza para , es conveniente utilizar el estadístico

Page 36: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

y tomar como intervalo de confianza aquella región en la que

es decir,

o dicho de forma más precisa: Con un nivel de confianza del podemos decir que la media poblacional está en el intervalo siguiente:

Figura: Cálculo del intervalo de confianza para la media usando para ello la distribución t de Student y la función de verosimilitud asociada, está tiene su máximo en , ya que esta estimación

puntual de es la máximo verosímil.

Intervalo de confianza para la varianza

Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la siguiente

propiedad de la distribución :

Page 37: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Consideremos dos cuantiles de esta distribución que nos dejen una probabilidad en la “zona central” de la distribución:

  Figura: Cuantiles de la distribución .

Entonces un intervalo de confianza al nivel para la varianza de una distribución normal (cuyos parámetros desconocemos) lo obtenemos teniendo en cuenta que existe

una probabilidad de que:

Por tanto el intervalo que buscamos es

Ejemplo

Page 38: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

En un ejemplo anterior se estudiaba la altura de los individuos de una ciudad, obteniéndose en una muestra de tamaño 25 los siguientes valores:

Calcular un intervalo de confianza con para la varianza de la altura de los individuos de la ciudad.

Solución:

Para estimar un intervalo de confianza para (varianza poblacional) el estadístico que nos resulta útil es:

Entonces el intervalo de confianza que buscamos lo obtenemos mediante

Figura: Percentiles del 2,5% y del 97,5%

para la distribución .

Page 39: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Por tanto, para el valor poblacional de la desviación típica tenemos que

con una confianza del 95%, que por supuesto contiene a las estimaciones puntuales

y calculados sobre la muestra.

6.3 Intervalos de Predicción

A diferencia de lo que ocurre con un intervalo de confianza, el cual tiene que ver con la estimación de un valor de la población, un intervalo de predicción sirve para estimar un valor individual, y es por lo tanto un intervalo de probabilidad.

Daría la impresión que es posible elaborar un intervalo de predicción mediante el uso del error estándar del estimador. No obstante, tal intervalo estaría incompleto, porque el error estándar del estimador no incluye la incertidumbre asociada con el hecho de que la posición de que la línea de regresión basada en datos muestrales incluye errores de muestreo y por lo general no es idéntica a la línea de regresión de la población.

El error estándar completo para un intervalo de predicción se llama error estándar de pronóstico, e incluye la incertidumbre asociada con la dispersión vertical alrededor de la línea de regresión más la incertidumbre asociada con la posición del mismo valor de la línea de regresión.

La fórmula básica para el error estándar del pronóstico es

S2X1(siguiente) = S2

X1 .X2 + S21 .X2

La versión de cálculo de la fórmula del error estándar del pronóstico es

Page 40: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Finalmente, el intervalo de predicción para un valor individual de la variables dependiente, con n-2 grados de libertad, es

± t SX(siguiente)

Page 41: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Unidad 7

PRUEBA DE HIPÓTESIS

7.1 Hipótesis estadísticas simples y compuestas

Pueden presentarse en la práctica, situaciones en las que exista una teoría preconcebida relativa a la característica de la población sometida a estudio. Tal sería el caso, por ejemplo si pensamos que un tratamiento nuevo puede tener un porcentaje de mejoría mayor que otro estándar, o cuando nos planteamos si los niños de las distintas comunidades españolas tienen la misma altura.

Este tipo de circunstancias son las que nos llevan al estudio de la parcela de la Estadística Inferencial que se recoge bajo el título genérico de Contraste de Hipótesis. Implica, en cualquier investigación, la existencia de dos teorías o hipótesis implícitas, que denominaremos hipótesis nula e hipótesis alternativa, que de alguna manera reflejarán esa idea a priori que tenemos y que pretendemos contrastar con la ``realidad''.

De la misma manera aparecen, implícitamente, diferentes tipos de errores que podemos cometer durante el procedimiento. No podemos olvidar que, habitualmente, el estudio y las conclusiones que obtengamos para una población cualquiera, se habrán apoyado exclusivamente en el análisis de sólo una parte de ésta. De la probabilidad con la que estemos dispuestos a asumir estos errores, dependerá, por ejemplo, el tamaño de la muestra requerida.

Desarrollamos en este capítulo los contrastes de hipótesis para los parámetros más usuales que venimos estudiando en los capítulos anteriores: medias, varianzas y proporciones, para una o dos poblaciones. Los contrastes desarrollados en este capítulo se apoyan en que los datos de partida siguen una distribución normal.

Los contrastes de hipótesis se realizan: Suponiendo a priori que la ley de distribución de la población es conocida. Se extrae una muestra aleatoria de dicha población.

Page 42: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Si la distribución de la muestra es “diferente” de la distribución de probabilidad que hemos asignado a priori a la población, concluimos que probablemente sea errónea la suposición inicial.

Ejemplo

Supongamos que debemos realizar un estudio sobre la altura media de los habitantes de cierto pueblo de Ecuador. Antes de tomar una muestra, lo lógico es hacer la siguiente suposición a priori, (hipótesis que se desea contrastar y que denotamos H0 ):

Al obtener una muestra de tamaño n =8, podríamos encontrarnos ante uno de los siguientes casos:

a. Muestra = {1,50 ;1,52; 1,48; 1,55; 1,60; 1,49; 1,55; 1,63} b. Muestra = {1,65; 1,80; 1,73; 1,52; 1,75; 1,65; 1,75; 1,78}

Intuitivamente, en el caso a sería lógico suponer que excepto que la muestra obtenida sobre los habitantes del pueblo sea muy poco representativa, la hipótesis H0 debe ser rechazada. En el caso b tal vez no podamos afirmar con rotundidad que la hipótesis H0

sea cierta, sin embargo no podríamos descartarla y la admitimos por una cuestión de simplicidad.

Este ejemplo sirve como introducción de los siguientes conceptos: En un contraste de hipótesis (también denominado prueba de hipótesis o Contraste de significación) se decide si cierta hipótesis H0 que denominamos hipótesis nula puede ser rechazada o no a la vista de los datos suministrados por una muestra de la población. Para realizar el contraste es necesario establecer previamente una hipótesis alternativa (H1 ó Ha) que será admitida cuando H0 sea rechazada. Normalmente H1es la negación de H0, aunque esto no es necesariamente así.

La decisión de rechazar o no la hipótesis nula está al fin y al cabo basado en la elección de una muestra tomada al azar, y por tanto es posible cometer decisiones erróneas. Los errores que se pueden cometer se clasifican como sigue:

Error de tipo I:

Es el error que consiste en rechazar H0 cuando es cierta. La probabilidad de cometer este error es lo que se denomina nivel de significación. Se denota con la letra

Error de tipo II:

Es el error que consiste en no rechazar H0 cuando es falsa. La probabilidad de

cometer este error la denotamos con la letra

Page 43: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Elementos de una prueba estadística:

Hipótesis nula, H0

Hipótesis alterna H1

Estadístico de la prueba Región de rechazo

En este tema hemos estudiado dos de los cuatro elementos, para el siguiente tema se estudiarán los dos restantes.

7.2 Regiones de aceptación y rechazo de una prueba de hipótesis

Las parte funcionales de una prueba estadística son el estadístico de prueba y la región de rechazo asociada. El estadístico de la prueba (como estimador) es una función de las mediciones muestrales en el cual se fundamenta la decisión estadística.

La región de rechazo (RR) especifica los valores del estadístico de la prueba para los cuales se rechaza la hipótesis nula. Si en una muestra particular el valor calculado del estadístico de la prueba se lo localiza en la región de rechazo, se rechaza la hipótesis nula H0 y se acepta la hipótesis alterna H1. Si el valor del estadístico de la prueba no cae en la región de rechazo RR, aceptamos H0.

El procedimiento general consiste en definir un estadístico T relacionado con la hipótesis que deseamos contrastar. A éste lo denominamos estadístico de la prueba. A continuación suponiendo que H0 es verdadera se calcula un intervalo de denominado

intervalo de aceptación de la hipótesis nula, de manera que al calcular sobre la muestra T=Texp el criterio a seguir sea:

El intervalo de aceptación o más precisamente, de no rechazo de la hipótesis nula, se establece fijando una cantidad suficientemente pequeña denominada nivel de significación, de modo que la probabilidad de que el estadístico del contraste tome un valor fuera del mismo -- región crítica--

Page 44: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

cuando la hipótesis nula es cierta sea inferior o al ; Esto se ha de entender como sigue:

Si H0 es correcta el criterio de rechazo sólo se equivoca con probabilidad , que es la probabilidad de que una muestra dé un valor del estadístico del contraste extraño (fuera del intervalo de aceptación).

Ejemplo

En una encuesta política del candidato A se seleccionan n=15 votantes. Se desea probar H0: p = 0.5 frente a la hipótesis alternativa H1: p < 0.5. el estadístico de prueba es T, el número de votantes en la muestra a favor del candidato A. Calcular si establecemos RR = {t 2} como la región de rechazo.

Solución

= P(error tipo I) = P( rechazar H0 cuando es verdadera H0)= P(de que el estadístico de la prueba se localice en RR cuando es verdadera H0)= P(T 2 cuando p = 0.5)

Considerando que T es una variable Binomial con n=15 y p=0.5, se tiene= 0.004 (utilizando la tabla de probabilidades para la v.a. binomial)

Por tanto vemos que si se decide utilizar la región de rechazo RR= {t 2}, se asumen un riesgo muy pequeño de concluir que el candidato A perderá las elecciones si, en realidad, es ganador.

Observaciones:

1. Nótese que la hipótesis nula H0 contiene el valor investigado ó por probar del parámetro en cuestión.

2. La hipótesis alterna trata de probar que el porcentaje no es como el candidato piensa sino que es inferior. Esta hipótesis pudo haber sido diferente si quisieran probar que porcentaje es mayor, esta se transformaría en p>0.5. Si solamente se hubiera querido demostrar que no es cierto este porcentaje la hipótesis alterna quedaría p 0.5.

3. El valor del estadístico siempre es calculado por medio de los valores obtenidos de la muestra.

4. La región de rechazo RR se la establece de acuerdo a ciertas condiciones preestablecidas cono son el nivel de significancia, y del valor obtenido de las tablas de probabilidades.

7.3 Potencia de una prueba y curvas OC

Page 45: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Potencia de la prueba

Recuerde que la bondad de una prueba se mide por y , las probabilidades de los errores de tipo I y II, en donde se fija de antemano para determinar la región de rechazo. Un concepto relacionado pero más útil para evaluar el funcionamiento de una prueba se denomina poder ( ó potencia) de la prueba. Básicamente el poder de una prueba es la probabilidad de que la prueba rechace la hipótesis nula.

Supongamos que T es un estadístico de la prueba y RR la región de rechazo para la prueba de una hipótesis referente al valor de una parámetro . Entonces, el poder denotado por k(), es la probabilidad de que la prueba rechace H0 cuando el valor real del parámetro es . Es decir,

k() = P(de que T esté en RR cuando el valor del parámetro es )

Supóngase que se desea probar la hipótesis nula H0: = 0 y que 1 es un valor particular de es cogido para H1. El poder de la prueba para = 0, k(0), es igual a la probabilidad de rechazar H0 cuando es verdadera H0. Es decir,

k(0) = , la probabilidad de un error tipo I.

Para cualquier valor de para H1, el poder de una prueba se mide su capacidad para detectar que la hipótesis nula es falsa. Es decir, para = 1

k(1) = P(rechazar H0 cuando = 1)

Dado que

= P(aceptar H0 cuando = 1)

tenemos que el poder de la prueba para 1 y la probabilidad de un error tipo II se relaciona como sigue:

k(1) = 1 -

A continuación ilustraremos dos ejemplos de curvas de poder o potencia

Figura: típica curva de poder o potencia para la prueba H0: = 0 frente a la alternativa H1: 0

Figura: curva de poder ideal para la prueba

Page 46: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

H0: = 0 frente a la alternativa H1: 0

Curvas OC

Cuando el nivel de significancia y el tamaño de muestra se mantienen constantes, la probabilidad de error tipo II disminuye a medida que el valor alternativo específico de la media se aleja del valor de la hipótesis nula y aumenta a medida que

Una curva característica OC, describe gráficamente la probabilidad de aceptar la hipótesis nula dados diversos valores alternativos de la media de la población.

La siguiente curva OC es aplicable a cualquier prueba de cola inferior de una media hipotética al nivel de significancia de 5% basada en el uso de la distribución normal de probabilidad.

Figura: curva de poder ideal para la prueba H0: = 0 frente a la alternativa H1: 0

Nótese que es aplicable a cualquier prueba de este tipo, porque los valores del eje horizontal han sido enunciados en unidades del error estándar de la media. Para cualesquiera valores a la izquierda de 0, la probabilidad de aceptación indica la probabilidad del error tipo II. A la derecha de 0, las probabilidades indican la aceptación correcta de la hipótesis nula. Tal como lo indican las líneas punteadas, cuando = 0, la probabilidad de aceptar la hipótesis nula es 1 - o, en este caso, 1 – 0.05 = 0.95.

En los siguientes temas desarrollaremos algunos ejemplos de cómo aplicar las curvas OC y la potencia de la prueba.

Page 47: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

7.4 Pruebas de hipótesis relativas a medias, varianzas, proporciones y cocientes de dos varianzas

en este tema se desarrollará un procedimiento para la prueba basada en el estimador , que tiene aproximadamente una distribución normal con media θ y varianza σ2

θ.

Los estimadores referidos en la unidad anterior como , con muestras grandes utilizados para estimar una media poblacional μ y proporción poblacional p, respectivamente, satisfacen estos requerimientos.

Junto con ellos, también lo hacen los estimadores para la comparación de dos medias (μ1 – μ2) y la comparación de parámetros binomiales (p1 – p2).

Dentro del desarrollo de este tema se puede encontrar un resumen detallado de las pruebas de hipótesis para la media, la varianza y las proporciones.

Contrastes para la media

Test de dos colas con varianza conocida

Suponemos que donde es conocido y queremos contrastar si es

posible que (desconocida) sea en realidad cierto valor fijado. Esto es un supuesto teórico que nunca se dará en la realidad pero servirá para introducir la teoría sobre contrastes.

El test se escribe entonces como:

Como hemos mencionado anteriormente, la técnica para hacer el contraste consiste en suponer que H0 es cierta, y averiguar con esta hipótesis quien es la distribución del estadístico del contraste que este caso es lógico que deba estar muy relacionado con .

Si al obtener una muestra concreta se tiene que es un valor muy alejado de , se debe rechazar H0. Veamos esto con más detalle:

Page 48: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Para poder acceder a las probabilidades de la normal, hemos normalizado (ya que los valores para hacer la normalización son conocidos). Si H0 es cierta, entonces esperamos que el valor zexp obtenido sobre la muestra

esté cercano a cero con una gran probabilidad. Esto se expresa fijando un nivel de significación , y tomando como región crítica , a los valores que son muy extremados y con probabilidad en total, o sea,

Entonces la región crítica consiste en

Luego rechazaremos la hipótesis nula si

aceptando en consecuencia la hipótesis alternativa  

Figura: La región de rechazo de la hipótesis nula es la sombreada. Se rechaza H0 cuando el estadístico zexp toma un valor comprendido en la zona sombreada de la

gráfica pequeña, , o equivalentemente, cuando el estadístico toma un valor en la zona roja de la gráfica

grande, .

Page 49: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Test de una cola con varianza conocida Consideremos un contraste de hipótesis donde ahora la hipótesis alternativa es compuesta:

 

Bajo la hipótesis nula la distribución de la media muestral es

y como región crítica consideraremos aquella formada por los valores extremadamente bajos de Zexp, con probabilidad , es decir

Entonces la región de aceptación, o de modo más correcto, de no rechazo de la hipótesis

nula es

Figura: Se rechaza la hipótesis nula, cuando uno de los estadístico Z o toma un valor en la zona roja de sus gráficas respectivas.

Page 50: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Es evidente que si en el contraste de significación (primer gráfico), hubiésemos tomado como hipótesis alternativa su contraria, es decir

por simetría con respecto al caso anterior, la región donde no se rechaza la hipótesis nula es (véase la figura de abajo y contrástese con la anterior):

   Figura: Regiones de aceptación y rechazo para el test unilateral contrario.

Test de dos colas con varianza desconocida

Sea donde ni ni son conocidos y queremos realizar el contraste

Al no conocer va a ser necesario estimarlo a partir de su estimador insesgado: la cuasivarianza muestral, . Por ello la distribución del estimador del contraste será una

de Student, que ha perdido un grado de libertad, según el teorema de Cochran (no evaluado en el curso presente), y la definición de la distribución de Student:

Page 51: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Consideramos como región crítica , a las observaciones de Texp extremas

o sea

Observación

Para dar una forma homogénea a todos los contrastes de hipótesis es costumbre denominar al valor del estadístico del contraste calculado sobre la muestra como valor experimental y a los extremos de la región crítica, como valores teóricos. Definiendo entonces

el resultado del contraste es el siguiente:

   Figura: Región crítica para el contraste bilateral de una media.

tn-1 t t T

Page 52: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Tests de una cola con varianza desconocido

Si realizamos el contraste

por analogía con el contraste bilateral, definiremos

y el criterio para contrastar al nivel de significación es:  

Figura: Región crítica para uno de los contrastes unilaterales de una media.

Para el contraste contrario,

definimos Texp y Tteo como anteriormente y el criterio a aplicar es:

  

Page 53: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Figura: Región crítica para el contrastes unilateral de una media contrario al anterior.

Ejemplo

Conocemos que las alturas X de los individuos de una ciudad, se distribuyen de modo normal. Deseamos contrastar con un nivel de significación de = 0.05 si la altura media es diferente de 174 cm. Para ello nos basamos en un estudio en el que con una muestra de n=25 personas se obtuvo:

Solución:

El contraste que se plantea es:

La técnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que toma el estadístico

es ``razonable" o no bajo esta hipótesis, para el nivel de significación dado. Aceptaremos la hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si no lo es, es decir, si

Page 54: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Para ello procedemos al cálculo de Texp:

Luego, aunque podamos pensar que ciertamente el verdadero valor de no es 174, no

hay una evidencia suficiente para rechazar esta hipótesis al nivel de confianza del . Es decir, no se rechaza H0.

   Figura: El valor de Texp no está en la región crítica (aunque ha quedado muy cerca), por tanto al no ser la evidencia en contra de H0

suficientemente significativa, ésta hipótesis no se rechaza.

Ejemplo

Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la altura media de la población sea igual a 174 cm, deseamos realizar el contraste sobre si la altura media es menor de 174 cm.

Solución: Ahora el contraste es

Page 55: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Para realizar este contraste, consideramos el caso límite y observamos si la hipótesis nula debe ser rechazada o no. Este es:

De nuevo la técnica a utilizar consiste en suponer que H0' es cierta y ver si el valor que toma el estadístico

es aceptable bajo esta hipótesis, con un nivel de confianza del . Se aceptará la hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si

Recordamos que el valor de Texp obtenido fue de

Texp=-1'959< t24,0'05= -t24,0'95 = -1'71

Por ello hemos de aceptar la hipótesis alternativa  

Figura: El valor te Texp está en la región crítica, por tanto existe una evidencia significativa en contra de H0, y a favor de H1.

Page 56: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Es importante observar este hecho curioso: Mientras que en el ejemplo anterior no

existía una evidencia significativa para decir que cm, el ``simple hecho" de plantearnos un contraste que parece el mismo pero en versión unilateral nos conduce a

rechazar de modo significativo que y aceptamos que cm. Es por ello que podemos decir que no sólo H0' es rechazada, sino también H0. Es en este sentido en el que los tests con H0 y H0' los consideramos equivalentes:

Contrastes de una proporción

Supongamos que poseemos una sucesión de observaciones independientes, de modo que cada una de ellas se comporta como una distribución de Bernoulli de parámetro p:

La v.a. X, definida como el número de éxitos obtenidos en una muestra de tamaño n es por definición una v.a. de distribución binomial:

La proporción muestral (estimador del verdadero parámetro p a partir de la muestra) es

Page 57: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Nos interesamos en el contraste de significación de

frente a otras hipótesis alternativas. Para ello nos basamos en un estadístico (de contraste) que ya fue considerado anteriormente en la construcción de intervalos de confianza para proporciones y que sigue una distribución aproximadamente normal para tamaños muestrales suficientemente grandes:

Si la hipótesis H0 es cierta se tiene

Contraste bilateral o de dos colas

Para el contraste

extraemos una muestra y observamos el valor . Entonces se define

siendo el criterio de nilateral o rechazo de la nilatera nula el que refleja la siguiente figura:  

Figura: Contraste bilateral de una nilateral.

Page 58: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Contrastes Unilaterales o de una cola

Consideremos un contraste del tipo

La figura siguiente expresa el criterio de aceptación o rechazo a seguir:

Figura: Contraste unilateral cuando

Page 59: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Para el test unilateral contrario, se tiene la expresión simétrica:

Luego

   Figura: Contraste unilateral cuando se tiene

Contrastes sobre la diferencia de proporciones

Supongamos que tenemos dos muestras independientes tomadas sobre dos poblaciones, en la que estudiamos una variable de tipo dicotómico (Bernoulli):

Si X1 y X2 contabilizan en cada caso el número de éxitos en cada muestra se tiene que cada una de ellas se distribuye como una variable aleatoria binomial:

Page 60: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

de modo que los estimadores de las proporciones en cada población tienen distribuciones que de un modo aproximado son normales (cuando n1 y n2 son bastante grandes)

El contraste que nos interesa realizar es el de si la diferencia entre las proporciones en cada población es una cantidad conocida

Si H0 fuese cierta se tendría que

Desafortunadamente ni p1 ni p2 son conocidos de antemano y utilizamos sus estimadores, lo que da lugar a un error que es pequeño cuando los tamaños muestrales son importantes:

Contraste bilateral

El contraste bilateral sobre la diferencia de proporciones es

Entonces se define

Page 61: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

y se rechaza la hipótesis nula si o si

Contrastes unilaterales

En el contraste

se rechazará H0 si . Para el test contrario

se rechaza H0 si .

Contrastes para la varianza Consideremos que el carácter que estudiamos sobre la población sea una v.a. normal cuya media y varianza son desconocidas. Vamos a contrastar la hipótesis

frente a otras hipótesis alternativas que podrán dar lugar a contrastes bilaterales o unilaterales. La técnica consiste en observar que el siguiente estadístico experimental

que utiliza el estimador insesgado de la varianza, posee una distribución , con n-1 grados de libertad:

Entonces construimos las regiones críticas que correspondan a las hipótesis alternativas

que se formulen en cada caso atendiendo a la ley de distribución .

Page 62: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Contraste bilateral

Cuando el contraste a realizar es

definimos

y el criterio que suministra el contraste es el expresado en la siguiente figura:   

Figura: Contraste bilateral de una varianza.

Contrastes unilaterales

Para un contraste de significación al nivel del tipo

Page 63: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

se tiene que el resultado del mismo es el que refleja la siguiente figura:   

Figura: Contraste unilateral del

tipo .

Para el contraste contrario tenemos la formulación análoga:

calculamos el extremo inferior de la región crítica en una tabla de la distribución

El gráfico queda de la siguiente manera:  

Figura: Contraste unilateral del tipo

.

Page 64: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Tabla: Estadísticos asociados a una muestra aleatoria simple, procedente de una población normal.

 

X1, X2, ...,

 

   

   

   

   

Page 65: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Contrastes de la razón de varianzas

Consideramos dos muestras independientes de dos poblaciones que se distribuyen normalmente (cuyas medias y varianzas son desconocidas). Vamos a abordar cuestiones relacionadas con saber si las varianzas de ambas poblaciones son las mismas, o si la razón (cociente) entre ambas es una cantidad conocida, R. La igualdad entre las dos

varianzas puede escribirse o bien, la existencia de una diferencia entre

ambas ( ), del modo . Este modo de escribir la diferencia entre varianzas (que era el adecuado para las medias) no es sin embargo fácil de utilizar para las varianzas, de modo que nos será más fácil sacarle partido a las expresiones de las relaciones entre varianzas como

Por ejemplo, si R =1 tenemos que ambas varianzas son iguales.

Consideramos entonces la hipótesis nula

la cual vamos a contrastar teniendo en cuenta que:

Por tanto el estadístico del contraste que nos conviene tiene una distribución conocida cuando H0 es cierta --véase la definición de la distribución de Snedecor:

Contraste bilateral

El contraste bilateral para el cociente de varianzas se escribe como:

Page 66: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Habida cuenta que la distribución de Snedecor no es simétrica sino que sólo toma valores positivos, se rechazará la hipótesis nula cuando el el valor que tome el estadístico del contraste al aplicarlo sobre una muestra sea muy cercano a cero, o bien, muy grande. Es decir, se define el estadístico experimental y los límites de la región crítica como:

y el criterio de aceptación o rechazo es:

Una cuestión que conviene observar es que

dada la no simetría de F. A la hora de usar una tabla de la distribución podemos tal vez encontrar que no está tabulada para los valores pequeños, pero si

para . Una regla que es de bastante utilidad para estos casos es la siguiente

Contrastes unilaterales

El primer contraste unilateral que consideramos es:

para el cual se tiene

Page 67: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

El tests unilateral opuesto es:

y entonces

Ejemplo

Se desea comparar la actividad motora espontánea de un grupo de 25 ratas control y otro de 36 ratas desnutridas. Se midió el número de veces que pasaban delante de una célula fotoeléctrica durante 24 horas. Los datos obtenidos fueron los siguientes:

Ratas de control n1=25

Ratas desnutridas n2=36

¿Se observan diferencias significativas entre el grupo control y el grupo desnutrido?

Solución:

En primer lugar, por tratarse de un problema de inferencia estadística, nos serán más útiles las cuasivarianzas que las varianzas. Por ello calculamos:

El contraste que debemos realizar está basado en el de la de Student para la diferencia de medias de dos poblaciones. Para ello conocemos dos estadísticos posibles, según que las varianzas poblacionales de ambos grupos de ratas puedan ser supuestas iguales (homocedasticidad) o distintas (heterocedasticidad). Para ello realizamos previamente el contraste:

Page 68: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Suponiendo H0 cierta, tenemos que el estadístico del contraste conveniente es

ya que así no es necesario calcular el extremo inferior para la región donde no se rechaza H0. En este caso:

Como , no podemos concluir (al menos al nivel de significación ) que H0 deba ser rechazada.   

Figura: No hay evidencia significativa para rechazar la homocedasticidad. El estadístico del contraste ha sido elegido de modo que el numerador de Fexp sea mayor que el denominador, es decir, Fexp>1.

Page 69: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Por lo tanto no rechazamos la hipótesis de homocedasticidad (que las dos son iguales) de ambas poblaciones, y pasamos a contrastar la igualdad de las medias

utilizando el estadístico más sencillo (el que no necesita aproximar los grados de libertad mediante la fórmula de Welch). Para ello calculamos en primer lugar la cuasivarianza muestral ponderada:

y posteriormente

Como concluimos que se ha de rechazar la hipótesis de igualdad de las medias, y por tanto aceptamos que las medias son diferentes. Además, como se aprecia en la figura siguiente, la evidencia a favor de la hipótesis alternativa es muy alta, y se puede afirmar que con gran probabilidad la media poblacional de las ratas de control es mayor que la de las ratas desnutridas.

   Figura: Hay una gran evidencia en contra de la hipótesis de que ambas medias

Page 70: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

poblacionales coincidan, y a favor de que la de la primera población es mayor que la de la segunda.

7.5 Contrastes para la diferencia de medias apareadas

Las muestras apareadas aparecen como distintas observaciones realizadas sobre los mismos individuos. Un ejemplo de observaciones apareadas consiste en considerar a un conjunto de n personas a las que se le aplica un tratamiento médico y se mide por ejemplo el nivel de insulina en la sangre antes (X) y después del mismo (Y)

Paciente xi yi di

1 150 120 30

2 180 130 50

... ... ... ...

n 140 90 50

No es posible considerar a X e Y como variables independientes ya que va a existir una dependencia clara entre las dos variables. Si queremos contrastar el que los pacientes han experimentado o no una mejoría con el tratamiento, llamemos di a la diferencia entre las observaciones antes y después del tratamiento

di = xi-yi

Supongamos que la v.a. que define la diferencia entre el antes y después del tratamiento es una v.a. d que se distribuye normalmente, pero cuyas media y varianza son desconocidas

Page 71: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Si queremos contrastar la hipótesis de que el tratamiento ha producido cierto efecto

en el caso en que H0 fuese cierta tendríamos que el estadístico de contraste que nos conviene es

donde es la media muestral de las diferencias diy es la cuasivarianza muestral de las mismas. El tipo de contraste sería entonces del mismo tipo que el realizado para la media con varianza desconocida.

Contraste bilateral

Consideramos el contraste de tipo

Entonces se define

y se rechaza la hipótesis nula cuando ó .

Contrastes unilaterales

Si el contraste es

entonces se rechaza H0 si . Para el test contrario

Page 72: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

se rechaza H0 si .

Observación

No supone ninguna dificultad el haber realizado el contraste con conocida, ya que entonces el estadístico del contraste es

y el tratamiento sería análogo.

Prueba de signo para un experimento aparejado

Prueba del signo para comparar dos poblaciones en un experimento aparejado (o de Wilcoxon de rangos con signo)

Hipótesis:H0: Las distribuciones poblacionales para las X y las Y son idénticasH1: Las dos distribuciones difieren en ubicación (dos colas) o bien, H1: la distribución de frecuencias relativas de la población para las X está desfasada hacia la derecha de la distribución de las Y (una cola)

Estadístico de la prueba:1) Para una prueba de dos colas, utilice T = mín(T’ , T--) en donde T’ = suma de los

trangos de las diferencias positivas y T-- = suma de los rangos de las diferencias negativas.

2) Para la prueba de una cola (para detectar la alternativa de una cola dada anteriormente) utilice la suma de los rangos T-- de las diferencias negativas.

Región de rechazo:1) Para la prueba de dos colas, rechace H0 si T T0’ en donde T0 es el valor crítico

dado en la tabla de valores críticos de T en la prueba de Wilcoxon.2) Para la prueba de una cola, rechace H0 si T - T0’

Observación:

Para detectar un desplazamiento de la distribución de las Y hacia la derecha de la distribución de las X, utilice la suma de los rangos T+, la suma de los rangos de las diferencias positivas y rechace H0 si T+ T0.

Page 73: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Ejemplo

Pruebe la hipótesis nula de que no hay diferencias entre las distribuciones poblacionales de la densidad de los pasteles para un experimento de diferencias aparejadas. Se utilizan 6 pares de pasteles, uno preparado con la mezcla A y el otro con la mezcla B. ¿Qué se puede decir del nivel de significancia alcanzado?

Solución

Los datos originales y las diferencias (en onzas por pulgada cúbica) para los seis pares de pasteles se muestran en la tabla siguiente:

A B Diferencia: A – B Rango0.135 0.129 0.006 30.102 0.120 -0.018 50.108 0.112 -0.004 1.50.141 0.152 -0.011 40.131 0.135 -0.004 1.50.144 0.163 -0.019 6

Como en el caso de otras pruebas no para métricas, la hipótesis nula que debe probarse es que las distribuciones de frecuencias de las dos poblaciones de densidades de los pasteles son idénticas. La hipótesis alternativa, que implica una prueba de dos colas, es que las distribuciones difieren en ubicación.

Realizaremos nuestra prueba utilizando = 0.10, porque la cantidad de datos es pequeña. De la tabla de valores críticos de T en la prueba de Wilcoxon, vemos que el valor crítico de T para una prueba de dos colas y = 0.10, es T0 = 2. por tanto rechazaremos H0 si T 2.

Dado que hay solamente una diferencia positiva que tiene el rango 3, T+ = 3y T-- = 18, y por lo tanto no hay evidencia suficiente para indicar una diferencia ente las distribuciones de frecuencias de las dos poblaciones de las densidades de las poblaciones de los pasteles. Ya que no es posible rechazar H0 para = 0.10, solamente podemos afirmar que el valor p > 0.10.

Page 74: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

7.6 Tablas de Contingencia

Un problema común en el análisis de datos enumerativo se refiere a la independencia de dos métodos de clasificación de eventos observados. Por ejemplo, podríamos clasificar una muestra de individuos según el sexo y según su opinión con respecto a una cuestión política para probar la hipótesis de que las opiniones con respecto a esta cuestión son independientes del sexo, o podríamos clasificar a los pacientes que padecen cierta enfermedad según el tipo de medicamento y según el porcentaje de recuperación para ver si el porcentaje de recuperación depende del tipo de medicamento. El cada uno de estos ejemplos queremos investigar la dependencia (o contingencia) entre dos criterios de clasificación.

Supóngase que queremos clasificar los defectos encontrados en los muebles producidos en cierta planta manufacturera, según (1) el tipo de defecto y (2) el turno de producción. Se registró un número total de n = 309 muebles defectuosos y se clasificaron los defectos como uno de cuatro tipos, A, B, C, o D. Al mismo tiempo se identificó cada mueble según el turno de producción en el que se les fabricó. Se presentan estos datos en la siguiente tabla conocida como Tabla de Contingencia:

Turno de Producción

Tipo de defecto TotalA B C D

1 15(22.51) 21(20.99) 45(38.94) 13(11.56) 942 26(22.99) 31(21.44) 34(39.77) 5(11.81) 963 33(28.50) 17(26.57) 49(49.29) 20(14.63) 119

Total 74 69 128 38 309

Los números ente paréntesis son las estimaciones de las frecuencias esperadas de las celdas. El objetivo es probar la hipótesis nula de que el tipo de defecto es independiente del turno de producción, frente a la alternativa de que las dos categorías son dependientes. Es decir, queremos probar H0: la clasificación por columnas es independiente de la clasificación por renglones.

Sea pA igual a la probabilidad incondicional de que un efecto sea del tipo A. Asimismo, se definen pB, pC, y pD como las probabilidades de observar los otros tres tipos de defectos. Entonces estas probabilidades, que llamaremos probabilidades de columna de la tabla anterior, satisfacen la condición: pA + pB + pC + pD = 1

De igual manera sea pi (i = 1,2 o 3) igual a la probabilidad de renglón de que un defecto provenga del turno i, en dondep1 + p2 + p3 = 1

La hipótesis nula especifica solamente que la probabilidad cada celda será igual al producto de sus respectivas probabilidades de renglón y de columna, lo que implica la independencia de las dos clasificaciones.

Tenemos que estimarlas probabilidades de columna y de renglón para poder estimar las frecuencias esperadas de las celdas.

Como hemos observado, se pueden utilizar las estimaciones de las frecuencias esperadas de las celdas en lugar de los E(ni) en la expresión de X2, y X2 todavía tendrá

Page 75: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

una distribución que se puede aproximar por una distribución de probabilidad 2 en un muestreo repetitivo.

Sea nij la frecuencia observada en el renglón i y la columna j de la tabla de contingencia, y sea pij la probabilidad de que una observación caiga en esta celda.

pij es simplemente la frecuencia relativa observada para esta celda, es decir

ij = nij / n, i =1,...,r; j = 1,...,c

Asimismo, al considerar el renglón i como una sola celda, la probabilidad para el renglón i está dada por pi y por lo tanto

ij = ri / n

donde r denota el número de observaciones en el renglón i) es el estimador de máxima verosimilitud de pi.

Análogamente la probabilidad para la columna es cj/n, en donde cj denota el número de observaciones en la columna j.

El valor esperado de la frecuencia de celda observada n ij para una tabla de contingencia, es igual al producto de sus respectivos totales de renglón y de columna, dividido entre la frecuencia total. Es decir,

( nij ) = rij / n

Finalmente se construye el estadístico de la prueba por medio de las frecuencias esperadas y observadas

X2 = [nij - (nij)]2 / (nij)

El único obstáculo restante es la determinación del número apropiado de grados de libertad asociados con el estadístico de la prueba. Para ello se establece una regla que trataremos de justificar. Los grados de libertad asociados con una tabla de contingencia que tiene r renglones y c columnas siempre son iguales a (r – 1) (c – 1). Para el ejemplo planteado compararemos X2 con el valor crítico de una 2 con (r-1)(c-1) = (3-1)(4-1) = 6 grados de libertad.

X2 = [nij - (nij)]2 / (nij) = (15 – 22.51)2/ 22.51 + (26 – 22.99)2/22.99 + ...+ (20 - 14.63)2/14.63 = 19.17

Por lo tanto si utilizamos = 0.05, rechazaremos la hipótesis nula de que las dos clasificaciones son independientes si X2 > 12. 592. Dado que el valor del estadístico de la prueba, X2 = 19.17, es mayor que el valor crítico de 2, rechazamos la hipótesis nula a nivel de significancia de = 0.05.El valor p asociado se da por valor p = P(2 > 19.17).

Page 76: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Una tabla de contingencia es un arreglo rectangular en el que se expresan los efectos de un factor horizontal A y un factor vertical B, sobre los elementos de una misma población.

A tiene c niveles, B tiene r niveles

Factor AFactor B Nivel 1 2 ... c

1 X11 X12 ... X1c X1.2 X21 X22 ... X2c X2.... ... ... ... ... ...r Xr1 Xr2 ... Xrc Xr.

X.1 X.2 X.c n

Xij es el número de elementos bajo el nivel i de A y la columna j de B

La idea es verificar si el factor A y el B son independientes por medio de un contraste de hipótesis como se muestra en el ejemplo anterior.

7.7 Ajuste de curva: la prueba no paramétrica KS y la prueba Ji-cuadrado

El estadístico y su distribución

Sea X una v.a. cuyo rango son los valores , de modo que pi es la probabilidad de cada valor;

Este tipo de v.a. puede corresponder a variables ya estudiadas como es el caso de la distribución Binomial

Page 77: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

pero nosotros vamos a usarla para v.a. más generales. Supongamos que el resultado de

un experimento aleatorio es una clase c1, c2, ..., ck(ci, ), que puede representar valores cualitativos, discretos o bien intervalos para variables continuas. Sea pi la probabilidad de que el resultado del experimento sea la clase ci. Vamos a considerar contrastes cuyo objetivo es comprobar si ciertos valores pi

0, propuestos para las cantidades pi son correctas o no, en función de los resultados experimentales

 

Mediante muestreo aleatorio simple, se toma una muestra de tamaño n y se obtienen a partir de ella unas frecuencias observadas de cada clase que representamos mediante

, , ...,

Clase Frec. Abs.

ci

c1

c2

... ...

ck

Supongamos que la hipótesis nula es cierta. Al ser pi =pi0 la proporción de elementos de

la clase ci en la población, el número de individuos de que presentan esta modalidad al

tomar una muestra de tamaño n, es una v.a. de distribución binomial, . Por tanto la frecuencia esperada de individuos de esa clase es

Page 78: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Obsérvese que a diferencia de las cantidades , que son las frecuencias que realmente se obtienen en una muestra, las frecuencias esperadas no tienen por que ser números enteros. De cualquier modo, bajo la suposición de que H0 es cierta cabe esperar que las

diferencias entre las cantidades y sea pequeña.

Pearson propuso el estadístico

el cual, siguiendo la línea de razonamiento anterior debe tomar valores pequeños si H0

es cierta. Si al tomar una muestra, su valor es grande eso pone en evidencia que la

hipótesis inicial es probablemente falsa. Para decidir cuando los valores de son grandes es necesario conocer su ley de probabilidad. Se tiene entonces el siguiente resultado

Como sólo son los valores grandes de los que nos llevan a rechazar H0, la región

crítica es , tal como se muestra en la siguiente figura:

  

Page 79: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Figura: Región crítica (sombreada) para un

contraste con el estadístico .

es decir,

Observación

A pesar de que el contraste parece ser bilateral la forma de , nos indica que el contraste es unilateral: Sólo podemos saber si existe desajuste entre los esperado y lo observado, pero no podemos contrastar hipótesis alternativas del tipo ``pi mayor que cierto valor''.

Observación

Obsérvese que en realidad no es una variable aleatoria continua: Los posibles

resultados de la muestra se resumen en las cantidades , , ..., , que únicamente toman valores discretos. Luego las cantidades

sólo puede tomar un número finito de valores distintos (aunque sean cantidades con decimales). Por tanto su distribución no es continua. Luego al realizar la aproximación mencionada hay que precisar en qué condiciones el error cometido es pequeño. De

Page 80: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

modo aproximado podemos enunciar el siguiente criterio que recuerda al de la aproximación binomial por la distribución normal:

1. n>30;

2. para todo .

Sin embargo esta regla resulta demasiado estricta a la hora de aplicarla en la práctica. Se utiliza entonces una regla más flexible y que no sacrifica demasiada precisión con respecto a la anterior:

1. Para ninguna clase ocurre que

2. para casi todos los , salvo a lo sumo un de ellos.

Si a pesar de todo, estas condiciones no son verificadas, es necesario agrupar las clases que tengan menos elementos con sus adyacentes.

Observación

El lector puede considerar los contrastes con el estadístico como una generalización del contraste de proporciones. Para ello le invitamos a estudiar el siguiente ejemplo.

Ejemplo

Se desea saber si cierta enfermedad afecta del mismo modo a los hombres que a las mujeres. Para ello se considera una muestra de n=618 individuos que padecen la enfermedad, y se observa que 341 son hombres y el resto son mujeres. ¿Qué conclusiones se obtiene de ello?

Solución:

El contraste a realizar se puede plantear de dos formas que después veremos que son equivalentes:

Contraste de una proporción: Si p es el porcentaje de hombres en la población de enfermos, podemos considerar el contraste:

De la muestra obtenemos la siguiente estimación puntual del porcentaje de enfermos de sexo masculino:

Page 81: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Para ver si esto es un valor ``coherente'' con la hipótesis nula, calculemos la significatividad del contraste:

Por otro lado,

Como el contraste es de tipo bilateral, la significatividad del contraste es (buscando en la tabla de la distribución normal):

Lo que nos indica que se ha de rechazar la hipótesis nula y aceptar la hipótesis alternativa, es decir, afirmamos que existe una evidencia significativa a favor de la hipótesis de que la enfermedad no afecta por igual a hombres y mujeres.

Contraste con el estadístico : En este caso planteamos el contraste:

Para resolverlo escribimos en una tabla los frecuencias muestrales observadas de hombres y mujeres, junto a los valores esperados en el caso de que la hipótesis nula fuese cierta:

frecuencias frecuencias

observadas esperadas diferencia

Hombres 341 9 322/309

Mujeres 277 -9 (-32)2/309

618 618 0 6,63

Consideremos entonces el estadístico

Page 82: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

donde:

k =2 es el número de modalidades posibles que toma la variable sexo: hombres y mujeres; p =0 es el número de parámetros estimados; h =1 es el números de restricciones impuestas a los valores esperados. Sólo hay una (que es habitual), que consiste en que el número esperado de enfermos entre hombres y mujeres es 60.

El estadístico calculado sobre la muestra ofrece el valor experimental:

que es el percentil 99 de la distribución . De nuevo se obtiene que la significatividad del contraste es del 1%<5%.

En conclusión, con los dos métodos llegamos a que hay una fuerte evidencia en contra de que hay el mismo porcentaje de hombres y mujeres que padecen la enfermedad. La ventaja de la última forma de plantear el contraste (diferencia entre frecuencias observadas y esperadas) es que la técnica se puede aplicar a casos más generales que variables dicotómicas, como se verá más adelante.

Observación

Hay una fórmula alternativa para el cálculo de cuya expresión es más fácil de utilizar cuando realizamos cálculos:

Demostración

Page 83: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Distribuciones con parámetros desconocidos

Supongamos que la distribución de X que queremos contrastar no especifica ciertos valores de r parámetros

Estimémoslos a partir de la muestra, y consideremos las cantidades

Entonces el contraste consiste en

Contraste de una distribución binomial

Queremos contrastar

Page 84: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Las cantidades pi son desconocidas, aunque tienen una forma en la que sólo dependen del único parámetro que debe ser estimado a partir de la muestra (r=1): Realizando esta estimación

tenemos todas las cantidades pi,

y la distribución del estadístico es aproximadamente .

Contraste de una distribución normal

Si queremos contrastar si una v.a. X se distribuye normalmente

podemos realizar el contraste correspondiente mediante la técnica del estadístico tomando una muestra, estimando los parámetros mediante y , y agrupando las observaciones (continuas) en un número finito, k, de intervalos. No rechazaremos entonces la normalidad de X si las probabilidades esperadas de los intervalos no son muy diferentes de las obtenidas sobre la muestra, es decir,

         

Intervalo

         

- e1

         

e1 - e2

Page 85: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

         

e2 - e3

         

... ... ... ... ...

   

Distribuciones de parámetros conocidos

Deseamos contrastar si la v.a. X sigue una ley de distribución

donde todos los pi están fijados (hipótesis H0). Entonces por lo mencionado anteriormente, el contraste consiste en:

En este contraste se comete cierto error de aproximación y por tanto será tanto mejor cuanto mayor sea n.

Ejemplo

Dadas dos parejas de genes Aa y Bb, la descendencia del cruce efectuado según las leyes de Mendel, debe estar compuesto del siguiente modo:

Leyes de Mendel            Frecuencias

Fenotipo relativas

AB 9/16

Ab 3/16

aB 3/16

ab 1/16

Page 86: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Elegidos 300 individuos al azar de cierta población se observa la siguiente distribución de frecuencias:

  Frecuencias

Fenotipo observadas

AB 165

Ab 47

aB 67

ab 21

Total 300

¿Se puede aceptar que se cumplen las leyes de Mendel sobre los individuos de dicha población?

Solución:

El contraste a realizar es:

Para ello vamos a representar en una sola tabla las frecuencias observadas, junto con las que serían de esperar en el caso de que H0 fuese cierta:

Fenotipo

AB 165 161,33

Ab 47 42,27

aB 67 85,91

ab 21 23,52

Total 300 300 313,03

Bajo la hipótesis de que H0 sea cierta, se tiene que:

Page 87: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

ya que 4 son los posibles fenotipos, no se ha estimado ningún parámetro (la distribución según las leyes de Mendel es conocida), y sobre las cantidades Ei existe solamente una

restricción, que es: . Por otro lado,

que según la tabla de la distribución es aproximadamente el percentil 99,5 de la

distribución . Por tanto la significatividad del contraste es del , lo que nos conduce a rechazar la hipótesis de que la población de la que la muestra ha sido extraída sigue las leyes de Mendel.

Al mismo resultado llegamos sin calcular con precisión la significatividad del contraste, sino considerando que el valor teórico máximo que admitimos para el estadístico

experimental con un nivel de significación del 5% es el percentil 95 de , es decir,

y claramente ocurre que , por lo que se rechaza la hipótesis nula.

Obsérvese también que el que se haya rechazado la hipótesis nula significa que hay diferencia estadísticamente significativa entre las frecuencias observadas y las esperadas, aunque a primera vista no lo hubiésemos percibido en el gráfico de la Figura siguiente:

   Figura: Aunque aparentan ser aproximadamente iguales las frecuencias observadas y esperadas, existe diferencia estadísticamente significativa entre ellas.

Page 88: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,
Page 89: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Unidad 8

REGRESIÓN LINEAL Y ANÁLISIS DE VARIANZA

8.1 El modelo de Regresión Lineal es estimado usando el Método de los Mínimos Cuadrados

un procedimiento para estimar los parámetros de cualquier modelo lineal es el método de los mínimos cuadrados, que se puede ilustrar sencillamente aplicándolo para ajustar una línea recta a través de un conjunto de puntos que representan los datos. Supóngase que se desea ajustar el modelo

E(Y) = 0 + 1 x

Al conjunto de datos mostrados en la siguiente figura

Figura: Ajuste de una línea recta a través de un conjunto de puntos

(Nótese que la variable independiente x podría ser w2 o bien (w)1/2 o aún ln w, y así sucesivamente, para alguna otra variable independiente w).

Es decir se postula que Y = 0 + 1x + en donde es una v.a. Si 0 y 1 son estimadores de los parámetros 0 y 1, entonces Ŷ = 0 + 1x es obviamente un estimador de E(Y).

Page 90: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

El procedimiento de los mínimos cuadrados para ajustar una recta a través de un conjunto de n puntos es similar al método de que podríamos utilizar para ajustar una recta a simple vista; es decir, se pretende que las desviaciones sean “pequeñas” en cierto sentido. Una manera conveniente de lograr esto, es minimizar la suma de los cuadrados de las desviaciones verticales de la recta ajustada, por lo tanto si

ŷ = 0 + 1x

es el valor que se predice del i-ésimo valor de y (cuando x = xi), entonces la desviación del valor observado de y a partir de la recta ŷ (llamada a veces el error) es

yi – ŷi

y la suma de los cuadrados de las desviaciones que deben minimizar es

SCE = (yi – ŷi)2 = [yi – ( 0 + 1x)]2

La cantidad SCE se llama suma de los cuadrados de los errores por motivos que serán obvios en seguida.

Si se tiene un mínimo este ocurrirá para los valores de 0 y 1 que satisfagan las ecuaciones,

SCE / 0 = 0 Ecuaciones de SCE / 1 = 0 Mínimos Cuadrados

Al obtener los valores de las derivadas parciales de SCE con respecto a 0 y 1,respectivamente, y al igualarlas a cero, se obtienen las ecuaciones

SCE / 0 = - 2 ( yi - n 0 - 1 xi) = 0

SCE / 1 = - 2 ( xi yi - 0 xi - 1 xi2) = 0

nótese que las ecuaciones de mínimos cuadrados son lineales en 0 y 1, y por lo tanto se pueden resolver simultáneamente. Puede verificarse que las soluciones son

Además se puede demostrar que la resolución simultánea de las dos ecuaciones de los mínimos cuadrados produce valores de 0 y 1 que minimizan SCE.

Page 91: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Ejemplo

Aplicar el método de los mínimos cuadrados para ajustar una línea recta a través de los n=5 datos contenidos en la siguiente tabla:

x y-2 0-1 00 11 12 3

Solución Empezaremos por construir la tabla para calcular los coeficientes de las ecuaciones de los mínimos cuadrados. Entonces se tiene:

xi yi xi yi xi2

-2 0 0 4-1 0 0 10 1 0 01 1 1 12 3 6 4

xi= 0 yi = 5 xi yi = 7 xi2 = 10

De esta obtenemos los estimadores de 0 y 1

y la recta ajustada es

ŷ = 1 + 0.7 x y

se muestran los cinco puntos y la recta ajustada en la siguiente figura

Figura: representación de los puntos y la recta de los mínimos cuadrados para el ejemplo.

Page 92: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

8.2 La distribución del error del modelo

Como lo habíamos notado en el anterior tema, en el modelo de regresión lineal cuando este es estimado por medio del método de los mínimos cuadrados, observamos una diferencia entre el valor observado de y, y el valor obtenido por medio del modelo construido (el que se predice), es decir

= Error = yi – ŷi

Esta diferencia es denominada el error del modelo y se lo denota por .

Estudiemos ahora las propiedades de este error en el muestreo repetitivo.Primero obsérvese que tanto Y como Ŷ son variables aleatorias distribuidas normalmente y que el error es función lineal de Y y Ŷ. Entonces concluimos que el error tiene una distribución normal porque es una función lineal de variables aleatorias distribuidas normalmente.

Al aplicar fórmulas para encontrar el valor esperado y la varianza de una función lineal de variables aleatorias, obtenemos

E() = E(Y - Ŷ) = E(Y) – E(Ŷ)

Como E(Y) = E(Ŷ),

E() = 0.

También,

V() = V(Y - Ŷ) = V(Y ) + V(Ŷ) – 2 Cov(Y, Ŷ)

Como se predice un valor futuro, Y, que no se utilizó en el cálculo de Ŷ, sigue que Y y Ŷ son independientes y por lo tanto que la covarianza de Y y Ŷ es igual a cero.

Page 93: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Entonces

V() = V(Y ) + V(Ŷ)

Por lo tanto el error tiene una distribución de probabilidad normal con media cero y varianza σ2

8.3 Tabla de Análisis de Varianza e Inferencias relativas al Modelo

Los métodos que se presentaron en el tema anterior se pueden adaptar para aplicar el Análisis de Varianza. Ilustraremos el método estableciendo un modelo lineal para los datos que se obtuvieron mediante un diseño completamente aleatorio con k = 2 tratamientos.

Sea Yij la variable aleatoria obtenida en la j-ésima observación del i-ésimo tratamiento, i = 1, 2. Definamos una variable ficticia, o indicadora de x de la manera siguiente:

X = ⌠1, si i = 2 0, si no

Obsérvese que x es cero si se toma la observación de la población 1 y que x es 1 si se toma la observación de la población 2. Si utilizamos x como una variable independiente en un modelo lineal, puede utilizarse el modelo de Yij como

Yij = 0 + 1 x + ij

En donde ij es un error aleatorio con distribución normal con E(ij) = 0, y V(ij) = . En este modelo

μ1 = E(Y1 j) = 0

μ2 = E(Y2 j) = 0 + 1

Por lo tanto 1 = μ1 + μ2 y una prueba de la hipótesis μ2 - μ1 = 0 es equivalente a la prueba de que 1 = 0. Por intuición se indica que 0 = 1 y 1 = 2 - 1 son estimadores adecuados de 0 y 1. Se puede demostrar que realmente estos son los estimadores por mínimos cuadrados que se obtienen ajustando el modelo lineal formulado antes.

Ejemplo

En la tabla siguiente se dan los valores codificados de la medición de elasticidad de un plástico, producido mediante dos procesos diferentes, para muestras

Page 94: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

A B6.1 9.17.1 8.27.8 8.66.9 6.97.6 7.58.2 7.9

De tamaño seis extraídas aleatoriamente de cada uno de los dos procesos. ¿Presentan los datos evidencia suficiente para indicar una diferencia en la elasticidad media de los procesos?

Solución Aunque en este ejercicio se podría utilizar la t de Student como el estadístico de la prueba, aplicaremos la prueba F del análisis de varianza, ya que es más general y se la puede utilizar para comparar más de dos medias.

Las tres sumas de cuadrados de las desviaciones deseadas son

Puede comprobarse que la SCE es la suma ponderada de los cuadrados de las desviaciones para las dos muestras. También obsérvese que SC Total = SCT + SCE. Los cuadrados medios para el tratamiento y el error son, respectivamente

CMT = SCT / 1 = 1.6875

CME = SCE / (2n1 – 2) = 5.8617 / 10 = 5.8617

Para probar la hipótesis nula μ1 = μ2, se calcula el estadístico de prueba

F = CMT / CME = 1.6875 / 0.58617 = 2.88

El valor crítico del estadístico F para α = 0.05 es 4.96. Aunque el cuadrado medio de los tratamientos es casi tres veces mayor que el cuadrado medio del error, no es suficientemente grande para rechazar la hipótesis nula. Por consiguiente, al nivel de

Page 95: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

significancia α = 0.05 no hay suficiente evidencia estadística que indique una diferencia entre μ1 y μ2. El nivel de significancia obtenido se indica mediante el valor p = P(F > 2.88) que según la tabla para la v.a. F, es tal que p > 0.10.

Observación

El propósito de este ejemplo era explicar los cálculos implicados en un análisis de varianza sencillo. La prueba F para comparar dos medias es equivalente a la prueba t de student, porque un estadístico F con un grado de libertad en el numerador es igual a t2. Puede verificarse fácilmente que el cuadrado de t0.025 = 2.228 (que se utilizaría como una prueba de dos colas con α = 0.05 y v = 10 grados de libertad) es igual a F0.05 = 4.96. Si se hubiere utilizado la prueba t para el ejemplo anterior, habríamos obtenido t = -1.6967, que satisface la relación t2 =(-1.6967)2 = 2.88 = F.

8.4 Coeficientes de Correlación y Determinación

Los modelos estudiados en las secciones anteriores son útiles en dos situaciones prácticas muy diferentes:

Primera: el investigador puede controlar completamente la variable x, podría variar de un experimento a otro, pero se encuentra prácticamente en un completo control del investigador. El modelo lineal

Y = 0 + 1 x +

Implica que

E(Y) = 0 + 1 x

Segunda: la variable x puede ser un valor observado de una v.a. X. Si se pudiera establecer una relación funcional, entonces se podría predecir a futuro el valor de la v.a. dependiente. Para esta situación utilizamos el modelo

Y = 0 + 1 x +

Lo que implica que

E(Y | X = x) = 0 + 1 x

Es decir, suponemos que la esperanza condicional de Y para un valor fijo de X es una función lineal del valor de x. En general, suponemos que el vector variables aleatorio, (X, Y), tiene distribución normal bivariable, en tal caso se puede demostrar que

E(Y | X = x) = 0 + 1 x

Page 96: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

La teoría estadística para hacer inferencias acerca de los parámetros 0 y 1 es exactamente la misma para ambos casos, pero deben recordarse siempre las diferencias en la interpretación del modelo.

Para el caso (X, Y) el investigador puede estar interesado únicamente en saber si X y Y son v.a. independientes. Si (X, Y) tiene una distribución normal bivariable, entonces la prueba de la independencia equivale a probar que el coeficiente de correlación ρ es igual a cero. Recuérdese que ρ es positivo si X y Y tienden a aumentar y que ρ es negativo si Y decrece cuando X crece.

Sea (X1, Y1), (X2, Y2),..., (Xn, Yn) una muestra aleatoria de una población normal bivariada. El estimador de máxima verosimilitud de ρ está dado por el coeficiente de correlación muestral

o bien, una expresión equivalente

Nótese que el numerador de r es exactamente igual al numerador del estimador de 1, como ambos denominadores de r y 1 son no negativos, se sigue que r y 0 tienen el mismo signo.

Parecería lógico utilizar r como un estadístico de prueba para probar hipótesis acerca de π, pero se presentan dificultades ya que es difícil obtener la distribución para r. Se puede superar este problema en muestras bastantes grandes al utilizar el hecho de que (1/2) ln[(1 + r) / (1 – r)] tiene aproximadamente una distribución normal con media (1/2) ln[(1 + ρ) / (1 – ρ)] y varianza 1 / (n – 3). Por lo tanto para probar la hipótesis H0: ρ = ρ0, podemos utilizar una prueba z en la cual

La forma de la región de rechazo depende de la hipótesis alternativa, si α es la probabilidad deseada de un error tipo I. Las diferentes alternativas de mayor interés y las regiones de rechazo correspondientes son

H1: ρ > ρ0. RR: z > zα.

Page 97: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

H1: ρ < ρ0. RR: z < zα.H1: ρ ≠ ρ0. RR: | z | > zα/2.

El Coeficiente de Determinación R2 se define como

Además el coeficiente de determinación R2 se lo puede obtener de la siguiente manera

R2 = SC Regresión / SC Total

El R2 cambia con el modelo a diferencia del ρxy el cual no cambia con el modelo.

Cuando el R2 es el coeficiente de determinación del modelo y = 0 + 1xi + εi; εi ~ N(o, σ2). Tómese la raíz positiva si 1 es positivo y la raíz negativa si 1 es negativo.

En cada modelo hay un R2, ya que cambia de acuerdo al modelo.

Ejemplo

Los datos en la siguiente tabla representan una muestra de los resultados de un examen de aprovechamiento en matemáticas y de las calificaciones de cálculo para diez estudiantes seleccionados independientemente, de primer año. Con esta evidencia, ¿se concluiría que los resultados del examen de aprovechamiento en matemáticas y las calificaciones de cálculo son independientes? Utilice α = 0.05. obtener el correspondiente nivel de significación alcanzado.

Estudiante Resultado de la prueba de aprovechamiento

de matemáticas

Calificación final de cálculo

1 39 652 43 783 21 524 64 825 57 926 47 897 28 738 75 989 34 5610 52 75

Solución

Al denotar por x los resultados del examen de aprovechamiento y por y las calificaciones de cálculo, tenemos que

Page 98: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

xi = 460 yi = 760

xi2 = 23.637 yi

2 = 59.816

xi yi = 36.854

Así

proponemos como hipótesis nula que X y Y son independientes, o bien, al suponer que (X, Y) tiene una distribución normal bivariable, probamos H0: ρ = 0 frente a H1: ρ ≠ 0. El valor del estadístico de la prueba es

Ya que zα/2 = z .025 = 1.96, el valor observado del estadístico de la prueba cae en la región de rechazo, por lo tanto, los datos sugieren firmemente que los resultados del examen de aprovechamiento y las calificaciones de cálculo son dependientes. Nótese que α = 0.05 es la probabilidad de que nuestro estadístico de prueba caiga en la región de rechazo cuando es verdadera H0. Por lo tanto, se confía bastante en que hemos tomado una decisión correcta.

Como se aplica una prueba de dos colas, el valor p = 2 P(Z > 3.231). De los valores obtenidos de la tabla de probabilidades de la normal, sigue que P(Z > 3.231) < P(Z > 3.00) = 0.001. Por lo tanto, el valor p < 2 (0.001) = 0.002 y para cualquier valor de α mayor que 0.002 (lo que incluye α = 0.05, como se utilizó al inicio de este análisis) concluiremos que π ≠ 0.

Coeficiente de correlación

El coeficiente de correlación lineal de la población, ρ, se relaciona con la covarianza y se define como

ρ = Cov(X1, X2) / σ1 σ2

donde σ1 y σ2 son las desviaciones estándar de X1 y X2 respectivamente.

Page 99: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Coeficiente de Determinación R2 se define como

8.5 Potencia de Explicación del Modelo

La potencia de explicación del modelo se la simboliza como R2*100%

Si Y = X b; (b es el vector de los estimadores de los β’s)

Entonces b = (XT X) –1 XT Y

Se puede probar que 1. SC Total = yT y – n 2

2. SC Reg = bT XT y – n 2

3. SC Error = yT y – bT XT y

yT y = y12 + y2

2 + ... + yn2

eT e = (y1 – 1)2 + ... + (yn – n)2

Existe la matriz de Varianzas y Covarianzas de los estimadores

Σ = [cov(bi, bj)]; i, j = 1, ..., p-1

(Donde p representa el número de parámetros β que se deben estimar)

Σ = MC Error (XT X)-1

En la tabla ANOVA se tiene que F = MC Reg / MC Error ~ Fα (p-1, n-p)

H0: β1 = β2 = ... = βp-1 = 0 vs H1: ┐H0

Con (1 – α) 100% de confianza rechace Ho a favor de H1 si

F > Fα (p-1, n-p)

Para determinar cual de los βi no es cero, se realizan intervalos de confianza de la siguiente manera

Page 100: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

bk – Sbk t α/2 ≤ βk ≤ bk + Sbk t α/2 (un intervalo de confianza de (1 – β)100% de confianza para βk)

Para contraste de hipótesis

H0: βk = 0 vs H1: ┐H0

Rechazar H0 en favor de H1 si | bk – Sbk | > t α/2 (n – p)

8.6 Modelos Lineales para Regresión Múltiple y Polinómica

Si el modelo de regresión lineal expresa a E(Y) como una función lineal de y solamente entonces el modelo se denomina modelo de regresión lineal simple. Si hay más de una variable independiente de interés, digamos x1, x2,..., xk, y si el modelo es de E(Y) es

E(Y) = β0 + β1 x1 +...+ βk xk

El modelo se conoce como modelo lineal de regresión múltiple. Ya que se consideran como constantes conocidas, supuestamente son medidas sin error en un experimento. Por ejemplo, si se considera que la producción y es una función de la v.a. T, la temperatura de un proceso químico, podría suponerse x1 = T y x2 = eT y como modelo E(Y) = β0 + β1 T +...+ βk eT.

O bien, si y es una función de dos variables x1 y x2, pudiese elegirse una aproximación mediante un plano a la respuesta media real, aplicando el modelo lineal E(Y) = β0 + β1

x1 + β2 x2. Por lo tanto, E(Y) es una función lineal de β0, β1 y β2 que representa un plano en el espacio y, x1, x2. De manera similar,

E(Y) = β0 + β1 x + β2 x2

Es un modelo estadístico lineal, en donde E(Y) es una función polinomial de segundo grado de la variable independiente x, con x1 = x y x2 = x2. Este modelo sería apropiado para una respuesta que traza el segmento de una parábola en la región de experimentación.

El modelo estadístico lineal que relaciona una respuesta aleatoria Y con un conjunto de variables independientes x1, x2,..., xk tiene la forma

Y = β0 + β1 x1 +...+ βk xk + ε

En donde β0, β1,..., βk son parámetros desconocidos, ε es una v.a. y x1, x2,..., xk son constantes conocidas. Supondremos que E(ε) = 0 y por lo tanto que

E(Y) = β0 + β1 x1 +...+ βk xk

Page 101: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Obsérvese la interpretación física del modelo lineal Y. Decimos que Y es igual a un valor esperado, β0 + β1 x1 +...+ βk xk (una función de las variables independientes x1, x2,..., xk), más un error aleatorio ε. Desde un punto de vista práctico, ε, traduce nuestra incapacidad de tener un modelo exacto de la realidad. En una experimentación repetida Y fluctúa alrededor de E(Y) en una manera aleatoria porque no hemos podido incluir en nuestro modelo toda la gran cantidad de variables que afectan a Y. Afortunadamente, el efecto neto de estas variables indeterminadas, y que la mayoría de las veces son desconocidas, hacen que Y varíe de manera que puede calcularse adecuadamente mediante la suposición de un comportamiento aleatorio.

8.7 Análisis de Varianza

El procedimiento del Análisis de Varianza trata de analizar la variación de una respuesta y de asignar porciones (componentes) de esta variación a cada una de las variables de un conjunto de variables independientes desconocidas.

El objetivo del análisis de varianza es identificar variables independientes importantes en un estudio y determinar como interactúan y afectan a la respuesta.

Se recordará que la variabilidad de un conjunto de n mediciones es proporcional a la

suma de los cuadrados de las desviaciones (yi – i)2, y que esta cantidad se utiliza para calcular la varianza de la muestra. El análisis de varianza divide la suma de los cuadrados de las desviaciones llamadas suma total de los cuadrados de las desviaciones, en partes, cada una de las cuales se atribuye a una de las variables independientes en el experimento, más un residuo que se asocia con el error aleatorio.

Si se utiliza un modelo lineal multivariado para la respuesta como el sugerido en el tema anterior, la porción de la suma total de los cuadrados de las desviaciones asignadas al error se designaría como SCE.

Se puede detectar cuando una variable está muy relacionada con la respuesta, comparándola estimación de 2 de una variable independiente particular, con la estimación obtenida a partir de SCE aplicando una prueba F. Si la estimación para la variable independiente es significativamente mayor, la prueba F rechazará la hipótesis de que la variable independiente no tiene efecto y generará evidencia que indique una relación con la respuesta.

Tabla de análisis de varianza para un diseño completamente aleatorizado

La siguiente es la tabla de análisis de varianza

Fuente g.l. SC CM F

Page 102: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Tratamientos k – 1 SCT CMT CMT / CMEError n – k SCE CMETotal n - 1 SC Total

g.l. representan los grados de libertad;k es el número de tratamientos;n es el número de observaciones;SCT es la suma cuadrática del tratamiento y está dada por

SCE es la suma cuadrática del error, la cual está dada por

SC Total es la suma cuadrática del total, está dada por

CMT es la división entre la SC Tratamiento para sus grados de libertad (SCT / k-1);CME es la división de la SCE para sus grados de libertad (SCE / n-k);Por último se obtiene el estadístico F que es la división entre CMT y CME, los grados de libertad son en el numerador los g.l. de la SCT y en el denominador los g.l. de la SCE.

Ejemplo

En la tabla siguiente se dan los valores codificados de la medición de elasticidad de un plástico, producido mediante dos procesos diferentes,

A B6.1 9.17.1 8.27.8 8.66.9 6.97.6 7.58.2 7.9

para muestras de tamaño seis extraídas aleatoriamente de cada uno de los dos procesos. ¿Presentan los datos evidencia suficiente para indicar una diferencia en la elasticidad media de los procesos?

Solución Aunque en este ejercicio se podría utilizar la t de Student como el estadístico de la prueba, aplicaremos la prueba F del análisis de varianza, ya que es más general y se la puede utilizar para comparar más de dos medias.

Las tres sumas de cuadrados de las desviaciones deseadas son

Page 103: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Puede comprobarse que la SCE es la suma ponderada de los cuadrados de las desviaciones para las dos muestras. También obsérvese que SC Total = SCT + SCE. Los cuadrados medios para el tratamiento y el error son, respectivamente

CMT = SCT / 1 = 1.6875

CME = SCE / (2n1 – 2) = 5.8617 / 10 = .58617

Para probar la hipótesis nula μ1 = μ2, se calcula el estadístico de prueba

F = CMT / CME = 1.6875 / 0.58617 = 2.88

El valor crítico del estadístico F para α = 0.05 es 4.96. Aunque el cuadrado medio de los tratamientos es casi tres veces mayor que el cuadrado medio del error, no es suficientemente grande para rechazar la hipótesis nula. Por consiguiente, al nivel de significancia α = 0.05 no hay suficiente evidencia estadística que indique una diferencia entre μ1 y μ2. El nivel de significancia obtenido se indica mediante el valor p = P(F > 2.88) que según la tabla para la v.a. F, es tal que p > 0.10.

Observación

El propósito de este ejemplo era explicar los cálculos implicados en un análisis de varianza sencillo. La prueba F para comparar dos medias es equivalente a la prueba t de student, porque un estadístico F con un grado de libertad en el numerador es igual a t2. Puede verificarse fácilmente que el cuadrado de t0.025 = 2.228 (que se utilizaría como una prueba de dos colas con α = 0.05 y v = 10 grados de libertad) es igual a F0.05 = 4.96. Si se hubiere utilizado la prueba t para el ejemplo anterior, habríamos obtenido t = -1.6967, que satisface la relación t2 =(-1.6967)2 = 2.88 = F.

8.7.1 Modelos que involucran variables cuantitativas

Los modelos que involucran variables cuntitativas son los que se han estado analizando a lo largo de la unidad, es decir, estos modelos no se pueden analizar cuando se tiene el

Page 104: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

tipo de variable cualitativa, para el cual existe otro tipo de investigación, el cual no es objeto de estudio en este curso.

Todos los ejemplos que se encuentran en la presente unidad pertenecen a estos tipos de modelos.

8.7.2 Modelos para un diseño Experimental de dos factores

Los modelos para un diseño bifactorial o de dos factores es el mismo que se estudió en la unidad 7 tema 6, y en la unidad 8 tema 4. En ambos casos se presentan ejemplos ilustrativos que ayudarán a entender mejor la aplicación de estos modelos.

8.7.3 Principios de Confiabilidad

Si Y denota la duración de un componente y F(y) es la función de distribución de Y, entonces a P(Y > y) = 1 – F(y) se le denomina la Confiabilidad del componente.

Ejemplo

Supongamos que un sistema consta de cuatro componentes con funciones de confiabilidad idénticas, 1 – F(y), que funcionan como se indica en el siguiente diagrama

Figura: Diagrama de componentes

El sistema funciona cuando opera una cadena intacta de componentes entre A y B. Si los cuatro componentes funcionan independientemente, encuentre la confiabilidad del sistema, en términos de F(y).

SoluciónObservando el diagrama podemos ver que para que el sistema funcione deben trabajar a la vez C1 y C2 y C3 ó C1 y C2 y C4 dado que no funciona C3, lo que equivale a:

Cs = P(funcione C1 ) * P(funcione C2 ) * P(funcione C3) + [P(funcione C1 ) * P(funcione C2 ) * P(funcione C4)] * [P(no funcione C3)]

Cs = (1 – F(y)) * (1 – F(y)) * (1 – F(y)) + [(1 – F(y)) * (1 – F(y)) * (1 – F(y))] * [1 - (1 – F(y))]

= [(1 – F(y))]3 + [(1 – F(y))]3 * [1 – 1 + F(y)]= [1 – F(y)]3 + (1 – F(y))3 F(y)= [1 – F(y)]3 [1 + F(y)]

Page 105: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

Unidad 9

CONTROL ESTADÍSTICO DE PROCESOS

9.1 Diseños Experimentales para el Mejoramiento en la Calidad de un Producto

Para iniciar este tema diremos que calidad, es la aptitud que tiene un producto (bien o servicio) para satisfacer las necesidades para lo que fue creado.

Los objetos sobre los cuales se hacen las mediciones se denominan unidades experimentales.

Las variables experimentales independientes se denominan factores.

Un factor cuantitativo es un factor que puede tomar valores correspondientes a los puntos de una recta real. Los factores que no son cuantitativos se denominan cualitativos.

Al grado de intensidad de un factor se le llama nivel.

Un tratamiento es una combinación específica de un factor o de factores.

Pasos para aplicar un diseño de experimentos

1. Se seleccionan los factores que deben incluirse en el experimento y se especifica el (los) parámetro (s) poblacional (es) de interés.

2. Se decide cuanta información conviene utilizar acerca de el (los) parámetro (s) de interés. (Por ejemplo, ¿con que exactitud se desea estimar los parámetros?)

3. Se seleccionan los tratamientos [combinación de niveles de factor(es) que deben utilizarse en el experimento y se decide el número de unidades experimentales que deben asignarse a cada uno.

4. Se decide como deben aplicarse los tratamientos a las unidades experimentales.

Un diseño aleatorizado de bloques que contiene b bloques y p tratamientos, consiste en b bloques de p unidades experimentales cada uno. Se asignan aleatoriamente los

Page 106: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

tratamientos a las unidades en cada bloque, y cada tratamiento aparece exactamente una sola vez en cada bloque.

En la unidad 8 tema 3 encontramos un ejemplo que demuestra la aplicación del tema.

9.2 Cartas de Control de Calidad

Iniciaremos el tema señalando que calidad es el conjunto de características y aditamentos que le da a un bien (producto o servicio) la capacidad cumplir con los fines para lo que fue creado.

El control estadístico de procesos se refiere a la aplicación de los métodos del control estadístico de calidad a la vigilancia de procesos.

Especificación es la determinación de los parámetros sobre los cuales se manejará el proceso. Estos pueden determinarse desde el diseño mismo del producto o mediante la observación de resultados muestrales a lo largo de un periodo durante el cual se considera al proceso que está bajo control (condiciones estables).

Existen dos tipos de causas de variación en un proceso. Las causas comunes de variación se deben a factores inherentes al diseño del sistema, y reflejan el monto usual de variación por esperar. Las causas especiales o atribuibles de variación se deben a factores inusuales que no forman parte ni del diseño del proceso ni del proceso mismo.

Un proceso estable es aquel donde solo causas comunes de variación afectan a la calidad de la producción. Cuando un proceso no es estable, la mejora puede alcanzarse identificando y corrigiendo las causas especiales.

Los límites de control son los valores máximo y mínimo que se considera son los límites dentro de los cuales el proceso se encuentra estable.

Una gráfica de Control es un diagrama de series de tiempo que incluye los límites de control inferior y superior que identifican el rango de variación susceptible de adjudicarse a causas comunes.

Figura: Zonas para una gráfica de carta de control

Page 107: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

LC (línea central) equivale al valor medio de los datos obtenidos μLCS (límite de control superior) es el valor obtenido de μ + 3σLCI (límite de control inferior) es el valor obtenido de μ - 3σ

Recordemos que: P (μ - 3σ ≤ x ≤ μ + 3σ ) = 0.99 P (μ - 2σ ≤ x ≤ μ + 2σ ) = 0.95 P (μ + σ ≤ x ≤ μ + σ ) = 0.68

Al realizar el contraste de hipótesis en el proceso, aparecen las siguientes hipótesis: hipótesis nula, es que el proceso está estable y que solamente existen causas comunes de variación. La hipótesis alterna, es que el proceso incluye variaciones por causas especiales. El resultado del control estadístico de procesos se presenta en la siguiente tabla

Decisión

Condición del ProcesoH0 cierta: Estable H0 falsa: Inestable

Continuación del proceso Decisión correcta Error tipo II: Permitir la continuación de un proceso inestable.

Ajuste del proceso Error tipo I: Ajuste de un proceso estable

Decisión correcta

Cuando el proceso está fuera de control?Existen ocho pruebas para detectar la variación por causas especiales.

Prueba 1: un punto fuera de la zona A

Prueba 2: Nueve puntos seguidos al mismo lado de la línea central

Prueba 3: Seis puntos seguidos crecientes o decrecientes

Prueba 4: Catorce puntos seguidos en alternancia arriba y abajo

Prueba 5: Dos de tres puntos en la zona A o más allá (a uno de los lados de la línea central)

Prueba 6: Cuatro de cinco puntos seguidos en la zona B o más allá (a uno de los lados ...)

Prueba 7: Quince puntos seguidos en la zona C (a ambos lados de la línea central)

Prueba 8: Ocho puntos seguidos más allá de las zonas C (a ambos lados de la línea central)

Page 108: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

En la siguiente tabla se muestra un resumen las fórmulas para las cartas de control más usuales

Carta Distribución supuesta

Línea central

Línea superior Línea inferior

Normal + A2 - A2 R Normal D4 D3 p Binomial + 3 - 3 c Poisson + 3 - 3

Como podemos ver existen cartas de control para la media , para el rango R, la proporción p, y para la cantidad c.

es el promedio de las medias obtenidas de los valores observados

A2, D3 y D4 son valore obtenidos de la tabla de factores para gráficas de control para ajustar los valores obtenidos en la formación de los límites de control.

Ejemplo

En la tabla siguiente se presentan los pesos, en onzas, de una secuencia de 15 muestras de subgrupos racionales de papas fritas, con n = 4 para cada muestra. Se reportan asimismo las medias, desviaciones estándar y rangos muestrales. Supongamos las especificaciones de empaque establecen un peso medio por paquete de μ = 15.0 oz. y una desviación estándar de σ = 0.1 oz. Con base en estos valores paramétricos, determine

a) la línea central y los límites de control inferior

y superior de la gráfica

.

 Muestra No. Pesos de paquetes (oz)    s R 

1 15,01 14,98 15,16 14,8 14,99 0,148 0,362 15,09 15,14 15,08 15,03 15,09 0,045 0,113 15,04 15,1 14,93 15,13 15,05 0,088 0,204 14,9 15,03 14,94 14,92 14,95 0,057 0,135 15,04 15,05 15,08 14,98 15,04 0,042 0,106 14,96 14,081 14,96 14,91 14,73 0,432 0,887 15,01 15,1 14,9 15,03 15,01 0,083 0,208 14,71 14,92 14,77 14,95 14,84 0,116 0,249 14,81 14,8 14,64 14,95 14,80 0,127 0,3110 15,03 14,89 14,99 15,03 14,99 0,066 0,1411 15,16 14,91 14,95 14,83 14,96 0,141 0,3312 14,92 15,05 15,01 15,02 15,00 0,056 0,1313 15,06 15,03 14,95 15,02 15,02 0,047 0,1114 14,99 15,14 15,04 15,11 15,07 0,068 0,1515 14,94 15,08 14,9 15,17 15,02 0,125 0,27

Page 109: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

b) Elabore la gráfica de la carta de control para c) Se sale de control el proceso?. Si así fuese, Que prueba incumple?d) Suponga que no se tienen las especificaciones, cuales serían las límites superior,

inferior y la línea central?

Solución

a.- dado que tenemos las especificaciones del producto entonces obtenemos los límites de control por medio de ellos

línea central = μ = 15.0 oz.Límite superior = μ + 3 σ /√n = 15.0 + 3 * 0.1 / √4 =15.15 oz.Límite inferior = μ - 3 σ /√n = 15.0 - 3 * 0.1 / √4 =14.85 oz.

b.- Figura: carta de control para la media

c.- como podemos observar en el gráfico, el procesos se sale de control en las muestras # 8 y # 9.

1. Los puntos 8 y 9 rebasan los límites de control (prueba 1)2. Dos de tres puntos caen en la zona A o más allá (prueba 5)

d.- Si no tuviésemos las especificaciones se deberán calcular los valores utilizando las fórmulas de la tabla para cartas de control más comunes.

Línea central = = ∑ / k= 224.72 / 15 = 14.98= ∑ s / k = 1.28 / 15 = 0.08551

Límite Superior = + 3 ( / C4 √n) = 14.98 + 0.14= 15.12.Límite Inferior = - 3 ( / C4 √n) = 14.98 - 0.14 = 14.84

Page 110: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

9.3 Muestreo de Aceptación

En este tema analizaremos el muestreo de aceptación el cual nos dará un apoyo al momento de tomar una decisión sobre la aceptación o rechazo de un lote enviado por el proveedor, dentro de este estudio el ítem que se inspecciona se calificará como conforme o no conforme.

Dentro de las ventajas del muestreo de aceptación tenemos las siguientes:1. Si la inspección es destructiva, no es factible revisar el 100% de los ítem.2. El muestreo es más económico (en tiempo y dinero), además evita el daño por

manipulación.3. El muestreo reduce los errores de inspección por fatiga del inspector.4. El muestreo obliga al proveedor a mejorar su producción ya que el lote entero

puede ser rechazado.

las desventajas del muestreo de aceptación tenemos las siguientes:1. Existe el riesgo de aceptar un lote malo o rechazar un lote bueno (riesgo del

Productor).2. Se obtiene menos información del producto que al analizar todo el lote.3. La selección y adopción de un plan de muestreo requiere mas tiempo y esfuerzo

en planificar y documentar.

En el muestreo de aceptación existen dos riesgos: El riesgo del productor, es el error cometido al rechazar un lote bueno El riesgo del consumidor, es el error cometido al aceptar un lote malo

El nivel aceptable de calidad (AQL) está asociado con el riesgo del productor e indica el porcentaje mínimo de ítem no conformes que puede haber en un lote para que este pueda ser considerado como bueno.

El nivel límite de calidad (LQL) esta es la definición numérica de un lote pobre, asociado con el riesgo del consumidor.

La

curva característica de operación (OC) estudiada en la unidad de contraste de hipótesis vuelve a ser objeto de estudio, la construimos obteniendo la probabilidad de

Figura: Efecto del tamaño de muestra en la curva OC, (a) si se modifica el tamaño de muestra, (b) modifica el número de aceptación

Page 111: Tesis (part 2) · Web viewSi se promediara la totalidad de las 16 medias muestrales obtenidas de las 16 posibles muestras (Nn = 42 = 16), si se realizara muestreo con reposición,

aceptar un lote dado una proporción de no conformidades. Para este objeto utilizaremos la v.a. Hipergeométrica, cuando se desea analizar lotes de mayor tamaño se utiliza la v.a. Poisson

Tipos de planes de muestreo de aceptación

Plan simple de muestreo: la información obtenida de una muestra es usada para tomar una decisión para aceptar o rechazar el lote. Los parámetros son n tamaño de muestra y c número de aceptación.

Se selecciona una muestra de tamaño n y el número de ítem defectuosos o no conformes se compara con c. Si el número de defectuosos es menor o igual a c entonces el lote es aceptado, en caso contrario el lote es rechazado.

Plan doble de muestre: en este plan se requieren de los siguientes parámetros: Tamaño de la primera muestra (n1) Número de aceptación para la primera muestra (c1) Número de rechazo para la primera muestra (r1) Tamaño de la primera muestra (n2) Número de aceptación para la primera muestra (c2) Número de rechazo para la primera muestra(r2)

Se selecciona una muestra de tamaño n1 y se detectan el número de defectuosos en el lote, si denotamos el número de defectuosos por d1, entonces decidimos:Si d1 ≤ c1 => acepta el loteSi d1 > r1 => rechace el loteSi r1 < d1 < c1 => tome una nueva muestra

Al momento de tomar la nueva muestra se determinan n2, c2, r2 con una condicionante que r2 = c2 + 1, y la prueba queda de la siguiente manera:Si d1 + d2 ≤ c2 => acepta el loteSi d1 + d2 > r2 => rechace el lote

Cuando d2 es el número de defectuosos en el segundo grupo muestreado.

Por ejemplo si se tiene una población de tamaño N = 5000, se realiza un plan de muestreo doble con los siguientes parámetros:

n1 = 40 n2 = 60c1 = 1 c2 = 5r1 = 4 r2 = 6

Plan múltiple de muestreo: en este tipo de plan de muestreo se procede de la misma manera que en el doble, incrementándose el número de parámetros de acuerdo a las etapas que se deseen realizar.