Pruebas de Bondad de Ajuste

Natasha Becerra Ruiz A01133011Angelines Redondo Venta A00793499Ulises Lzaro Gonzlez A01095660

Prueba de Bondad de ajusteUna hiptesis estadstica se defini como una afirmacin o conjetura acerca de la distribucin f(x,q) de una o ms variables aleatorias. Se plante que la distribucin poda tener uno o ms parmetros desconocidos, que denotamos por q y que la hiptesis se relaciona con este parmetro o conjunto de parmetros. En otros casos, se desconoce por completo la forma de la distribucin y la hiptesis entonces se relaciona con una distribucin especfica f(x,q) que podamos asignarle al conjunto de datos de la muestra. Las pruebas estadsticas que veremos reciben el nombre general de "Pruebas de Bondad de Ajuste". Dos pruebas bsicas que pueden aplicarse son la prueba Chi - Cuadrado y la prueba de Smirnov-Kolmogorov. Miden el grado de ajuste que existe entre la distribucin obtenida a partir de la muestra y la distribucin terica que se supone debe seguir esa muestra. Estn basadas en la hiptesis nula de que no hay diferencias significativas entre la distribucin muestral y la terica:H0: f(x,q) = f0(x,q) H1: f(x,q) f0(x,q)f0(x,q) es la distribucin que se supone sigue la muestra aleatoria. Si se desea examinar otra distribucin especfica, deber realizarse de nuevo la otra prueba suponiendo que la hiptesis nula es esta nueva distribucin. Al especificar la hiptesis nula, el conjunto de parmetros definidos por q puede ser conocido o desconocido. Si son desconocidos, es necesario estimarlos.Prueba Chi Cuadrado (ji dos)Se usa cuando se quiere probar la hiptesis de que unos datos muestrales provienen de una determinada distribucin. Se quiere determinar si las frecuencias observadas en la muestra estn lo suficientemente cerca de las frecuencias esperadas bajo la hiptesis nula.Es necesario distribuir las observaciones de la muestra en intervalos de clase. El estadstico de prueba est definido como:

donde: Oi = Total de valores que caen en el intervalo i. Ei = Nmero esperado de valores en el intervalo i.k = Nmero de intervalos de clase en que se distribuyen las observaciones.Si los lmites del intervalo de clase i estn dados por Xi-1 y Xi el nmero esperado de observaciones para ese intervalo est dado por: Ei =nPi donde Pi representa la probabilidad de que una observacin quede en el intervalo i, de acuerdo con funcin de densidad que se est analizando, y n es el nmero total de observaciones. La probabilidad de que una observacin caiga en el intervalo i est dada por:

siendo f0(x,q) la funcin de densidad de la variable aleatoria X, bajo la hiptesis nula.Para ver que distribucin sigue el estadstico X, considere la siguiente situacin:Si el tamao de muestra es lo suficientemente grande, Y1 (que sigue una distribucin binomial) puede aproximarse por una distribucin normal con valor esperado nP1 y varianza nP1(1-P1). Por lo tanto, la variable Z definida a continuacin sigue una distribucin normal estndar, y Z una distribucin chi cuadrado con un grado de libertad. Si definimos Y2 como Y2 = n - Y1, y P2 = 1 - P1, se tiene que Z se puede desagregar de la siguiente manera:

Ahora suponga que las observaciones pueden clasificarse no en dos sino en k clasificaciones mutuamente excluyentes, y sean Yi y Pi el nmero de variables que caen en la categora i y la probabilidad respectiva. La distribucin conjunta de Y1, Y2,...,Yk tiene una distribucin multinomial con parmetros n, P1, P2,... y Pn, donde Pk = 1 - P1 - P2 -... -Pk-1. Se puede demostrar que la variable Z2 definida a continuacin sigue una distribucin chi cuadrado con k-1 grados de libertad:

Se acepta la hiptesis nula si X , donde el valor representa el valor de la distribucin chi cuadrado con k-1-p grados de libertad y un nivel de significancia de a (es el valor de distribucin chi cuadrado que tiene un rea. Prueba de Smirnov - Kolmogorov (S-K)Sea F0(x) la funcin de distribucin terica para la variable aleatoria X, y representa la probabilidad de que la variable aleatoria X tome un valor menor o igual a x (tambin se interpreta como la proporcin esperada de observaciones que tengan un valor menor o igual a x). Es decir:

Sea Sn (x) la funcin de distribucin emprica, calculada con base en los valores observados de la muestra n observaciones. Sn (x) representa la proporcin de valores observados que son menores o iguales a x, y est definida como:Sn (x) = P ( X x/ dados los resultados muestrales) = m/n, donde m es el nmero de valores observados que son menores o iguales a x.Se est interesado en la mayor desviacin entre la funcin de distribucin terica y la emprica. Bajo la hiptesis nula se espera que estas desviaciones sean pequeas y estn dentro de los lmites de errores aleatorios. Por lo tanto, en la prueba S-K se calcula la mayor desviacin existente entre F0 (x) y Sn(x), denotada por Dmax(x) y est dada por:Dmax(x) = Max | FX (x) - Sn (x) | sta es conocida y depende del nmero de observaciones n. Se acepta la hiptesis nula de que no existe diferencia significativa entre las distribuciones tericas y empricas si el valor de Dmax(x) es menor o igual que el valor crtico Dmaxp(a,n). (Ver tabla adjunta para valores crticos).

Bibliografahttp://bochica.udea.edu.co/~bcalderon/6_pruebasbondadajuste.htmlhttp://tarwi.lamolina.edu.pe/~leojeri/K-S%20Chicuadrado.htm

Pruebas de Bondad de Ajuste

Documents

Transcript of Pruebas de Bondad de Ajuste