Investigacion unidad II

Post on 13-Jul-2015

255 views 0 download

Transcript of Investigacion unidad II

Instituto tecnológico superior de la

sierra negra de Ajalpan

Ingeniería en administración

Cuarto semestre

Estadística II

Ing. José Guadalupe Rodríguez Ramos

Elizabeth Paniagua Tegchi

Unidad II Pruebas de la bondad del

ajuste y análisis de Varianza

16 de febrero de 2012

2.1Análisis Ji-Cuadrada En estadística la distribución x2(de Pearson), llamado chi-cuadrado o ji cuadrado es una distribución de probabilidad continua con un parámetro K que presenta los grados libertad de la variable aleatoria. X=Z21+…Z2k Donde Z son variables aleatorias normales independientemente de media cero y varianza uno. En realidadla distribución ji-cuadrada es la distribución muestral de s2. O sea que si se extraen todas las muestras posibles de una población normal y cada muestra se le calcula su varianza, se obtendrá la distribución muestral de varianzas. Además de aplicarse a la distribución multinominal, la prueba chi-cuadrado puede-ser empleada para determinar de qué forma distribuciones teóricas tales como la normal, de Poisson, etc., se ajustan a distribuciones empíricas, es decir, aquellas que se obtienen de los datos muéstrales Ji-cuadrado, será la estadística de prueba utilizada para la toma de decisiones de la hipótesis nula.

Por lo tanto ji-cuadrada es, como la distribución t, una familia completa de distribuciones;

hay una distribución diferente para cada valor de los grados de libertad (g.l.= n – 1).

Esta distribución está sesgada positivamente, pero a medida que aumentan los grados de libertad, la distribución se hace más simétrica y se aproxima a la normal. Por otra parte, al ser una distribución de probabilidad, el área total bajo la curva es 1. Así como en el caso de la distribución normal, que sirvió para estandarizar medias muéstrales, la distribuciónx2 cumple la misma misión para las varianzas.

2.1.1 Prueba de independencia

Cuando comparamos dos situaciones podemos esperar que sean ya bien dependientes

o independientes esto quiere decir que pueden o no estar relacionados sus datos

debido a muchos factores que pueden influir en ellos o bien, un problema no tenga

relación con otro.

La prueba de independencia trata sobre esto, ya que su objetivo es determinar si

alguna situación es afectada por otra, basándose en datos estadísticos y valores

probabilístico obtenidos de la fabulación de datos o de pronósticos por medio de

fórmulas y tablas, para esto se basa en un nivel de significancia en un caso y en el otro

a comparar, valiéndonos de tablas de contingencia para obtener frecuencias

esperadas y poder aplicarlas, para así obtener datos comparativos que son

determinantes en la decisión de independencia.

Distribución ji-cuadrada nos permite también comparar dos atributos o característicaspara

determinar si hay alguna relación entre ellos. Consideremos, por ejemplo, que un

especialista en marketing quisiera determinar si hay alguna conexión entre los niveles de

renta de los consumidores y su preferencia por el producto que él vende. Este

procedimiento implicaría comparar dos atributos: rentas y preferencias.

La comparación de dos atributos para determinar si son independientes se realiza de la

misma forma que antes: analizando la diferencia entre frecuencias observadas reales y

frecuencias esperadas.

2.1.2 Prueba de la bondad del ajuste

Una hipótesis estadística se define como una afirmación o conjetura acerca de la distribución

f(x,q) de una o más variables aleatorias. Igualmente se planteó que la distribución podía tener

uno o más parámetros desconocidos, que denotamos por q y que la hipótesis se relaciona con

este parámetro o conjunto de parámetros. En otros casos, se desconoce por completo la forma

de la distribución y la hipótesis entonces se relaciona con una distribución específica f(x,q)

que podamos asignarle al conjunto de datos de la muestra. El primer problema, relacionado

con los parámetros de una distribución conocida o supuesta y el problema de verificar si el

conjunto de datos se puede ajustar o afirmar que proviene de una determinada distribución.

Las pruebas estadísticas que tratan este problema reciben el nombre general de “Pruebas de

Bondad de Ajuste”.

La prueba Chi - Cuadrado y la prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la

categoría de lo que en estadística se denominan pruebas de “Bondad de Ajuste” y miden, como

el nombre lo indica, el grado de ajuste que existe entre la distribución obtenida a partir de la

muestra y la distribución teórica que se supone debe seguir esa muestra. Ambas pruebas

están basadas en la hipótesis nula de que no hay diferencias significativas entre la

distribución muestral y la teórica. Ambas pruebas están basadas en las siguientes hipótesis:

H0: f(x,q) = f0(x,q)

H1: f(x,q) ¹ f0(x,q)

Donde f0(x,q) es la distribución que se supone sigue la muestra aleatoria. La hipótesis

alternativa siempre se enuncia como que los datos no siguen la distribución supuesta. Si se

desea examinar otra distribución específica, deberá realizarse de nuevo la otra prueba

suponiendo que la hipótesis nula es esta nueva distribución. Al especificar la hipótesis nula, el

conjunto de parámetros definidos por q puede ser conocido o desconocido. En caso de que los

parámetros sean desconocidos, es necesario estimarlos mediante alguno de los métodos de

estimación analizados con anterioridad.

Prueba Ji2 de la Bondad del Ajuste

Se parte de una muestra aleatoria de tamaño N, proveniente de una población cuya

distribución de probabilidad es desconocida.

Las N observaciones se acomodan en un Histograma de frecuencia con k intervalos de

clase. Sea Oi la i-ésima frecuencia de clase.

De la distribución de probabilidad propuesta se calcula la frecuencia esperada Ei en el

i-ésimo intervalo de clase

El estadístico de prueba es

El cual tiene una distribución Ji2 con k-p-1 grados de libertad si la población sigue la

distribución propuesta. (donde p es el número de parámetros de la población)

La aproximación mejora a medida que N es más grande

La hipótesis debe rechazarse si el valor del estadístico de prueba es:

k

1i i

2

ii2

E

)E(Oχ

x2>x21-α, k-p-1

2.1.3 Tablas de contingencia

En estadística las tablas de contingencia se emplean para registrar y analizar la relación entre dos o más variables, habitualmente de naturaleza cualitativa (nominales u ordinales).

Cuando cada individuo de la población a estudio se puede clasificar según dos criterios A y B, admitiendo el primero a posibilidades diferentes y b el segundo, la representación de las frecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla de contingencia

Las tablas en las que las frecuencias observadas ocupan una sola fila, es una tabla de clasificaciónsimple. Puesto que el número de columnas es k, también se llama tabla 1 X k (léase uno por k). Entendiéndose estas ideas se llega a las tablas de clasificación doble o tablas hXk en las que las frecuencias observadas ocupan h filas y k columnas. Tales tablas se llaman a menudo tablas de contingencias. Correspondiéndose con cada frecuencia observada en una tabla de contingencia hX k, hay una frecuencia teórica o esperada que se calcula bajo una hipótesis según las reglas de probabilidad. Estas frecuencias que ocupan las casillas de una tabla de contingencia se llaman frecuencias elementales. La frecuencia total de cada fila o columna es la llamada frecuenciamarginal. Para estudiar el acuerdo entre las frecuencias observadas y esperadas, se calcula el estadístico

Donde la suma se extiende a todas las casillas de la tabla de contingencia, los símbolos xi Y npirepresentan respectivamente las frecuencias observadas y esperadas en la casilla j. Esta suma que esanáloga, contiene hktérminos. La suma de todas las frecuencias observadas se denota por n yes igual a la suma de todas las frecuencias esperadas.

Una tabla de contingencia es una herramienta que nos permite poner a prueba si dos

criterios de clasificación de una misma muestra son independientes o no, por ejemplo:

Población Criterio 1 Criterio 2

Ingenieros recién egresados Salario inicial Institución de origen

Estudiantes Nivel Socioeconómico Promedio académico

Número de fallas en un proceso Maquinaria utilizada Turno

Estudiantes Calif. en Materia 1 Calif. en Materia 2

Fallas en un transformador Tipo de falla Ubicación

Etc...

2.2 Análisis de varianza

EL procedimiento de análisis de varianza, o ANOVA, utiliza una sola variable numérica medida en los elementos de la muestra para probar la hipótesis nula de igualdad de medias poblaciones. Esta variable puede ser de intervalo o de escala de razón.

Esta variable algunas veces recibe el nombre de variable dependiente, en especial en programas de computadora que ejecutan ANOVA.

La hipótesis nula que se prueba en el ANOVA es que la mayoría de las poblaciones que se estudian (al menos tres) tienen el mismo valor de la media para la variable dependiente. Las hipótesis nulas y alternativa en ANOVA son:

H0: 1 = 2 = 3 =... = c

H1: No todas las poblaciones tienen la misma media.

En la prueba ANOVA, se reúne evidencia muestral de cada población bajo estudio y se usan estos datos para calcular un estadístico muestral. Después se consulta la distribución muestral apropiada para determinar si el estadístico muestral contradice la suposición de que la hipótesis nula es cierta. Si es así, se rechaza; de lo contrario no se rechaza.

Se denomina modelo factorial con un factor o ANOVA con un factor al modelo (lineal) en el que la variable analizada va a depender de un sólo factor de tal manera que las causas de su

variabilidad son englobadas en una componente aleatoria que se denomina error experimental.

El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más medias, que es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. por dos motivos:

En primer lugar, y como se realizarían simultánea e independientemente varios contrastes de hipótesis, la probabilidad de encontrar alguno significativo por azar aumentaría. En cada contraste se rechaza la H0 si la t supera el nivel crítico, para lo que, en la hipótesis nula, hay una probabilidad . Si se realizan m contrastes independientes, la probabilidad de que, en la hipótesis nula, ningún estadístico supere el valor crítico es (1 - ) m, por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 - )m, que para valores de próximos a 0 es aproximadamente igual a m. Una primera solución, denominada método de Bonferroni, consiste en bajar el valor de , usando en su lugar /m, aunque resulta un método muy conservador.

Por otro lado, en cada comparación la hipótesis nula es que las dos muestras provienen de la misma población, por lo tanto, cuando se hayan realizado todas las comparaciones, la hipótesis nula es que todas las muestras provienen de la misma población y, sin embargo, para cada comparación, la estimación de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas.

2.2.1 Inferencia sobre una varianza de población

(Anova)

Los analistas investigan la variabilidad de una población, en lugar de su media o proporción.

Esto es debido a que la uniformidad de la producción muchas veces es crítica en la práctica industrial.

La variabilidad excesiva es el peor enemigo de la alta calidad y la prueba de hipótesis está diseñada para determinar si la varianza de una población es igual a algún valor predeterminado.

La desviación estándar de una colección de datos se usa para describir la variabilidad en esa colección y se puede definir como la diferencia estándar entre los elementos de una colección de datos y su media.

La varianza de un conjunto de datos se define como el cuadrado de su desviación estándar; y la varianza muestral se utiliza para probar la hipótesis nula que se refiere a la variabilidad y es útil para entender el procedimiento de análisis de la varianza.

La hipótesis nula; para la prueba de la varianza, es que la varianza poblacional es igual a algún valor previamente especificado. Como el aspecto de interés, por lo general es si la varianza de la población es mayor que este valor, siempre se aplica una de una cola.

Para probar la hipótesis nula, se toma una muestra aleatoria de elementos de una población que se investiga; y a partir de esos datos, se calcula el estadístico de prueba.

Para este cálculo se utiliza la siguiente ecuación:

(n - 1) s2

Donde:

* n-1 = Grados de libertad para la prueba de tamaño n.

* s2 = Varianza muestral.

* 2 = Varianza poblacional si y solo si suponemos que la hipótesis nula es cierta.

2.2.2 Inferencia sobre la varianza de dos

Poblaciones (Anova).

Es importante comparar dos poblaciones para ver si una es más variable que la otra en alguna medida específica. La hipótesis nula es que las dos poblaciones tienen la misma varianza, y la hipótesis alternativa es que una tiene mayor varianza que la otra. Se obtienen muestras aleatorias de cada población y se calculan las varianzas muéstrales.

Si las varianzas poblacionales son iguales, dicha razón es 1 y podríamos afirmar que las dos poblaciones tienen una distribución homogénea; es decir, los datos se encuentran igualmente dispersos.

Asícomo se realiza inferencia sobre la estimación y prueba de hipótesis de la diferencia de medias o proporciones muéstrales en el caso de dos poblaciones, así también podemos plantear el estudio de la razón de las varianzas de dos poblaciones definiendo al parámetro

como y su estimador . Este estudio lo haremos tomando en cuenta el intervalo de confianza y la prueba de hipótesis.

BIBLIOFRAFIA

Probabilidad Y Estadística, Murray R. Spiegel Ph.D., McGraw-Hill,México,1976.

Probabilidad Y Estadística, Mario F. Triola,Addision Wesley,Novena Edición.

Probabilidad Y Estadística,Walpole Miers,Cuarta Edición,MCGRAW-HILL.

Probabilidad Y Estadística Para Ingeniería Y Ciencias, Jay L. Devore, Séptima Edición.