Plan de clase
Inicio
• Competencias • Mo0vación. • Saberes previos.
Contenido de sesión
• Prueba de Independencia. • Pruebas de Bondad de Ajuste. • Ejercicios resueltos.
Cierre
• Retroalimentación. • Autoevaluación
Competencias
Al termino de la sesión, el estudiante estará en capacidad de:
Ø R e a l i z a r p r u e b a s d e independencia en problemas contextualizados.
Ø Realizar pruebas de bondad de a j u s t e e n p r o b l e m a s contextualizados.
PRUEBA DE INDEPENDENCIA
Esta prueba permite analizar la relación de dependencia o independencia entre dos variables cualitativas.
¿El consumo de comida chatarra está relacionado c o n l a s e n f e r m e d a d e s s a n g u í n e a s , d i a b e t e s , colesterol, obesidad?
pero uhm
Tabla de con4ngencia Los datos obtenidos para un par de variables cualitativas se resumen en una tabla de doble entrada que se conoce como tabla de contingencia, tal como se muestra a continuación:
donde: Ai: : Característica i de la variable A Bj: : Característica j de la variable B Ri : Número de individuos que tiene la característica Ai Cj : Número de individuos que tiene la característica Bj Oij : Número de individuos que tiene las características Ai y Bj a la vez. n : Tamaño de la muestra
Pasos a seguir:
1.- Planteamiento de las hipótesis
2.- Fijar α
3.- Estadístico de prueba
Hipótesis nula (H0): Las variables X e Y son independientes. (X e Y no están relacionadas)
Hipótesis alterna (H1): Las variables X e Y no son independientes. ( X e Y están relacionadas)
∑∑= =
−=
R
i
C
j ij
ijijcal E
EO
1 1
22 )(
χ
nCR
E jiji
×=
La frecuencia esperada se calcula de la siguiente manera:
4.- Valor crítico
donde: (R-1)(C-1) son los grados de libertad
5.- Decisión
donde:
Oij : Frecuencia observada de la celda que está en la intersección de la fila i y columna j.
Eij : Frecuencia esperada de la celda que está en la intersección de la fila i y columna j.
21);1)(1(
2αχχ −−−= CRT
21);1)(1(
2:Re αχχ −−−> CRcalsiHochazar
Observaciones:
1.- Cuando Ho es verdadera, las diferencias entre Oi y Ei son pequeñas, pero cuando Ho es falsa esta diferencia es grande.
2.- Para saber si O(observado) y E (esperado) son suficientemente grandes,
se utiliza la distribución Chi – Cuadrado. 3.- Para que los resultados de la prueba sean válidas debe de cumplirse que: (supuesto) o La muestra debe ser aleatoria y de preferencia de tamaño mayor a
100. o La frecuencias esperadas deben ser mayores que cero y se admite solo
un 25% de celdas con Eij < 5; si esto no se cumple, se puede agrupar categorías adyacentes.
¿CUÁL ES EL GRADO DE LA RELACIÓN ENCONTRADA?
Una vez determinado que existe relación entre dos variables, el segundo aspecto de interés lógico será medir el grado de esta relación.
Phi (Es la más utilizada en tablas 2x2)
Coeficiente de Contingencia (para tablas de orden diferente de 2x2)
n
cal2χφ =
2
2
cal
cal
nC
χχ+
=
Existe la controversia de que un estudiante universitario logra culminar en menos tiempo su carrera en las especialidades de letras que en ingeniería o ciencias básicas. Por lo cual la empresa “Tanto” ha decidido realizar un estudio para verificar la controversia y por ello ha seleccionado una muestra aleatoria de 1600 estudiantes. Los resultados se muestran en el siguiente cuadro:
Ejemplo 1
A l n i v e l d e significación del 5%, ¿se puede inferir que existe relación entre el tipo de especialidad y el tiempo que el e s t u d i a n t e l o g r a culminar su carrera.
“LO QUE ESCUCHO LO OLVIDO. LO QUE VEO LO RECUERDO. PERO LO QUE HAGO, LO ENTIENDO.”
H1: El tipo de especialidad y el tiempo que el estudiante logra culminar su carrera no son independientes.
Ho : El tipo de especialidad y el tiempo que el estudiante logra culminar su carrera son independientes.
2.- α = 0.05
3.- Estadístico de prueba
98)(
1 1
22 =
−=∑∑
= =
R
i
C
j ij
ijij
EEO
cχ
1.- Planteamiento de las hipótesis
4.- Valor crítico
488.9295.0;4
2
21);13)(13(
2
==
= −−−
χχχχ α
T
T
5.- Decisión
.,88.998 295.0;
2 HorechazaseComo TC =>= χχ
Por lo tanto, con un nivel de significancia del 5%, existe evidencia estadística para pensar que el tipo de especialidad y el tiempo que el estudiante logra culminar su carrera no son independientes.
Reporte: Minitab
Especialidad Menos de 4 años
Entre 5 a 6 años
Mayor igual a 7 años
Total (fila)
Letras 300 150 50 500229.687 195.313 75.000 500.00021.524 10.513 8.333
Ciencias Básicas 110 125 90 325149.297 126.953 48.75 32510.343 0.030 34.904
Ingeniería 325 350 100 775356 302.7 116.3 7752.702 7.380 2.272
Total columna 735 625 240 1600
Reporte: Minitab
Especialidad Menos de 4 años
Entre 5 a 6 años
Mayor igual a 7 años
Total (fila)
Letras 300 150 50 500229.687 195.313 75.000 500.00021.524 10.513 8.333
Ciencias Básicas 110 125 90 325149.297 126.953 48.75 32510.343 0.030 34.904
Ingeniería 325 350 100 775356 302.7 116.3 7752.702 7.380 2.272
Total columna 735 625 240 1600
¿El número de clientes de que llegan a un centro comercial se distribuye como una distribución Poisson?
Mo4vación
PRUEBA DE BONDAD DE AJUSTE
Prueba de Bondad de ajuste Chi Cuadrado
Estas pruebas permiten verificar que la población de la cual proviene una muestra tiene una distribución especificada o supuesta.
Esta prueba es aplicable para variables aleatorias discretas o continuas.
Las pruebas de bondad de ajuste pueden utilizarse para determinar si una variable se ajusta a una determinada distribución de probabilidades, como por ejemplo: ü Normal ü Binomial ü Poisson ü Otra
Pasos a seguir: 1.- Planteamiento de hipótesis
2.- Fijar α
3.- Estadístico de prueba
Hipótesis nula (H0) : La variable de estudio se distribuye de acuerdo a la distribución dada.
Hipótesis alternativa (H1) : La variable de estudio no se distribuye de acuerdo a la distribución dada.
∑=
−=R
iC Ei
EiOi1
22 )(χ
donde: Ei = n. Pi Pi es la probabilidad de la distribución dada n es el tamaño de muestra
4.- Valor crítico
5.- Decisión
Rechazar Ho si: 21;1
2αχχ −−−> mkC
donde: k: número de categorías formadas m: número de parámetros estimados
21,1
2αχχ −−−= mkT
Observaciones
¿En qué casos se deben de estimar algunos parámetros a partir de la muestra?
ü Cuando una variable se aproxima a una distribución normal y no se conocen los dos parámetros poblacionales ( µ y σ), se deben estimar a partir de los datos de la muestra ( 𝑋 y s) , y en este caso m=2
ü Las frecuencias esperadas de cada una de las categorías deben ser mayores o iguales a cinco; si alguna categoría tuviera una frecuencia esperada menor que cinco, se deberán
unir categorías adyacentes.
Ejemplo 1
El Ministerio de salud afirma que el tipo de sangre de las personas que residen en Lima Metropolitana está en el orden de 35%,10%,6% y 49%. Un investigador quiere verificar si el % de tipo de sangre es el mismo en el departamento del Cuzco. Para ello, seleccionó una muestra de 200 personas residentes del Cuzco y se les determinó el tipo de sangre que tenían con los resultados que se muestra:
¿podemos afirmar que el investigador tiene la razón? Use α = 0.05
1.- Planteamiento de las hipótesis
2.- α = 0.05
3.- Estadístico de prueba
H0 : El tipo de sangre de las personas que residen en el Cuzco se distribuye según indica el Minsa
H1 : El tipo de sangre de las personas que residen en el Cuzco no se distribuye según indica el Minsa
489.9)(1
22 =−=∑
=
R
iC Ei
EiOiχ
4.- Valor crítico 815.7295.0;3
2 == χχT
5.- Decisión
815.7489.9 22 =>= TC χχRechazamos Ho, ya que:
Por lo tanto, con un nivel de significancia del 5%, existe evidencia estadística para pensar que el tipo de sangre de las personas que residen en el Cuzco no se distribuye según indica el Minsa.
Ejercicio 2
Se ha tomado una muestra aleatoria de 40 baterías y se ha registrado su duración en años. Los resultados se han agrupado en siete categorías tal como se muestra en el siguiente cuadro:
Verifique al 5% de significancia si la duración en años de las baterías producidas por este fabricante se distribuye como una normal con µ = 3.5 y σ = 0.7
Solución
00169.0)93.2(7.05.345.1)45.1( =−<=⎟⎠⎞⎜
⎝⎛ −<=< ZPZPXP
Primero debemos hallar las probabilidades
0117.07.05.395.1
7.05.345.1)95.145.1( =⎟
⎠⎞⎜
⎝⎛ −<<−=<< ZPXP
Se halla de la misma forma para los otros intervalos, los resultados se muestra en cuadro siguiente:
Las frecuencias esperadas se halló con la fórmula: Ei = nxPi
Como las frecuencias esperadas son menores que cinco en las primeras categorías, se unieron como una sola, al igual que las últimas tres categorías que formaron una sola como se muestra en cuadro adjunto
En este problema los parámetros(µ y σ ) son conocidos, por tanto m=0
H0 : El tiempo se distribuye como una normal con µ = 3.5 y σ =0.7
H1 : El tiempo no se distribuye como una normal con µ = 3.5 y σ =0.7
2.- α = 0.05
1.- Planteamiento de hipótesis
3.- Prueba Estadística
154.3)(1
22 =−=∑
=
R
iC Ei
EiOiχ
4.- Valor crítico
815.7295.0;3
2 == χχT
5.- Decisión
815.7
¡Concluya!
Se propone que el número de defectos en las tarjetas de circuito impreso sigue una distribución Poisson. En una muestra aleatoria de 60 tarjetas de circuito impreso se observa el número de defectos. Los resultados obtenidos son los siguientes:
¿Muestran estos datos suficiente evidencia para decir que provienen de una distribución Poisson?. Haga la prueba de la bondad de ajuste con α = 0.05
Ejemplo 3
Primer paso Reconocer que la media o promedio ( λ ) de la distribución Poisson propuesta en este ejemplo es desconocida y debe estimarse a partir de los datos contenidos en la muestra.
Segundo paso: Estimar el valor de lambda
∞===−
....,2,1,0!
)( xxexXP
xλλ
A partir de la distribución Poisson con el parámetro estimado (0.75) pueden calcularse las probabilidades asociadas con el valor de x:
Solución: (Cálculos previos)
75.060
)3(4)2(9)1(15)0(32ˆ =+++== xλ
Tercer paso
472.0!075.0)0(
075.0
===−eXP 354.0
!175.0)1(
175.0
===−eXP
133.0!275.0)2(
275.0
===−eXP [ ] 041.0133.0354.0472.01)3( =++−=≥XP
El cuadro queda como sigue:
1.- Planteamiento de hipótesis H0 : El número de defectos en las tarjetas de circuito impreso sigue una distribución Poisson H1 : El número de defectos en las tarjetas de circuito impreso no sigue una distribución Poisson
2.- α = 0.05
3.- Prueba Estadística
9616.2)(1
22 =−=∑
=
R
iC Ei
EiOiχ
4.- Valor crítico
841.3295.0;113
2 == −−χχTEn este problema el parámetro λ se estimó a partir de la muestra, por tanto m=1 y k=3.
5.- Decisión
Como no se rechaza Ho . Con un nivel de significación del 5%, existe evidencia estadística para pensar que el número de defectos en las tarjetas de circuito impreso sigue una distribución Poisson.
841.39616.2 22 =<= TC χχ
1.- Planteamiento de hipótesis Un ingeniero de control de calidad tomó una muestra de 10 neumáticos que salen de una línea de ensamblaje para verificar sobre la base de los datos si el número de llantas con defectos observadas en 205 días sigue una distribución binomial. Utilice un 5% de significancia
H0 : El número de llantas con defecto se distribuye como una Binomial con π = 0.05. H1 : El número de llantas con defecto no se distribuye como una Binomial con π = 0.05.
2.- α = 0.05
3.- Prueba Estadística
=−=∑=
R
iC Ei
EiOi1
22 )(χ
4.- Valor crítico == −−−2
1;12
αχχ mkT
Número de defectos
Número de días
0 138
1 53
2 9
>=3 5
Total 205
Top Related