Post on 21-Dec-2016
Tema 3. Comparaciones de dos poblaciones
Contenidos
I Hipotesis para la diferencia entre las medias de dos poblaciones:muestras pareadas
I Hipotesis para la diferencia entre las medias de dos poblaciones:muestras independientes
I Dos poblaciones normales con varianzas iguales (y desconocidas)I Dos poblaciones normales con varianzas conocidasI Dos poblaciones no normales y muestras grandes
I Dos poblaciones Bernoulli
I Hipotesis para la razon de las varianzas de dos poblaciones:muestras independientes
Tema 3. Comparaciones de dos poblaciones
Objetivos de aprendizajeAl finalizar este tema, debieras ser capaz de:
I Llevar a cabo un contraste de hipotesis para la diferencia de lasmedias y para el cociente de las varianzas de dos poblaciones
I Construir intervalos de confianza para la diferencia o el cociente
I Diferenciar las situaciones en las que un contraste basado enmuestras pareadas es adecuado, de aquellas en las que se debeaplicar un contraste basado en muestras independientes
I Calcular la potencia de un contraste y la probabilidad de un error deTipo II
Tema 3. Comparaciones de dos poblaciones
ReferenciasI Newbold, P. “Estadıstica para administracion y economıa”
I Capıtulo 9 (9.6-9.9)
I Ross, S. “Introduccion a la Estadıstica”I Capıtulo 10
Introduccion
En este tema estudiamos el caso en el que en lugar de disponer de unamuestra aleatoria, tenemos dos muestras aleatorias de dos poblaciones, yestamos interesados en contrastar:
I la diferencia entre las medias de las dos poblacionesI en el caso de muestras pareadasI y en el caso de muestras independientes
I el cociente entre las varianzas de las dos poblacionesI en el caso de muestras independientes
Emplearemos los procedimientos introducidos en los Temas 1 y 2 paraconstruir intervalos de confianza y realizar contrastes de hipotesis para lasdiferencias o cocientes de los parametros de las poblaciones indicados.
Contrastes para la diferencia entre dos medias: muestraspareadas
Ejemplo: Se ha llevado a cabo un estudio sobre la relacion entre laactividad cerebral mientras se ven anuncios en television y la capacidadde la persona para recordar dichos anuncios. Se han mostrado anunciosde dos marcas para diez productos a las personas en la muestra. Paracada anuncio se ha medido la capacidad de cada persona para recordarlopasadas 24 h., y a cada anuncio de un producto se le han asignado lasetiquetas “recuerdo fuerte” o “recuerdo debil”. La siguiente tablamuestra un ındice de la actividad cerebral de las personas que han vistoestos anuncios en el estudio.
producto: i 1 2 3 4 5 6 7 8 9 10recuerdo fuerte: xi 137 135 83 125 47 46 114 157 57 144recuerdo debil: yi 53 114 81 86 34 66 89 113 88 111dif.: di = xi − yi 84 21 2 39 13 −20 25 44 −31 33
Contrastes para la diferencia entre dos medias: muestraspareadas
I Sea X una poblacion con media µX e Y otra poblacion con mediaµY .
I Disponemos de una muestra aleatoria de n observaciones pareadasde ambas poblaciones, {(Xi ,Yi )}. Denotaremos como
d1 = x1 − y1, d2 = x2 − y2, . . . , dn = xn − yn
las n diferencias de valores con media d y cuasi desviacion tıpica sd .I Supondremos que la poblacion de las diferencias sigue una
distribucion normal.
I Contraste bilateral H0 : µX −µY = D0 frente a H1 : µX −µY 6= D0
I El estadıstico del contraste es
T =D − D0
sD/√
n∼H0 tn−1
I La region de rechazo (a un nivel de significacion α) es:
RRα = {t : t < −tn−1;α/2 o t > tn−1;α/2}
Contrastes para la diferencia entre dos medias: muestraspareadas
Ejemplo: cont.Poblacion:D = “diferencia entre recuerdofuerte y debil”D ∼ N(µX − µY , σ
2D)
' MAS: n = 10
Muestra: d = 21010 = 21
s2d = 142022−10(21)2
10−1 = 1088
Objetivo: contrastar
H0 : µX − µY ≤D0︷︸︸︷0 frente a H1 : µX − µY > 0
(Contraste unilateral)
Estadıstico del contraste:
T =D − D0
sD/√
n∼ tn−1
Valor observado del estadıstico:
D0 = 0 n = 10
d = 21 sd =√
1088 = 32.98
t =d − D0
sd/√
n
=21
32.98/√
10= 2.014
Contrastes para la diferencia entre dos medias: muestraspareadas
Ejemplo: cont.
p-valor = P(T ≥ 2.014)
∈ (0.025, 0.05) ya que
t9;0.05︷ ︸︸ ︷1.833 < 2.014 <
t9;0.025︷ ︸︸ ︷2.262
Por tanto, como p-valor < α = 0.05,
rechazamos la hipotesis nula a este
nivel.
Densidad tn−1 | |
t=2.014
p−valor =area
1.833 2.262
Conclusion: La evidencia muestral apoya que en promedio la actividad cerebral
es mayor para el grupo con recuerdo fuerte que para el grupo con recuerdo
debil. Si la actividad cerebral promedio fuese igual para ambos grupos, la
probabilidad de obtener muestras tan extremas o mas que la observada estarıa
entre 0.025 y 0.05 (un valor bajo).
Contrastes para la diferencia entre dos medias: muestraspareadas
Ejemplo: cont. En Excel: Ir al menu “Datos”, submenu “Analisis dedatos”, seleccionar la opcion: “Prueba t para medias de dos muestrasemparejadas”Columnas A y B (datos), en amarillo se muestran el valor observado delestadıstico y el p-valor.
Contraste bilateral para la diferencia entre dos medias viaIC: muestras pareadas
Ejemplo: cont. Construir un intervalo de confianza al 95% para µX −µY .
IC0.95 (µX − µY ) =
(d − tn−1;0.025
sd√n, d + tn−1;0.025
sd√n
)=
(21− 2.262
32.98√10
, 21 + 2.26232.98√
10
)= (−2.59, 44.59)
Como el valor 0 pertenece a este intervalo, no podemos rechazar lahipotesis nula de la igualdad de las medias de las dos poblaciones a unnivel de significacion de α = 0.05.
Contrastes para la diferencia entre dos medias: muestrasnormales independientes, varianzas de poblaciones iguales
I Sea X una poblacion con media µX y varianza σ2X , e Y otra poblacion con
media µY y varianza σ2Y
I ambas distribuidas normalmenteI con varianzas poblacionales desconocidas, pero iguales σ2 = σ2
X = σ2Y
I Muestras aleatorias de n1 observaciones de X y n2 observaciones de Y ,independientes.
I Contraste bilateral H0 : µX − µY = D0 frente a H1 : µX − µY 6= D0
I El estadıstico del contraste es
T =X − Y − D0
sp
q1n1
+ 1n2
∼H0 tn1+n2−2
donde el estimador de la varianza comun para las dos poblaciones es
s2p =
(n1 − 1)s2X + (n2 − 1)s2
Y
n1 + n2 − 2
Nota: grados de libertad = n1 + n2 − 2 (numero de observaciones delas muestras menos dos - por tener que estimar µX y µY )
I La region de rechazo (para un nivel de significacion α) es:
RRα = {t : t < −tn1+n2−2;α/2 o t > tn1+n2−2;α/2}
Contrastes para la diferencia entre dos medias: muestrasnormales independientes, varianzas de poblaciones iguales
Ejemplo: 9.8 (Newbold) Se estudia el efecto que la presencia de un moderadorpuede tener en el numero de ideas generadas en un grupo de trabajo. Seobservan grupos de cuatro personas, con y sin moderador. En una muestraaleatoria de cuatro grupos con moderador el numero promedio de ideasgeneradas por grupo fue 78.0, con cuasi desviacion tıpica muestral de 24.4.Para una muestra independiente de cuatro grupos sin moderador el promediode ideas generadas fue 63.5, y su cuasi desviacion tıpica fue 20.2. Suponiendoque distribuciones normales con varianzas iguales, contraste la hipotesis nula(para α = 0.1) de igualdad de medias, frente a la alternativa de que la mediade la poblacion es mayor para grupos con moderador.Poblacion 1:X = “numero de ideas en gruposcon moderador”X ∼ N(µX , σ
2X )
' MAS: n1 = 4
Muestra: x = 78.0sx = 24.4
Poblacion 2:Y = “numero de ideas en grupos sinmoderador”X ∼ N(µY , σ
2Y )
' MAS: n2 = 4
Muestra: y = 63.5sy = 20.2
Suponemos muestras normales independientes y σ2X = σ2
Y = σ2
Contrastes para la diferencia entre dos medias: muestrasnormales independientes, varianzas de poblaciones iguales
Ejemplo: 9.8 (Newbold cont.)
Objetivo: contrastar
H0 : µX − µY =
D0z}|{0
frente a
H1 : µX − µY > 0
(Test unilateral)
Estadıstico del contraste:
T = X−Y
sp
r1n1
+ 1n2
∼H0tn1+n2−2
Valor observado del estadıstico:
D0 = 0 n1 = 4 n2 = 4
x = 78.0 sx = 24.4 y = 63.5 sy = 20.2
s2p =
(n1 − 1)s2x + (n2 − 1)s2
y
n1 + n2 − 2
=(4 − 1)24.42 + (4 − 1)20.22
4 + 4 − 2
= 501.7
sp =√
501.7 = 22.4
t =x − y
spp
1/n1 + 1/n2
=78.0 − 63.5
22.4p
1/4 + 1/4= 0.915
Region de rechazo:
RR0.1 = {t : t >
1.440z }| {t6;0.1}
Como t = 0.915 /∈ RR0.1, no podemos rechazar la hipotesisnula a un nivel del 10%.
Conclusion: Los datos muestrales nocontienen suficiente evidencia parapensar que en promedio se generan masideas en grupos con moderador. Peropara tamanos muestrales tan pequenosel contraste tiene potencia baja y serıannecesarias diferencias muy grandesentre las medias de las poblaciones pararechazar la hipotesis nula.
Contrastes para la diferencia entre dos medias: muestrasnormales independientes, varianzas de poblaciones iguales
Ejemplo: 9.8 (Newbold cont.) Construya un intervalo de confianza al99% para µX − µY .
IC0.99 (µX − µY ) =
(x − y ∓ tn1+n2−2;0.005sp
√1
n1+
1
n2
)=
(78.0− 63.5∓ 3.707 · 22.4
√1
4+
1
4
)= (−44.22, 73.22)
Como el valor 0 pertenece a este intervalo, no podemos rechazar lahipotesis nula de igualdad de las medias de las dos poblaciones a un nivelde significacion α = 0.01.
Contrastes para la diferencia entre dos medias: muestrasgrandes independientes o dos poblaciones normales convarianzas conocidas
I Sea X una poblacion con media µX y varianza σ2X , e Y otra
poblacion con media µY y varianza σ2Y .
I Muestras aleatorias de n1 observaciones de X y n2 observaciones deY , independientes, y
I Bien tanto n1 como n2 son grandes y σ2X y σ2
Y son desconocidas,I O X e Y siguen distribuciones normales y σ2
X y σ2Y son conocidas
I Contraste bilateral H0 : µX −µY = D0 frente a H1 : µX −µY 6= D0I El estadıstico del contraste es:
I Bien
Z =X − Y − D0r
s2Xn1
+s2Yn2
∼H0, aprox. N(0, 1)
I O
Z =X − Y − D0r
σ2X
n1+σ2
Yn2
∼H0N(0, 1)
I La region de rechazo (para un nivel de significacion α) es:
RRα = {z : z < −zα/2 o z > zα/2}
Contrastes para la diferencia entre dos medias: muestrasgrandes independientes o dos poblaciones normales convarianzas conocidas
Ejemplo: 9.7 (Newbold) Se realiza un estudio entre auditores sobre la actividadde las mujeres en su profesion. A los encuestados se les pide que den su opinioncon un valor entre uno (muy en desacuerdo) y cinco (muy de acuerdo) sobre laafirmacion “En auditorıa se asignan los mismos trabajos a las mujeres y a loshombres”. De una muestra de 186 auditores (varones) se obtuvo una respuestapromedio de 4.059 con una cuasi desviacion tıpica de 0.839. Para una muestraindependiente de 172 mujeres auditoras la respuesta promedio fue de 3.680 conuna cuasi desviacion tıpica de 0.966. Contraste la hipotesis nula (paraα = 0.0001) de que las medias de las dos poblaciones son iguales, frente a laalternativa de que la media de la poblacion es mayor para auditores varones.
Poblacion 1:X = “respuesta de un auditor varon”X ∼ µX , σ
2X
' MAS: n1 = 186
Muestra: x = 4.059sx = 0.839
Poblacion 2:Y = “respuesta de una mujer auditora”X ∼ µY , σ
2Y
' MAS: n2 = 172
Muestra: y = 3.680sy = 0.966
Contrastes para la diferencia entre dos medias: muestrasgrandes independientes o dos poblaciones normales convarianzas conocidas
Ejemplo: 9.7 (Newbold cont.)
Objetivo: contrastar
H0 : µX − µY =
D0z}|{0
frente a
H1 : µX − µY > 0
(Contraste unilateral)
Estadıstico del contraste:
Z = X−Yss2Xn1
+s2Yn2
∼H0, aprox. N(0, 1)
Valor observado del estadıstico:
D0 = 0 n1 = 186 n2 = 172
x = 4.059 sx = 0.839 y = 3.680 sy = 0.966
z =x − yq
s2x/n1 + s2
y/n2
=4.059 − 3.680q
0.8392/186 + 0.9662/172
= 3.95
Region de rechazo:
RR0.0001 = {z : z >
3.75z }| {z0.0001}
Como z = 3.95 ∈ RR0.0001, rechazamos la hipotesis nula aun nivel del 0.01%.
Conclusion: Los datos contienen unaevidencia muy fuerte en favor de quela respuesta promedio entre losvarones es mayor que entre lasmujeres - esto es, en promedio losvarones estan mas convencidos quelas mujeres de que se asignan losmismos trabajos a las mujeres que alos hombres.
Contrastes para la diferencia entre dos medias: muestrasgrandes independientes o dos poblaciones normales convarianzas conocidas
Ejemplo: 9.7 (Newbold) Construya un intervalo de confianza al 95%para µX − µY .
IC0.95 (µX − µY ) =
x − y ∓ z0.025
√s2x
n1+
s2y
n2
=
(4.059− 3.680∓ 1.96
√0.8392/186 + 0.9662/172
)= (0.19, 0.57)
Como el valor 0 no pertenece a este intervalo, podemos rechazar lahipotesis nula de igualdad de las dos medias poblacionales a un nivel designificacion α = 0.05.
Contrastes para la diferencia entre dos proporciones:muestras grandes independientes
I Sea X ∼ Bernoulli(pX ) y sea Y ∼ Bernoulli(pY ), donde pX y pY sondos proporciones poblacionales para los individuos que cumplan unapropiedad de interes.
I Muestras aleatorias de n1 observaciones de X y n2 observaciones deY , independientes, y
I tanto n1 como n2 son grandes
I Contraste bilateral H0 : pX − pY = 0 frente a H1 : pX − pY 6= 0I El estadıstico del contraste es:
Z =pX − pYr
p0(1− p0)“
1n1
+ 1n2
” ∼H0, aprox. N(0, 1),
donde
p0 =n1pX + n2pY
n1 + n2
I La region de rechazo (para un nivel de significacion α) es:
RRα = {z : z < −zα/2 or z > zα/2}
Contrastes para la diferencia entre dos proporciones:muestras grandes independientes
Ejemplo: 9.9 (Newbold) En Investigacion de Mercados, es importante conseguir un
porcentaje de respuestas elevado para las encuestas. Para mejorar este porcentaje se
puede incluir una pregunta inicial de motivacion que aumente el interes del encuestado
por completarlo. Se han enviado cuestionarios con pregunta de motivacion sobre la
mejora los espacios de ocio en una ciudad, a una muestra de 250 hogares, obteniendo
101 respuestas. Otros cuestionarios identicos sin pregunta de motivacion se han
enviado a otra muestra independiente de 250 hogares, obteniendo 75 respuestas.
Contraste la hipotesis nula de que las dos proporciones poblacionales sean iguales,
frente a la alternativa de que la tasa de respuestas sea mas elevada cuando se incluye
pregunta de motivacion.
Poblacion 1:X = 1 si una persona completa elcuestionario con pregunta demotivacion, y 0 en caso contrarioX ∼ Bernoulli(pX )
' MAS: n1 = 250
Muestra: px = 101250
= 0.404
Poblacion 2:Y = 1 si una persona completa elcuestionario sin pregunta de motivacion,y 0 en caso contrarioY ∼ Bernoulli(pY )
' MAS: n2 = 250
Muestra: py = 75250
= 0.300
Contrastes para la diferencia entre dos proporciones:muestras grandes independientes
Ejemplo: 9.9 (Newbold cont.)
Objetivo: contrastar
H0 : pX = pY
frente a
H1 : pX > pY
(Contraste unilateral)
Estadıstico del contraste:Z =
pX−pYsp0(1−p0)
„1n1
+ 1n2
« ∼H0, aprox. N(0, 1)
Valor observado del estadıstico:
n1 = 250 n2 = 250
px = 0.404 py = 0.300
p0 =n1px + n2py
n1 + n2
=250(0.404) + (250)(0.300)
250 + 250
= 0.352
z =px − pyr
p0(1− p0)“
1n1
+ 1n2
”=
0.404− 0.300q0.352(1− 0.352)
`1
250 + 1250
´ = 2.43
p-valor = P(Z ≥ z) = P(Z ≥ 2.43) = 0.0075
Como el p-value es muy pequeno, podemosrechazar la hipotesis nula a cualquier nivel designificacion mayor que 0.0075.
Conclusion: Los datos muestralescontienen una fuerte evidencia deque al incluir una pregunta demotivacion se obtiene una tasa derespuesta mas elevada que cuandono se incluye.
Contrastes para la diferencia entre dos proporciones:muestras grandes independientes
Ejemplo: 9.9 (Newbold cont.) Construya un intervalo de confianza al95% para pX − pY .
IC0.95 (pX − pY ) =
px − py ∓ z0.025
sp0(1− p0)
„1
n1+
1
n2
«!
=
0.404− 0.300∓ 1.96
s0.352(1− 0.352)
„1
250+
1
250
«!= (0.1877, 0.0203)
Como el valor 0 no pertenece a este intervalo, podemos rechazar lahipotesis nula de igualdad de las proporciones de las dos poblaciones paraun nivel de significacion α = 0.05.
Contrastes para el cociente de varianzas: muestrasnormales
I Sea X una poblacion con media µX y varianza σ2X , e Y otra
poblacion con media µY y varianza σ2Y ,
I ambas distribuidas normalmente
I Muestras aleatorias de n1 observaciones de X y n2 observaciones deY , independientes.
I Contraste bilateral H0 : σ2X = σ2
Y (= σ2) frente a H1 : σ2X 6= σ2
YI El estadıstico del contraste es
F =s2X
s2Y
∼H0 Fn1−1,n2−1
I La region de rechazo (para un nivel de significacion α) es:
RRα = {f : f < Fn1−1,n2−1;1−α/2 o f > Fn1−1,n2−1;α/2}
La distribucion FX1,X2, . . . ,Xn y Y1,Y2,Y3, . . . ,Ym
son dos conjuntos de variablesaleatorias independientes, condistribucion N(0, 1). La variablealeatoria (cociente de dos v.a.schi-cuadrado normalizadas)
F =1n1m
Pni=1 X 2
iPmi=1 Y 2
i
sigue una distribucion Fn,m con n ym grados de libertad. Para elresultado de la transparenciaanterior:
s2X
s2Y
=H0
1n1−1
χ2n1−1z }| {
(n1 − 1)s2X
σ2
1n2−1
(n2 − 1)s2Y
σ2| {z }χ2
n2−1
∼ Fn1−1,n2−1
Densidades F
0 2 4 6 8
0.0
0.2
0.4
0.6
0.8
1.0
1.2
gl1=30 gl2=30gl1=10 gl2=15gl1=8 gl2=8gl1=5 gl2=3
Contrastes para el cociente de varianzas: muestrasnormales
Ejemplo: 9.10 (Newbold) Para una muestra de 17 bonos industrialesemitidos recientemente con calificacion AAA, la cuasi varianza de susvencimientos (en anos al cuadrado) fue de 123.35. Para otra muestraindependiente de 11 bonos industriales emitidos con calificacion CCC, lacuasi varianza de sus vencimientos fue de 8.02. Si se denotan lascorrespondientes varianzas poblacionales como σ2
X y σ2Y , lleve a cabo un
contraste bilateral para compararlas al 5%.
Poblacion 1:X vencimiento de bonos AAA (en anos)X ∼ N(µX , σ
2X )
' MAS: n1 = 17
Muestra: s2x = 123.35
Poblacion 2:Y vencimiento de bonos CCC (en anos)Y ∼ N(µY , σ
2Y )
' MAS: n2 = 11
Muestra: s2y = 8.02
Contrastes para el cociente de varianzas: muestrasnormales
Ejemplo: 9.10 (Newbold cont.)
Objetivo: contrastar
H0 : σ2X = σ2
Y
frente a
H1 : σ2X 6= σ2
Y
(Contraste bilateral)
Estadıstico del contraste:F =
s2X
s2Y∼H0 Fn1−1,n2−1
Valor observado del estadıstico:
n1 = 17 n2 = 11
s2x = 123.35 s2
y = 8.02
f =123.35
8.02= 15.38
Region de rechazo:
RR0.10 = {f : f <
0.402z }| {F16,10;1−0.05}
∪ {f : f > F16,10;0.05| {z }2.83
}
Nota: el cuantil F16,10;0.05 = 2.83aparece en la tabla de la F, pero noF16,10;1−0.05. Para calcularlopodemos emplear la propiedad de
esta distribucion Fn,m;α = 1Fm,n;1−α
Obtenemos
F16,10;1−0.05 =1
F10,16;0.05=
1
2.49= 0.402
Vemos que f = 15.38 ∈ RR0.10.Conclusion: Existe una fuerteevidencia de que las dos varianzaspoblacionales son distintas.
Contraste bilateral para el cociente de varianzas medianteintervalos de confianza
Ejemplo: 9.10 (Newbold cont.) Construya un intervalo de confianza al90% para el cociente de las varianzas.
IC0.90
(σ2
X
σ2Y
)=
(s2x
s2y
1
Fn1−1,n2−1;0.05,s2x
s2y
1
Fn1−1,n2−1;1−0.05
)=
(123.35
8.02
1
2.83,
123.35
8.02
1
0.402
)= (5.43, 38.26)
Como era de esperar por el resultado anterior, el valor 1 no pertenece aeste intervalo, y podemos rechazar la hipotesis nula de que las dosvarianzas poblacionales sean iguales, para un nivel de significacionα = 0.1.
Estadısticos pivotales
Parametro Hipotesis Estadıstico del contraste
Diferencias nor-malesMuestras pareadas
D−D0sD/√
n∼ tn−1
Pobls. normalesVarianzas iguales
X−Y−D0
sp
r1n1
+ 1n2
∼H0tn1+n2−2
µX − µY = D0Pobls. normalesVars. conocidas
X−Y−D0sσ2
Xn1
+σ2
Yn2
∼H0N(0, 1)
Pobls. no normalesVars. desconocidasMuestras grandes
X−Y−D0ss2Xn1
+s2Yn2
∼H0 aprox N(0, 1)
pX − pY = 0 Pobls. BernoulliMuestras grandes
pX−pYsp0(1−p0)
„1n1
+ 1n2
« ∼H0 aprox N(0, 1)
σ2X/σ
2Y = 1 Pobls. normales
s2X
s2Y
∼H0Fn1−1,n2−1
Pregunta: ¿Como definirıas RRα para contrastes unilaterales?