Estadística II Tema 3: Comparaciones de dos poblaciones

Tema 3. Comparaciones de dos poblaciones

Contenidos

I Hipotesis para la diferencia entre las medias de dos poblaciones:muestras pareadas

I Hipotesis para la diferencia entre las medias de dos poblaciones:muestras independientes

I Dos poblaciones normales con varianzas iguales (y desconocidas)I Dos poblaciones normales con varianzas conocidasI Dos poblaciones no normales y muestras grandes

I Dos poblaciones Bernoulli

I Hipotesis para la razon de las varianzas de dos poblaciones:muestras independientes

Objetivos de aprendizajeAl finalizar este tema, debieras ser capaz de:

I Llevar a cabo un contraste de hipotesis para la diferencia de lasmedias y para el cociente de las varianzas de dos poblaciones

I Construir intervalos de confianza para la diferencia o el cociente

I Diferenciar las situaciones en las que un contraste basado enmuestras pareadas es adecuado, de aquellas en las que se debeaplicar un contraste basado en muestras independientes

I Calcular la potencia de un contraste y la probabilidad de un error deTipo II

ReferenciasI Newbold, P. “Estadıstica para administracion y economıa”

I Capıtulo 9 (9.6-9.9)

I Ross, S. “Introduccion a la Estadıstica”I Capıtulo 10

Introduccion

En este tema estudiamos el caso en el que en lugar de disponer de unamuestra aleatoria, tenemos dos muestras aleatorias de dos poblaciones, yestamos interesados en contrastar:

I la diferencia entre las medias de las dos poblacionesI en el caso de muestras pareadasI y en el caso de muestras independientes

I el cociente entre las varianzas de las dos poblacionesI en el caso de muestras independientes

Emplearemos los procedimientos introducidos en los Temas 1 y 2 paraconstruir intervalos de confianza y realizar contrastes de hipotesis para lasdiferencias o cocientes de los parametros de las poblaciones indicados.

Contrastes para la diferencia entre dos medias: muestraspareadas

Ejemplo: Se ha llevado a cabo un estudio sobre la relacion entre laactividad cerebral mientras se ven anuncios en television y la capacidadde la persona para recordar dichos anuncios. Se han mostrado anunciosde dos marcas para diez productos a las personas en la muestra. Paracada anuncio se ha medido la capacidad de cada persona para recordarlopasadas 24 h., y a cada anuncio de un producto se le han asignado lasetiquetas “recuerdo fuerte” o “recuerdo debil”. La siguiente tablamuestra un ındice de la actividad cerebral de las personas que han vistoestos anuncios en el estudio.

producto: i 1 2 3 4 5 6 7 8 9 10recuerdo fuerte: xi 137 135 83 125 47 46 114 157 57 144recuerdo debil: yi 53 114 81 86 34 66 89 113 88 111dif.: di = xi − yi 84 21 2 39 13 −20 25 44 −31 33

I Sea X una poblacion con media µX e Y otra poblacion con mediaµY .

I Disponemos de una muestra aleatoria de n observaciones pareadasde ambas poblaciones, {(Xi ,Yi )}. Denotaremos como

d1 = x1 − y1, d2 = x2 − y2, . . . , dn = xn − yn

las n diferencias de valores con media d y cuasi desviacion tıpica sd .I Supondremos que la poblacion de las diferencias sigue una

distribucion normal.

I Contraste bilateral H0 : µX −µY = D0 frente a H1 : µX −µY 6= D0

I El estadıstico del contraste es

T =D − D0

sD/√

n∼H0 tn−1

I La region de rechazo (a un nivel de significacion α) es:

RRα = {t : t < −tn−1;α/2 o t > tn−1;α/2}

Ejemplo: cont.Poblacion:D = “diferencia entre recuerdofuerte y debil”D ∼ N(µX − µY , σ

' MAS: n = 10

Muestra: d = 21010 = 21

s2d = 142022−10(21)2

10−1 = 1088

Objetivo: contrastar

H0 : µX − µY ≤D0︷︸︸︷0 frente a H1 : µX − µY > 0

(Contraste unilateral)

Estadıstico del contraste:

T =D − D0

sD/√

n∼ tn−1

Valor observado del estadıstico:

D0 = 0 n = 10

d = 21 sd =√

1088 = 32.98

t =d − D0

sd/√

32.98/√

10= 2.014

Ejemplo: cont.

p-valor = P(T ≥ 2.014)

∈ (0.025, 0.05) ya que

t9;0.05︷︸︸︷1.833 < 2.014 <

t9;0.025︷︸︸︷2.262

Por tanto, como p-valor < α = 0.05,

rechazamos la hipotesis nula a este

nivel.

Densidad tn−1 | |

t=2.014

p−valor =area

1.833 2.262

Conclusion: La evidencia muestral apoya que en promedio la actividad cerebral

es mayor para el grupo con recuerdo fuerte que para el grupo con recuerdo

debil. Si la actividad cerebral promedio fuese igual para ambos grupos, la

probabilidad de obtener muestras tan extremas o mas que la observada estarıa

entre 0.025 y 0.05 (un valor bajo).

Ejemplo: cont. En Excel: Ir al menu “Datos”, submenu “Analisis dedatos”, seleccionar la opcion: “Prueba t para medias de dos muestrasemparejadas”Columnas A y B (datos), en amarillo se muestran el valor observado delestadıstico y el p-valor.

Contraste bilateral para la diferencia entre dos medias viaIC: muestras pareadas

Ejemplo: cont. Construir un intervalo de confianza al 95% para µX −µY .

IC0.95 (µX − µY ) =

(d − tn−1;0.025

sd√n, d + tn−1;0.025

sd√n

(21− 2.262

32.98√10

, 21 + 2.26232.98√

)= (−2.59, 44.59)

Como el valor 0 pertenece a este intervalo, no podemos rechazar lahipotesis nula de la igualdad de las medias de las dos poblaciones a unnivel de significacion de α = 0.05.

Contrastes para la diferencia entre dos medias: muestrasnormales independientes, varianzas de poblaciones iguales

I Sea X una poblacion con media µX y varianza σ2X , e Y otra poblacion con

media µY y varianza σ2Y

I ambas distribuidas normalmenteI con varianzas poblacionales desconocidas, pero iguales σ2 = σ2

X = σ2Y

I Muestras aleatorias de n1 observaciones de X y n2 observaciones de Y ,independientes.

I Contraste bilateral H0 : µX − µY = D0 frente a H1 : µX − µY 6= D0

I El estadıstico del contraste es

T =X − Y − D0

∼H0 tn1+n2−2

donde el estimador de la varianza comun para las dos poblaciones es

(n1 − 1)s2X + (n2 − 1)s2

n1 + n2 − 2

Nota: grados de libertad = n1 + n2 − 2 (numero de observaciones delas muestras menos dos - por tener que estimar µX y µY )

I La region de rechazo (para un nivel de significacion α) es:

RRα = {t : t < −tn1+n2−2;α/2 o t > tn1+n2−2;α/2}

Ejemplo: 9.8 (Newbold) Se estudia el efecto que la presencia de un moderadorpuede tener en el numero de ideas generadas en un grupo de trabajo. Seobservan grupos de cuatro personas, con y sin moderador. En una muestraaleatoria de cuatro grupos con moderador el numero promedio de ideasgeneradas por grupo fue 78.0, con cuasi desviacion tıpica muestral de 24.4.Para una muestra independiente de cuatro grupos sin moderador el promediode ideas generadas fue 63.5, y su cuasi desviacion tıpica fue 20.2. Suponiendoque distribuciones normales con varianzas iguales, contraste la hipotesis nula(para α = 0.1) de igualdad de medias, frente a la alternativa de que la mediade la poblacion es mayor para grupos con moderador.Poblacion 1:X = “numero de ideas en gruposcon moderador”X ∼ N(µX , σ

' MAS: n1 = 4

Muestra: x = 78.0sx = 24.4

Poblacion 2:Y = “numero de ideas en grupos sinmoderador”X ∼ N(µY , σ

' MAS: n2 = 4

Muestra: y = 63.5sy = 20.2

Suponemos muestras normales independientes y σ2X = σ2

Y = σ2

Ejemplo: 9.8 (Newbold cont.)

H0 : µX − µY =

D0z}|{0

frente a

H1 : µX − µY > 0

(Test unilateral)

T = X−Y

∼H0tn1+n2−2

D0 = 0 n1 = 4 n2 = 4

x = 78.0 sx = 24.4 y = 63.5 sy = 20.2

(n1 − 1)s2x + (n2 − 1)s2

n1 + n2 − 2

=(4 − 1)24.42 + (4 − 1)20.22

4 + 4 − 2

= 501.7

sp =√

501.7 = 22.4

t =x − y

1/n1 + 1/n2

=78.0 − 63.5

1/4 + 1/4= 0.915

Region de rechazo:

RR0.1 = {t : t >

1.440z }| {t6;0.1}

Como t = 0.915 /∈ RR0.1, no podemos rechazar la hipotesisnula a un nivel del 10%.

Conclusion: Los datos muestrales nocontienen suficiente evidencia parapensar que en promedio se generan masideas en grupos con moderador. Peropara tamanos muestrales tan pequenosel contraste tiene potencia baja y serıannecesarias diferencias muy grandesentre las medias de las poblaciones pararechazar la hipotesis nula.

Ejemplo: 9.8 (Newbold cont.) Construya un intervalo de confianza al99% para µX − µY .

IC0.99 (µX − µY ) =

(x − y ∓ tn1+n2−2;0.005sp

(78.0− 63.5∓ 3.707 · 22.4

)= (−44.22, 73.22)

Como el valor 0 pertenece a este intervalo, no podemos rechazar lahipotesis nula de igualdad de las medias de las dos poblaciones a un nivelde significacion α = 0.01.

Contrastes para la diferencia entre dos medias: muestrasgrandes independientes o dos poblaciones normales convarianzas conocidas

I Sea X una poblacion con media µX y varianza σ2X , e Y otra

poblacion con media µY y varianza σ2Y .

I Muestras aleatorias de n1 observaciones de X y n2 observaciones deY , independientes, y

I Bien tanto n1 como n2 son grandes y σ2X y σ2

Y son desconocidas,I O X e Y siguen distribuciones normales y σ2

X y σ2Y son conocidas

I Contraste bilateral H0 : µX −µY = D0 frente a H1 : µX −µY 6= D0I El estadıstico del contraste es:

I Bien

Z =X − Y − D0r

+s2Yn2

∼H0, aprox. N(0, 1)

Z =X − Y − D0r

n1+σ2

∼H0N(0, 1)

RRα = {z : z < −zα/2 o z > zα/2}

Ejemplo: 9.7 (Newbold) Se realiza un estudio entre auditores sobre la actividadde las mujeres en su profesion. A los encuestados se les pide que den su opinioncon un valor entre uno (muy en desacuerdo) y cinco (muy de acuerdo) sobre laafirmacion “En auditorıa se asignan los mismos trabajos a las mujeres y a loshombres”. De una muestra de 186 auditores (varones) se obtuvo una respuestapromedio de 4.059 con una cuasi desviacion tıpica de 0.839. Para una muestraindependiente de 172 mujeres auditoras la respuesta promedio fue de 3.680 conuna cuasi desviacion tıpica de 0.966. Contraste la hipotesis nula (paraα = 0.0001) de que las medias de las dos poblaciones son iguales, frente a laalternativa de que la media de la poblacion es mayor para auditores varones.

Poblacion 1:X = “respuesta de un auditor varon”X ∼ µX , σ

' MAS: n1 = 186

Muestra: x = 4.059sx = 0.839

Poblacion 2:Y = “respuesta de una mujer auditora”X ∼ µY , σ

' MAS: n2 = 172

Muestra: y = 3.680sy = 0.966

H0 : µX − µY =

D0z}|{0

frente a

H1 : µX − µY > 0

Z = X−Yss2Xn1

+s2Yn2

∼H0, aprox. N(0, 1)

D0 = 0 n1 = 186 n2 = 172

x = 4.059 sx = 0.839 y = 3.680 sy = 0.966

z =x − yq

s2x/n1 + s2

=4.059 − 3.680q

0.8392/186 + 0.9662/172

= 3.95

Region de rechazo:

RR0.0001 = {z : z >

3.75z }| {z0.0001}

Como z = 3.95 ∈ RR0.0001, rechazamos la hipotesis nula aun nivel del 0.01%.

Conclusion: Los datos contienen unaevidencia muy fuerte en favor de quela respuesta promedio entre losvarones es mayor que entre lasmujeres - esto es, en promedio losvarones estan mas convencidos quelas mujeres de que se asignan losmismos trabajos a las mujeres que alos hombres.

Ejemplo: 9.7 (Newbold) Construya un intervalo de confianza al 95%para µX − µY .

IC0.95 (µX − µY ) =

x − y ∓ z0.025

√s2x

(4.059− 3.680∓ 1.96

√0.8392/186 + 0.9662/172

)= (0.19, 0.57)

Como el valor 0 no pertenece a este intervalo, podemos rechazar lahipotesis nula de igualdad de las dos medias poblacionales a un nivel designificacion α = 0.05.

Contrastes para la diferencia entre dos proporciones:muestras grandes independientes

I Sea X ∼ Bernoulli(pX ) y sea Y ∼ Bernoulli(pY ), donde pX y pY sondos proporciones poblacionales para los individuos que cumplan unapropiedad de interes.

I Muestras aleatorias de n1 observaciones de X y n2 observaciones deY , independientes, y

I tanto n1 como n2 son grandes

I Contraste bilateral H0 : pX − pY = 0 frente a H1 : pX − pY 6= 0I El estadıstico del contraste es:

Z =pX − pYr

p0(1− p0)“

” ∼H0, aprox. N(0, 1),

p0 =n1pX + n2pY

n1 + n2

RRα = {z : z < −zα/2 or z > zα/2}

Ejemplo: 9.9 (Newbold) En Investigacion de Mercados, es importante conseguir un

porcentaje de respuestas elevado para las encuestas. Para mejorar este porcentaje se

puede incluir una pregunta inicial de motivacion que aumente el interes del encuestado

por completarlo. Se han enviado cuestionarios con pregunta de motivacion sobre la

mejora los espacios de ocio en una ciudad, a una muestra de 250 hogares, obteniendo

101 respuestas. Otros cuestionarios identicos sin pregunta de motivacion se han

enviado a otra muestra independiente de 250 hogares, obteniendo 75 respuestas.

Contraste la hipotesis nula de que las dos proporciones poblacionales sean iguales,

frente a la alternativa de que la tasa de respuestas sea mas elevada cuando se incluye

pregunta de motivacion.

Poblacion 1:X = 1 si una persona completa elcuestionario con pregunta demotivacion, y 0 en caso contrarioX ∼ Bernoulli(pX )

' MAS: n1 = 250

Muestra: px = 101250

= 0.404

Poblacion 2:Y = 1 si una persona completa elcuestionario sin pregunta de motivacion,y 0 en caso contrarioY ∼ Bernoulli(pY )

' MAS: n2 = 250

Muestra: py = 75250

= 0.300

H0 : pX = pY

frente a

H1 : pX > pY

Estadıstico del contraste:Z =

pX−pYsp0(1−p0)

„1n1

« ∼H0, aprox. N(0, 1)

n1 = 250 n2 = 250

px = 0.404 py = 0.300

p0 =n1px + n2py

n1 + n2

=250(0.404) + (250)(0.300)

250 + 250

= 0.352

z =px − pyr

p0(1− p0)“

0.404− 0.300q0.352(1− 0.352)

250 + 1250

´ = 2.43

p-valor = P(Z ≥ z) = P(Z ≥ 2.43) = 0.0075

Como el p-value es muy pequeno, podemosrechazar la hipotesis nula a cualquier nivel designificacion mayor que 0.0075.

Conclusion: Los datos muestralescontienen una fuerte evidencia deque al incluir una pregunta demotivacion se obtiene una tasa derespuesta mas elevada que cuandono se incluye.

Ejemplo: 9.9 (Newbold cont.) Construya un intervalo de confianza al95% para pX − pY .

IC0.95 (pX − pY ) =

px − py ∓ z0.025

sp0(1− p0)

0.404− 0.300∓ 1.96

s0.352(1− 0.352)

«!= (0.1877, 0.0203)

Como el valor 0 no pertenece a este intervalo, podemos rechazar lahipotesis nula de igualdad de las proporciones de las dos poblaciones paraun nivel de significacion α = 0.05.

Contrastes para el cociente de varianzas: muestrasnormales

I Sea X una poblacion con media µX y varianza σ2X , e Y otra

poblacion con media µY y varianza σ2Y ,

I ambas distribuidas normalmente

I Muestras aleatorias de n1 observaciones de X y n2 observaciones deY , independientes.

I Contraste bilateral H0 : σ2X = σ2

Y (= σ2) frente a H1 : σ2X 6= σ2

YI El estadıstico del contraste es

F =s2X

∼H0 Fn1−1,n2−1

RRα = {f : f < Fn1−1,n2−1;1−α/2 o f > Fn1−1,n2−1;α/2}

La distribucion FX1,X2, . . . ,Xn y Y1,Y2,Y3, . . . ,Ym

son dos conjuntos de variablesaleatorias independientes, condistribucion N(0, 1). La variablealeatoria (cociente de dos v.a.schi-cuadrado normalizadas)

F =1n1m

Pni=1 X 2

iPmi=1 Y 2

sigue una distribucion Fn,m con n ym grados de libertad. Para elresultado de la transparenciaanterior:

1n1−1

χ2n1−1z }| {

(n1 − 1)s2X

1n2−1

(n2 − 1)s2Y

σ2| {z }χ2

n2−1

∼ Fn1−1,n2−1

Densidades F

0 2 4 6 8

gl1=30 gl2=30gl1=10 gl2=15gl1=8 gl2=8gl1=5 gl2=3

Ejemplo: 9.10 (Newbold) Para una muestra de 17 bonos industrialesemitidos recientemente con calificacion AAA, la cuasi varianza de susvencimientos (en anos al cuadrado) fue de 123.35. Para otra muestraindependiente de 11 bonos industriales emitidos con calificacion CCC, lacuasi varianza de sus vencimientos fue de 8.02. Si se denotan lascorrespondientes varianzas poblacionales como σ2

X y σ2Y , lleve a cabo un

contraste bilateral para compararlas al 5%.

Poblacion 1:X vencimiento de bonos AAA (en anos)X ∼ N(µX , σ

' MAS: n1 = 17

Muestra: s2x = 123.35

Poblacion 2:Y vencimiento de bonos CCC (en anos)Y ∼ N(µY , σ

' MAS: n2 = 11

Muestra: s2y = 8.02

H0 : σ2X = σ2

frente a

H1 : σ2X 6= σ2

(Contraste bilateral)

Estadıstico del contraste:F =

s2Y∼H0 Fn1−1,n2−1

n1 = 17 n2 = 11

s2x = 123.35 s2

y = 8.02

f =123.35

8.02= 15.38

Region de rechazo:

RR0.10 = {f : f <

0.402z }| {F16,10;1−0.05}

∪ {f : f > F16,10;0.05| {z }2.83

Nota: el cuantil F16,10;0.05 = 2.83aparece en la tabla de la F, pero noF16,10;1−0.05. Para calcularlopodemos emplear la propiedad de

esta distribucion Fn,m;α = 1Fm,n;1−α

Obtenemos

F16,10;1−0.05 =1

F10,16;0.05=

2.49= 0.402

Vemos que f = 15.38 ∈ RR0.10.Conclusion: Existe una fuerteevidencia de que las dos varianzaspoblacionales son distintas.

Contraste bilateral para el cociente de varianzas medianteintervalos de confianza

Ejemplo: 9.10 (Newbold cont.) Construya un intervalo de confianza al90% para el cociente de las varianzas.

IC0.90

Fn1−1,n2−1;0.05,s2x

Fn1−1,n2−1;1−0.05

(123.35

123.35

)= (5.43, 38.26)

Como era de esperar por el resultado anterior, el valor 1 no pertenece aeste intervalo, y podemos rechazar la hipotesis nula de que las dosvarianzas poblacionales sean iguales, para un nivel de significacionα = 0.1.

Estadısticos pivotales

Parametro Hipotesis Estadıstico del contraste

Diferencias nor-malesMuestras pareadas

D−D0sD/√

n∼ tn−1

Pobls. normalesVarianzas iguales

X−Y−D0

∼H0tn1+n2−2

µX − µY = D0Pobls. normalesVars. conocidas

X−Y−D0sσ2

∼H0N(0, 1)

Pobls. no normalesVars. desconocidasMuestras grandes

X−Y−D0ss2Xn1

+s2Yn2

∼H0 aprox N(0, 1)

pX − pY = 0 Pobls. BernoulliMuestras grandes

pX−pYsp0(1−p0)

„1n1

« ∼H0 aprox N(0, 1)

σ2X/σ

2Y = 1 Pobls. normales

∼H0Fn1−1,n2−1

Pregunta: ¿Como definirıas RRα para contrastes unilaterales?

Estadística II Tema 3: Comparaciones de dos poblaciones

Documents

Transcript of Estadística II Tema 3: Comparaciones de dos poblaciones

1 Programa MERCOSUR de Comparaciones Interlaboratorios.

Voleibol y Baloncesto (comparaciones)

Metodo De Las Comparaciones Binarias Thurstone

HISTORIA DE LAS COMPARACIONES GENETICAS

Incendio La Nueva Póliza – Algunas Experiencias. Agenda Comparaciones Relevantes Comparaciones Relevantes Concurrencia e Infraseguro Concurrencia e Infraseguro.

Comparaciones Múltiples

COMPARACIONES - LCPS

Guía de Ejercicios de Estadística II (Sin Dos Poblaciones)

Comparaciones entre sistema privado y nacional

LAS COMPARACIONES. I. Comparaciones de igualdad: comparing adjectives Fita está tan contenta como Pita.. tan + adjective + como.

Comparaciones Cm Reformado

Comparaciones del romanticismo y la actualidad

Comparaciones Múltiples Entre Medias

Comparaciones de casas comerciales

Para hacer comparaciones en español…

Política emprendimiento corfo comparaciones internacionales

Comparaciones soldadura smaw y oxiacetilenica

Datos y comparaciones del champiñón.

Comparaciones indirectas sefap teoria2

Comparaciones billete polimero y comun