Diseños con una fuente de

109
Diseños con una fuente de variación Prof. José Antonio Vilar Fernández Departamento de Matemáticas, Universidade da Coruña Diseño y Análisis de Experimentos Master Oficial en Técnicas Estadísticas Curso 2008/09

Transcript of Diseños con una fuente de

Page 1: Diseños con una fuente de

Diseños con una fuente de variación

Prof. José Antonio Vilar FernándezDepartamento de Matemáticas, Universidade da CoruñaDiseño y Análisis de ExperimentosMaster Oficial en Técnicas EstadísticasCurso 2008/09

Page 2: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 2

Introducción

DISEÑO Regla para determinar como asignar las unidades experimentales (u.e.) a los distintos tratamientos.

DISEÑO COMPLETAMENTE ALEATORIZADOLas u.e. se asignan a los tratamientos al azar, con la única restricción del número de observaciones a tomar para cada tratamiento.

Page 3: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 3

Notación preliminarNOTACIÓN:

Número de u.e. que reciben el i-ésimo tratamiento

Número total de tratamientos

Número total de observaciones

I

ni

n =

IXi=1

ni

Page 4: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 4

Ejemplo 1 (1)

Se desea comprobar si ciertos cambios en el proceso de fabricación del cemento aumentan su resistencia a la compresión.

Se compara la resistencia de probetas construidas con el método tradicional (A), con aquellas fabricadas con los procedimientos que se desean probar (B y C).

632038

657623

372642

333014

612716

CBA

Page 5: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 5

Ejemplo 1 (2)

A B C0

20

40

60

80

Page 6: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 6

Modelo matemático

⎛⎜⎜⎜⎜⎝y11 y21 y31y12 y22 y32y13 y23 y33y14 y24 y34y15 y25 y35

⎞⎟⎟⎟⎟⎠ =⎛⎜⎜⎜⎜⎝µ1 µ2 µ3µ1 µ2 µ3µ1 µ2 µ3µ1 µ2 µ3µ1 µ2 µ3

⎞⎟⎟⎟⎟⎠ +⎛⎜⎜⎜⎜⎝

ε11 ε21 ε31ε12 ε22 ε32ε13 ε23 ε33ε14 ε24 ε34ε15 ε25 ε35

⎞⎟⎟⎟⎟⎠

En el ejemplo:

Yit = µi + εit

Page 7: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 7

Modelo matemático

Observación t-ésimadel i-ésimo tratamiento

Error aleatorio

Yit|{z}aleatorio

=

deterministaz}|{µi + εit|{z}

aleatorio

Respuesta media con el i-ésimo tratamiento

Page 8: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 8

Modelo matemático

Yit|{z}aleatorio

=

deterministaz }| {µ+ τi + εit|{z}

aleatorio

Yit|{z}aleatorio

=

deterministaz}|{µi + εit|{z}

aleatorio

Page 9: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 9

Modelo matemático

Yit|{z}aleatorio

=

deterministaz }| {µ+ τi + εit|{z}

aleatorio

Observación t-ésimadel i-ésimo tratamiento

Constante Efecto del tratamiento i-ésimorespecto a la constante

Error aleatorio

Page 10: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 10

Ejemplo 1 (3)

⎛⎜⎜⎜⎜⎝µ µ µµ µ µµ µ µµ µ µµ µ µ

⎞⎟⎟⎟⎟⎠ +⎛⎜⎜⎜⎜⎝

τ1 τ2 τ3τ1 τ2 τ3τ1 τ2 τ3τ1 τ2 τ3τ1 τ2 τ3

⎞⎟⎟⎟⎟⎠ +⎛⎜⎜⎜⎜⎝

ε11 ε21 ε31ε12 ε22 ε32ε13 ε23 ε33ε14 ε24 ε34ε15 ε25 ε35

⎞⎟⎟⎟⎟⎠

⎛⎜⎜⎜⎜⎝y11 y21 y31y12 y22 y32y13 y23 y33y14 y24 y34y15 y25 y35

⎞⎟⎟⎟⎟⎠ =

Page 11: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 11

Modelo matemáticoYit = µi + εit

Yit = µ+ τi + εit

Yit = k +I−1Xj=1

αjXj + εit

con Xj = 1 si i = j y 0 en otro caso

Page 12: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 12

Modelo matemático

Hipótesis estructurales:

εit son i.i.d. segun una N (0,σ) ∀i, t

Yit son i.i.d. segun una N (µi,σ) ∀i, t

Page 13: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 13

µ1

µ2

µ3

σ

σ

σ

0

ε21

y21 = µ2 + ε21

µ2

Page 14: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 14

µ µσ

σ

σ

τ2

0

ε21

y21 = µ + τ2 + ε21

µ

Page 15: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 15

Estimación puntual.En general interesará estimar los parámetros individualmente y estimar funciones de dichos parámetros.

Parámetros individuales:

o bien

Funciones de parámetros, como por ejemplo:

Contraste:

Combinación lineal de los efectos tal que

µ, τ1, τ2, . . . , τI , σ

µ1, µ2, . . . , µI , σ

Pbi = 0

Pbiτi

Page 16: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 16

Estimación puntual: Mínimos cuadrados

µi = µ+ τi =1

ni

niXt=1

yit = yi.

IXi=1

niXt=1

[yit − (µ+ τi)]2 = min

µ,τ1,...,τI

IXi=1

niXt=1

e2itz }| {[yit − (µ+ τi)]

2

Estimación mínimo-cuadrática: Seleccionar como estimadores puntuales los valores que verifican:µ, τ1,. . . , τI

El problema de minimización anterior conduce a soluciones únicas para cada :µi

Page 17: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 17

Estimación puntual: Mínimos cuadrados

Sin embargo NO existen soluciones únicas para µ, τ1,. . . , τI

Algunas restricciones que se suelen emplear para aportar soluciones únicas e interpretables son:

F Imponer µ = 0 ⇒½µ = 0τi = yi. ∀i = 1, . . . , I

F Imponer

IXi=1

niτi = 0 ⇒

⎧⎪⎨⎪⎩ µ =1

n

IXi=1

niXt=1

yit = y..

τi = yi. − y.., ∀i = 1, . . . , IF Imponer τI = 0 ⇒

½µ = yI.τi = yi. − yI., ∀i 6= I

Page 18: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 18

Ejemplo 1 (4)

eityit yi.

y.. yi. − y..

= +

+

⎛⎜⎜⎜⎜⎝16 27 6114 30 3342 26 3738 20 6323 76 65

⎞⎟⎟⎟⎟⎠ =⎛⎜⎜⎜⎜⎝26.6 35.8 51.826.6 35.8 51.826.6 35.8 51.826.6 35.8 51.826.6 35.8 51.8

⎞⎟⎟⎟⎟⎠+⎛⎜⎜⎜⎜⎝−10.6 −8.8 9.2−12.6 −5.8 −18.815.4 −9.8 −14.811.4 −15.8 11.2−3.6 40.2 13.2

⎞⎟⎟⎟⎟⎠

⎛⎜⎜⎜⎜⎝38.07 38.07 38.0738.07 38.07 38.0738.07 38.07 38.0738.07 38.07 38.0738.07 38.07 38.07

⎞⎟⎟⎟⎟⎠+⎛⎜⎜⎜⎜⎝−11.47 −2.27 13.73−11.47 −2.27 13.73−11.47 −2.27 13.73−11.47 −2.27 13.73−11.47 −2.27 13.73

⎞⎟⎟⎟⎟⎠ EFECTOS

RESIDUOS

Page 19: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 19

Ejemplo 1 (4)

eityit yi.= +

+

⎛⎜⎜⎜⎜⎝16 27 6114 30 3342 26 3738 20 6323 76 65

⎞⎟⎟⎟⎟⎠ =⎛⎜⎜⎜⎜⎝26.6 35.8 51.826.6 35.8 51.826.6 35.8 51.826.6 35.8 51.826.6 35.8 51.8

⎞⎟⎟⎟⎟⎠+⎛⎜⎜⎜⎜⎝−10.6 −8.8 9.2−12.6 −5.8 −18.815.4 −9.8 −14.811.4 −15.8 11.2−3.6 40.2 13.2

⎞⎟⎟⎟⎟⎠

EFECTOS

RESIDUOSy3. yi. − y3.⎛⎜⎜⎜⎜⎝51.80 51.80 51.8051.80 51.80 51.8051.80 51.80 51.8051.80 51.80 51.8051.80 51.80 51.80

⎞⎟⎟⎟⎟⎠+⎛⎜⎜⎜⎜⎝−25.20 −16.00 00.00−25.20 −16.00 00.00−25.20 −16.00 00.00−25.20 −16.00 00.00−25.20 −16.00 00.00

⎞⎟⎟⎟⎟⎠

Page 20: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 20

Estimación puntual: PropiedadesPropiedades de interés:

Teorema de Gauss-MarkovPara todo modelo lineal cuyas variables error sean normales, independientes y con varianza común, los estimadores mínimo-cuadráticos de cualquier función estimable son únicos, insesgados y de varianza mínima.

Y i. ∼ Nµµ+ τi,

σ√ni

IXi=1

ciY i. ∼ N⎛⎝ IXi=1

ciτi, σ

vuut IXi=1

c2ini

⎞⎠

Page 21: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 21

Estimación puntual: VarianzaResiduo: Diferencia entre lo observado y lo previsto por el modelo estimado.

En el modelo en estudio:

Suma de residuos al cuadrado o suma de cuadrados residual:

eit = yit − µi = yit − yi·

scR =

IXi=1

niXt=1

e2it =

IXi=1

niXt=1

(yit − yi.)2

e|{z}Residuo

= y|{z}V alor observado

− y|{z}Previsto modelo

Page 22: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 22

Estimación puntual: VarianzaLa v.a. SUMA DE CUADRADOS RESIDUAL (SCR) verifica:

F E(SCR) =

IXi=1

(ni − 1)E³S2i

´= (n − I)σ2

F SCR =IXi=1

niXt=1

¡Yit − Y i.

¢2=

IXi=1

(ni − 1) S2i

F SCR

σ2∼ χ2n−I

Page 23: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 23

Estimación puntual: VarianzaComo se tiene que un estimador insesgadode la varianza del modelo es la Suma de Cuadrados Residual Media o Varianza Residual o Varianza Intra-Tratamientos (SCMR):

E(SCR) = (n− I)σ2

σ2 = SCMR =SCR

n− I

Y un intervalo de confianza al para es:

SCR/σ2 ∼ χ2n−I

(n− I)SCMRσ2

∼ χ2n−I

Como la SCMR verifica:

100(1 − α)% σ2

σ2

Ã0,

scR

χ2n−I,1−α

!

Page 24: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 24

Ejemplo 1 (5)

La matriz de residuos del ejemplo es:

Los residuos dentro de cada tratamiento suman cero.

scR = (−10.6)2 ++ . . .+ (13.2)2 = 3679.20

⎛⎜⎜⎜⎜⎝−10.6 −8.8 9.2−12.6 −5.8 −18.815.4 −9.8 −14.811.4 −15.8 11.2−3.6 40.2 13.2

⎞⎟⎟⎟⎟⎠

σ2 = scmR =scR

n− I =3679.20

12= 306.60

Un intervalo de confianza al 95% para es:σ2

Ã0,3679.20

χ212,0.95

!= (0, 704)

Page 25: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 25

Análisis de la Varianza: Planteamiento½H0 : τ1 = τ2 = . . . = τIH1 : Existen i, j, con i 6= j, tales que τi 6= τj

⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎩

H0 :

⎧⎨⎩ Yit = µ+ τ + ε0it, con ε0it i.i.d. segun una N (0,σ) ∀i, t

(Modelo Reducido)

H1 :

⎧⎨⎩ Yit = µ+ τi + εit, con εit i.i.d. segun una N (0,σ) ∀i, t

(Modelo Completo)

Page 26: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 26

Análisis de la Varianza: Primer enfoque

242220

252221

232220

242219

242220

yit

yi. 242220

351225

23810

44300

15845

yit

yi.

SIGNIFICATIVO NO SIGNIFICATIVO

Page 27: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 27

Análisis de la Varianza: Primer enfoque• COMPARAR (dividir):

Variabilidad entre las medias de los tratamientos (VARIANZA INTER-TRATAMIENTOS O ENTRE TRATAMIENTOS)

CON

Variabilidad dentro de los tratamientos (VARIANZA INTRA-TRATAMIENTOS O DENTRO DE LOS TRATAMIENTOS)

• Si el cociente es “grande”, las diferencias entre los tratamientos no pueden ser explicadas por el error experimental. Se concluye que SI existen diferencias significativas.

• Si el cociente es “pequeño”, las diferencias entre los tratamientos pueden ser atribuidas al error experimental. Se concluye que NO existen diferencias significativas.

Page 28: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 28

VarianzaIntra-tratamientos

VarianzaInter-tratamientos

Page 29: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 29

Análisis de la Varianza: Segundo enfoque

⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎩

H0 :

⎧⎨⎩ Yit = µ+ τ + ε0it, con ε0it i.i.d. segun una N (0,σ) ∀i, t

(Modelo Reducido)

H1 :

⎧⎨⎩ Yit = µ+ τi + εit, con εit i.i.d. segun una N (0,σ) ∀i, t

(Modelo Completo)

Un enfoque alternativo puede obtenerse retomando el planteamiento del contraste como una decisión entre Modelo Reducido y Modelo Completo:

Page 30: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 30

Análisis de la Varianza: Segundo enfoqueF Se demuestra que en el modelo reducido el estimador mınimo-cuadraticode µ+ τ es la media muestral de todas las observaciones, y.., de modo quela suma de cuadrados residual del modelo reducido es:

scR0 =IXi=1

niXt=1

(yit − y..)2

F Si H0 es falsa (al menos dos efectos tratamiento difieren) la suma decuadrados residual scR bajo el modelo completo es considerablemente maspequena que la suma de cuadrados residual del modelo reducido scR0. Porel contrario, si H0 es cierta ambas seran muy similares.

F Ambas sumas de cuadrados se pueden relacionar por medio de:

scR0 − scR = scT

Page 31: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 31

e21

e38

e12

e29 e21

e29e12

e38

Residuos (Modelo completo) Residuos (Modelo reducido)

Page 32: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 32

Análisis de la Varianza: Descomposición de la variabilidad

Suma deCuadradosGlobal (scG)z }| {

IXi=1

niXt=1

(yit − y..)2| {z }g.l.=n−1

=

Suma deCuadrados

Explicada (scT )z }| {IXi=1

ni (yi. − y..)2| {z }g.l.= I−1

+

Suma deCuadrados

Residual (scR)z }| {IXi=1

niXt=1

(yit − yi.)2| {z }g.l.=n−I

Page 33: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 33

Análisis de la Varianza: Descomposición de la variabilidadDividiendo por los correspondientes grados de libertad se obtienen tres esti-

maciones distintas de σ2:

σ21 =1

n− 1IXi=1

niXt=1

(yit − y..)2 = scmG

σ22 =1

I − 1IXi=1

ni (yi. − y..)2 = scmT

σ23 =1

n− IIXi=1

niXt=1

(yit − yi.)2 = scmR

Page 34: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 34

Análisis de la Varianza: Descomposición de la variabilidad

F Rechazar H0 al nivel α si

F =scmT

scmR> FI−1,n−I,α

F En general: E (SCMT ) = σ2 +Q(τi), siendo

Q(τi) =1

I − 1IXi=1

ni

⎛⎝τi − 1n

IXj=1

njτj

⎞⎠2F Bajo H0:

SCT

σ2∼ χ2I−1 y

SCMT

SCMR∼ FI−1,n−I

Page 35: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 35

Residual

Tratamientos

Global

F-TestSCMg.l.Suma de Cuadrados

Fuente de Variación

scT =IXi=1

niXt=1

(yi. − y..)2scmT =scT

I − 1I − 1scmT

scmR

n− I

n− 1

scR =IXi=1

niXt=1

(yit − yi.)2scmR =scR

n− I

scG =IXi=1

niXt=1

(yij − y..)2

Cuadro ANOVA I

Page 36: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 36

Coeficiente de determinación

Se denomina Coeficiente de Determinación asociado al modelo al porcentaje de variabilidad de los datos que explica el modelo respecto de la variabilidad global.

Esto es:

R2 = 100× scT

scG

Page 37: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 37

Ejemplo 1 (6)

306.60123679.20Residual

2.65813.0721626.13Tratamientos

145305.33Global

F-TestSCMg.l.Suma de

CuadradosFuente de Variación

Se concluye que no existen diferencias significativas al 5% entre los tres métodos (no rechazo de la nula).

½H0 : τ1 = τ2 = τ3 = τH1 : Existen i, j, con i 6= j, tales que τi 6= τj

F = 2.65 < F2,12,0.05 = 3.89

Page 38: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 38

Ejemplo 1 (6)

306.60123679.20Residual

2.65813.0721626.13Tratamientos

145305.33Global

F-TestSCMg.l.Suma de

CuadradosFuente de Variación

½H0 : τ1 = τ2 = τ3 = τH1 : Existen i, j, con i 6= j, tales que τi 6= τj

Las diferencias entre los tipos de cemento explican hasta el 30.65% de la dispersión de los resultados.

R2 = 100× 1626.135305.33

= 30.65

Page 39: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 39

Determinación del tamaño muestral: Criterio ANOVA

Problema:

Algoritmo para calcular los tamanos muestrales ni = r, i = 1, . . . , I,preservando una potencia predeterminada Π (∆), con ∆ denotando ladiferencia real maxima entre dos tratamientos cualesquiera que se deseadetectar, para I, α y σ2 dados.

r =2Iσ2φ2

∆2

En las tablas del Apendice se obtiene Πα (φ), siendo φ tal que

y con ν1 = I − 1 y ν2 = n− I

Page 40: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 40

Determinación del tamaño muestral: Criterio ANOVA

ALGORITMO

5. Repetir los pasos 2 a 4 hasta que el valor de r no varıe o se muevaentre dos valores. En este ultimo caso seleccionar el mayor.

3. Segun la potencia especificada para ∆, deducir de la tabla el valor deφ por interpolacion.

4. Calcular r =2Iσ2φ2

∆2, redondeando al entero mas proximo.

2. En la primera iteracion usar ν2 = 1000. En las siguientes considerarν2 = n− I = I(r − 1).

1. Encontrar seccion tabla para α y ν1 = I − 1.

Page 41: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 41

Determinación del tamaño muestral: Criterio ANOVA. Ejemplo 2

I = 3, ∆ = 0.25, SCMR = 0.007, Π (∆) = 0.90 y α = 0.05.

En la 1ª iteración: r =2Iσ2φ2

∆2= 0.672φ2, ν1 = 2 y ν2 = 1000.

Redondear a3.652.33125

Redondear a4.132.4894

Redondear a3.652.331000Acciónν2 = 3(r − 1)r r = 0.672φ2φ

r = 4

r = 4r = 5

CONCLUSIÓN: Tomar datos en cada tratamiento.r = 5

Page 42: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 42

Estimación puntual de contrastesEl estimador puntual mínimo cuadrático de un contraste

está dado por:

biτi (Pbi = 0)

biY i.

⇔ [b1, b2, . . . , bI ]

Bajo normalidad e independencia de las observaciones:

IXi=1

biY i. ∼ N⎛⎝ IXi=1

biτi,σ

vuut IXi=1

b2ini

⎞⎠

Page 43: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 43

Contrastes “pairwise”

τi − τj = 0

bi = 1, bj = −1, bk = 0 para k 6= i, jm

Y i. − Y j. ∼ NÃτi − τj ,σ

s1

ni+1

nj

!

Page 44: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 44

Contrastes tratamiento frente a control

mb1 = −1, bi = 1, bk = 0 para k 6= 1, i

τi − τ1 = 0

Y i. − Y 1. ∼ Nµτi − τ1,σ

r1

ni+1

n1

¶Control

Page 45: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 45

Contrastes de diferencias de medias

Comparan el efecto medio de un subgrupo de medias con el efecto medio de otro subgrupo de medias.

Por ejemplo:

1

2(τ1 + τ2)− 1

3(τ3 + τ4 + τ5)⇔

∙1

2,1

2,−13,−13,−13

¸

Page 46: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 46

Contrastes de tendencias

Cuando los tratamientos son cuantitativos y tienen un orden natural podría interesar conocer si la respuesta crece o decrece con un incremento de los tratamientos o, más aún, si esa tendencia se mantiene constante o no.

Se habla entonces de contrastes de tendencia.

Los coeficientes de contrastes de tendencias para niveles igualmente espaciados (entre 3 y 5) de un factor tratamiento con tamaños muestrales iguales son:

Page 47: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 47

Contrastes de tendenciasTendencia b1 b2 b3 b4 b5

I = 3Lineal −1 0 1Cuadratica 1 −2 1

I = 4Lineal −3 −1 1 3Cuadratica 1 −1 −1 1Cubica −1 3 −3 1

I = 5Lineal −2 −1 0 1 2Cuadratica 2 −1 −2 −1 2Cubica −1 2 0 −2 1Grado 4 1 −4 6 −4 1

Page 48: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 48

Intervalo de confianza para un contraste

Un intervalo de confianza, al nivel 1 − α, 0 < α < 1, para

el contraste

IXi=1

biτi, con

IXi=1

bi = 0, es:

IXi=1

biτi ∈⎛⎝ IXi=1

biY i. ∓ tn−I,α/2

vuutscmR IXi=1

b2ini

⎞⎠

Page 49: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 49

Test de hipótesis sobre un contraste

Rechazar H0 si

¯¯¯

IXi=1

biY i.vuutscmR IXi=1

b2ini

¯¯¯ > tn−I,α/2

H0 :IXi=1

biτi = 0 frente a H1 :IXi=1

biτi 6= 0

La regla de decision a un nivel de significacion α es:

Page 50: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 50

Test de hipótesis sobre un contraste

H0 :IXi=1

biτi = 0 frente a H1 :IXi=1

biτi 6= 0

La regla de decision a un nivel de significacion α es:

Rechazar H0 si

ÃIXi=1

biY i.

!2

scmR

IXi=1

b2ini

> F1,n−I,α

Page 51: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 51

Test de hipótesis sobre un contraste

H0 :IXi=1

biτi = 0 frente a H1 :IXi=1

biτi 6= 0

La regla de decision a un nivel de significacion α es:

Rechazar H0 si

ÃIXi=1

biY i.

!2

scmR

IXi=1

b2ini

> F1,n−I,α

scC

Page 52: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 52

Test de hipótesis sobre un contraste

H0 :IXi=1

biτi = 0 frente a H1 :IXi=1

biτi 6= 0

La regla de decision a un nivel de significacion α es:

Rechazar H0 siscC

scmR> F1,n−I,α

Page 53: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 53

Contrastes ortogonales

Dos contrastes

IXi=1

ci τi y

IXj=1

dj τj se dicen ortogonales si y

solo si sus estimadores mınimo cuadraticos son incorrelados.

IXi=1

ci µi yIXj=1

dj µj son ortogonales ⇔IXi=1

cidini

= 0

1. Se prueba que, dados I tratamientos, existe un maximo deI − 1 contrastes mutuamente ortogonales (que se llamaconjunto completo de contrastes ortogonales).

Page 54: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 54

Contrastes ortogonales

Dos contrastes

IXi=1

ci τi y

IXj=1

dj τj se dicen ortogonales si y

solo si sus estimadores mınimo cuadraticos son incorrelados.

IXi=1

ci µi yIXj=1

dj µj son ortogonales ⇔IXi=1

cidini

= 0

2. Entonces, por la independencia de los respectivos estimadores,la suma de cuadrados de un contraste puede descompon-erse en la suma de las sumas de cuadrados de cada unode los contrastes de un conjunto completo.

Page 55: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 55

Métodos de comparaciones múltiples

En ocasiones se desea analizar un numero de com-paraciones muy grande, de modo que la probabilidadde que alguna comparacion individual resulte signi-ficativa erroneamente es alarmantemente grande.

Page 56: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 56

Métodos de comparaciones múltiplesSupongase que interesa resolver todas las pruebas de hipotesis siguientes:

Prueba (ij) : H ij0 : τi = τj frente a H

ij1 : τi 6= τj ∀i, j = 1, . . . , I, i 6= j

Existen m =

µI

2

¶pruebas (si, por ejemplo, I = 6 entonces m = 15).

Se resuelven una por una a un nivel α.

P (Aij) = P

ïY i. − Y j.

¯ ≤ tn−I,α/2 √scmRs

1

ni+1

nj

!= 1− α

Si Aij =naceptar H ij

0 siendo τi = τj

o, entonces:

¿P (A) = P³nrechazar erroneamente alguna Hij

0

o´= P

¡∪mij Aij¢ ?

Page 57: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 57

Métodos de comparaciones múltiplesSupongase que interesa resolver todas las pruebas de hipotesis siguientes:

Prueba (ij) : H ij0 : τi = τj frente a H

ij1 : τi 6= τj ∀i, j = 1, . . . , I, i 6= j

¿P (A) = P³nrechazar erroneamente alguna Hij

0

o´= P

¡∪mij Aij¢ ?

P (A) = P¡∪mijAij¢ = P ¡∩mijAij¢ = 1− (1− α)m

En el supuesto de que los sucesos Aij fuesen independientes(obviamente no lo son):

Si α = 0.05 y m = 15:

P (A) = 1 − 0.9515 = 1 − 0.46 = 0.54.

Page 58: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 58

Métodos de comparaciones múltiplesDado un conjunto de m contrastes

nPIi=1 b

ji τi

omj=1, se rechaza la

hipotesis H j0 :

PIi=1 b

ji τi = 0, a un nivel de significacion como

maximo α, siempre que:¯¯IXi=1

bji τi

¯¯ ≥ ω ×

vuutdV arà IXi=1

bji τi

!

El valor de ω depende de:

• el numero de pruebas simultaneas, m,• cada metodo,

• el numero de grados de libertad del estimador dela varianza del contraste.

Page 59: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 59

Método de BonferroniConsiste en determinar previamente a que nivel designificacion α? es necesario realizar cada una de lasm pruebas para garantizar un nivel de significacionglobal prefijado α para el conjunto de las m pruebas.

P (A) = P¡ ∪mk=1Ak¢ ≤ mX

k=1

P (Ak) = mα? = α⇒ α? =

α

m

ωB = tn−I,α/(2m)

Page 60: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 60

Método de Bonferroni

tn−I,α/(2m) = zα/(2m)

µ1− zα/(2m) + 1

4(n− I)¶−1

F Usar solo para pruebas de hipotesis preplanificadas.

F Es excesivamente conservador y solo resulta mas potente queotros procedimientos cuando m es muy pequeno.

F Sim es muy grande, α/(2m) sera tan pequeno que tn−I,α/(2m)no vendra en las tablas.

Aproximar por:

F Es valido para cualquier tipo de diseno.

Page 61: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 61

Método de SchefféProporciona una mınima diferencia significativa queno depende del numero de pruebas m a realizar.

ωS =q(I − 1)FI−1,n−I,α

Page 62: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 62

Método de Scheffé

F El F -test del Anova resulta significativo al nivelα si al menos una de las infinitas pruebas dehipotesis simultaneas de Scheffe lo es.

F Es valido para cualquier tipo de diseno.

F Si m es muy grande, resulta mas potente queel metodo de Bonferroni.

F Solo depende de I y de n, pero no de m.

F Puede usarse con contrastes no preplanificados.

F Es especialmente adecuado cuando se precisencomparar otros contrastes ademas de las com-paraciones a pares.

Page 63: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 63

Método de Tukey para contrastes pairwiseEspecialmente adecuado cuando se desean analizartan solo los contrastes de comparaciones a pares opairwise.Sea ni = r ∀i. Supuesta normalidad e independencia:

Q =max1≤i≤I Y i. −min1≤i≤I Y i.r

SCMR

r

tiene distribucion conocida, que se denomina, dis-tribucion del rango estudentizado y que depende delos grados de libertad del estimador de la varianza yde I.

Page 64: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 64

Método de Tukey para contrastes pairwiseEntonces, si qI,n−I,α denota el percentil 100(1− α):P

ïmax1≤i≤I

Y i. − min1≤i≤I

Y i.

¯≤ qI,n−I,α

rSCMR

r

!= 1−α⇒

P

ïY i. − Y j.

¯ ≤ qI,n−I,α rSCMR

r; ∀i, j

!= 1−α

Rechazar cada hipotesis nula del tipo: H0 : τi − τj = 0,a un nivel de significacion exactamente α, si:¯

yi. − yj.¯ ≥ qI,n−I,α√

2×sscmR

µ1

r+1

r

¶ωT

Page 65: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 65

Método de Tukey para contrastes pairwiseF El nivel de significacion global es exactamente

α cuando ni = r, ∀i = 1, . . . , I.

F En otro caso es solo aproximado y el nivel designificacion es como maximo α.

F Esta especialmente recomendado para contrastesde comparaciones a pares balanceados, dondees mas potente que los metodos de Bonferroniy Scheffe.

Page 66: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 66

Un ejemplo a efectos de comparación

Si I = 5, n = 35 y α = 0.05, entonces:

• ωB = t30,0.025/10 = 3.02• ωS =

p4F4,30,0.05 = 3.28

• ωT = q5,30,0.05/√2 = 2.91

Page 67: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 67

Otros métodos

Test de Dunnet

LSD (Least Significative Difference) de Fisher

Test de Rango Multiple de Duncan

Test de Newman y Keuls

Test de Hsu

Page 68: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 68

Tamaños muestrales: Ejemplo

Se desea comparar el efecto de 5 formas distintasde regadıo sobre el crecimiento de semillas de alubias.

La respuesta es la longitud de un nuevo brote 48horas despues de regar.

Un experimento piloto ha mostrado que la varian-za del error no debiera superar los 10mm2 y, por otrolado, interesa realizar las comparaciones pareadas detratamientos con un nivel de significacion global del5%, de modo que diferencias superiores o iguales a 3mm se detecten como significativas.

Page 69: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 69

Tamaños muestrales: Ejemplo

Empezando en r = 10, se va corrigiendo la decision:

Utilizando por ejemplo Tukey:

q5,5r−5,0.05√2

s10

µ1

r+1

r

¶≤ 3⇔ q25,5r−5,0.05 ≤ 0.9r

r 5r − 5 q25,5r−5,0.05 0.9r Accion

10 45 4.032 = 16.24 9.00 Aumentar r20 95 3.952 = 15.60 18.00 Disminuir r15 70 3.972 = 15.76 13.50 Aumentar r18 85 3.962 = 15.68 16.20 Disminuir r17 80 3.972 = 15.68 15.30

Page 70: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 70

Sobre los tamaños muestralesAmenos que se desee mas informacion de unos tratamientosque de otros, o que existan varianzas muy desiguales den-tro de cada tratamiento, es recomendable elegir tamanosmuestrales iguales.

1. Se obtienen intervalos de confianza de igual longitudpara las comparaciones por pares de tratamientos, loque facilita su comparacion y analisis.

2. Las comparaciones multiples y el test F del Anova sonmenos sensibles a una suposicion incorrecta de nor-malidad de los errores.

Page 71: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 71

Comprobación de la idoneidad del modelo

eit = yit − µi = yit − yi·εit son i.i.d. segun una N (0,σ) ∀i, t

debieran, si las hipotesis sobre el modelo son correc-tas y el modelo es apropiado, mostrar un compor-tamiento similar a εit.

Los residuos:

En particular, los residuos estandarizados debieranser una muestra aleatoria de una distribucionN(0, 1).Es decir:

e?it =eit√scmR

i.i.d. N(0, 1)

Page 72: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 72

Comprobación de la idoneidad del modelo

1. Chequear la bondad del ajuste del modelo.

2. Chequear la existencia de observaciones atı-picas.

3. Chequear la independencia de las observa-ciones.

4. Chequear la homocedasticidad del error.

5. Chequear la normalidad.

Page 73: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 73

Bondad de ajuste del modelo

Cuando una nube de este tipo muestre un patron no aleato-rio alrededor del 0 (residuos excesivamente positivos paraalgunos niveles y excesivamente negativos para otros) de-latara falta de ajuste. El modelo supuesto no sera validoy debera modificarse.

En general se debe observar la nube de residuos estandariza-dos en un diagrama de dispersion con respecto a los nivelesde cada factor incluido en el modelo (factores tratamiento,factores bloque, covariables, . . . ).

Page 74: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 74

Bondad de ajuste del modelo

Tratamientos: Cantidad de sulfamerazina

543210

Res

iduo

s es

tand

ariz

ados

3

2

1

0

-1

-2

-3

Page 75: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 75

Existencia de observaciones atípicasUna observacion atıpica es un registro mayor o menor de loesperado que detectaremos por su correspondiente residuoque, logicamente, resultara ser un valor “inusual”.

Aproximadamente un 68% de los residuos estandarizadosdebe ubicarse entre −1 y 1, alrededor del 95% entre −2 y2 y practicamente todos entre −3 y 3.

Un residuo estandarizado que diste mas de 3 o 4 unidadesdel 0 es potencialmente una observacion atıpica.

Page 76: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 76

Comprobación de la idoneidad del modelo

10101010N =

Tratamientos: Cantidad de sulfamerazina

15 grs10 grs5 grs0 grs

Res

iduo

s es

tand

ariz

ados

3

2

1

0

-1

-2

-3

Page 77: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 77

Existencia de observaciones atípicas

Tipo de Pila

543210

Res

iduo

s es

tand

ariz

ados

3

2

1

0

-1

-2

-310

Page 78: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 78

Existencia de observaciones atípicasEn ocasiones las observaciones atıpicas son fruto de erroresconcretos en el proceso de registro de los datos.

Otras veces en cambio delatan ausencia de normalidad, he-terocedasticidad o una incorrecta especificacion del modelo.

Page 79: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 79

Existencia de observaciones atípicas

En otro caso, es conveniente repetir el analisis sin la obser-vacion atıpica. Si las nuevas conclusiones son semejantes alas obtenidas con ella, la observacion puede mantenerse.

Si las nuevas conclusiones modifican drasticamente las ini-ciales, la observacion atıpica se denomina influyente. Eneste punto, el experimentador debe enjuiciar si es posiblesu aparicion por un error experimental (eliminarlo) o si talobservacion podrıa volver a aparecer (buscar modelos mascomplejos).

Una vez identificada la presencia de una observacion atıpica,se debe investigar pormenorizadamente su procedencia yeliminarla tan solo si se concluye que se ha generado porerrores en el muestreo.

Page 80: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 80

Existencia de observaciones atípicas

Tipo de Pila

543210

Res

iduo

s es

tand

ariz

ados

3

2

1

0

-1

-2

-310

Tipo de Pila

543210R

esid

uos

esta

ndar

izad

os

3

2

1

0

-1

-2

-3

Page 81: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 81

Independencia de los errores

Orden temporal de cada registro

181614121086420

Res

iduo

s es

tand

ariz

ados

3

2

1

0

-1

-2

-3

Page 82: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 82

Independencia de los errores

Residuo estandarizado i

3210-1-2-3

Res

iduo

est

anda

rizad

o (i+

1)

3

2

1

0

-1

-2

-3

Page 83: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 83

Independencia de los errores

Número de Retardo

1413121110987654321

Aut

ocor

rela

cion

es re

sidu

os e

stan

dariz

ados 1,0

,5

0,0

-,5

-1,0

Page 84: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 84

Independencia de los errores

Test de Lung-BoxTest de Rachas

Si se observase una tendencia muy clara en los graficos,por ejemplo linealidad de los residuos frente al tiempo, sepueden deducir otros modelos como:

Yit = µ + τi + γXit + εit, εit i.i.d N (0, σ)

con Xit la covariable tiempo (Modelo de Analisis de laCovarianza).

Page 85: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 85

Homocedasticidad de los errores

Estudios de simulacion han mostrado que, en un disenobalanceado, la heterocedasticidad no afecta al F -test ni alos distintos metodos de comparaciones multiples siempreque:

S2Max

S2Min

< 3

Page 86: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 86

Homocedasticidad de los erroresProcedimientos analıticos para detectar heterocedasticidad:Hurtley, Bartlett, . . . .

Todos muy conservadores y muy sensibles a la ausencia denormalidad.

Una tecnica muy empleada es el procedimiento de:

Levene

que, en esencia, consiste en efectuar un analisis de la vari-anza sobre las diferencias en valor absoluto entre las obser-vaciones y la mediana (u otra medida de tendencia central),manteniendo el diseno original.

Page 87: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 87

Homocedasticidad de los errores

σi = kµqi

con k y q constantes desconocidas.

Muchas veces la heterocedasticidad responde al modelo:

Suele ser util obtener un diagrama de dispersion delos residuos frente a los valores previstos o pronosticadospor el modelo estimado:

{yi., e?it}i,t

Page 88: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 88

Homocedasticidad de los errores

Valores pronosticados para tratamientos

108642

Res

iduo

s es

tand

ariz

ados

4

3

2

1

0

-1

-2

-3

-4

Page 89: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 89

Homocedasticidad de los errores

Si se puede determinar el valor aproximado de q, los datostransformados elevando los originales a λ = 1 − q tendranvarianza constante.

Como σi = kµqi ⇒ log (σi) = log(k) + q log (µi), entoncesuna grafica de log (σi) contra log (µi) debe resultar en unarecta con pendiente igual a q.

Al ser σi y µi desconocidas, se reemplazan por estimacionesapropiadas y la pendiente de la recta sugiere el valor apro-ximado de q.

Y ? = Y λ es tal que Var (Y ?) = µλ+q−1

Si σi = kµqi es posible transformar los datos para obtenerhomocedasticidad. Se prueba que:

Page 90: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 90

Normalidad de los errores

P-P plot

Q-Q plot

Densidad suavizada

Diagrama de Cajas

Histograma

Test de Kolmogorov-Smirnov-Lilliefors

Test χ2 de bondad de ajuste

Test de Shapiro-Wilk . . .

Page 91: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 91

Alternativas al ANOVA

• la variable respuesta sea univariante• la variable respuesta sea medible en una escala derazon o intervalo

• las variables explicativas o de clasificacion seancategoricas

• sea razonable asumir que los datos procedan dedistribuciones normales

Un modelo Anova univariante es apropiado siempreque:

Page 92: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 92

Alternativas al ANOVA

Regresión logísticay variantesRegresión

ANCOVAAlgo de todo

RegresiónNuméricas

Análisis dedatos

categóricos

ANOVAMétodos No Paramétricos

ANOVACategóricas

NominalOrdinalTasa/IntervaloLas variables explicativas son:

La variable respuesta es:

Page 93: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 93

Test de Kruskal-WallisUna prueba alternativa a la prueba F del analisis

de la varianza que no depende de la hipotesis de nor-malidad es la prueba de Kruskal-Wallis basadaen los rangos de las observaciones.

La prueba de Kruskal-Wallis contrasta la hipotesisnula de que las I muestras independientes procedende la misma poblacion y, en particular, que tenganla misma media.

En realidad, es una extension a I muestras, conI > 2, de la prueba de la suma de rangos de Wilcoxon.

Page 94: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 94

Test de Kruskal-Wallis1. Se mezclan las I muestras y se obtiene la muestra

conjunta ordenada en sentido creciente.

2. Se reemplazan las observaciones por sus rangosRit, i = 1, . . . , I , t = 1, . . . , ni, en la muestraconjunta.

3. Se suman los rangos de las observaciones proce-

dentes del i-esimo tratamiento, Ri. =

niXt=1

Rit,

para i = 1, . . . , I .

Page 95: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 95

Test de Kruskal-Wallis4. Se computa el estadıstico de contraste mediante:

H =12

n(n + 1)

IXi=1

ni

µRi.ni− n+ 1

2

¶25. Bajo la hipotesis nula de igualdad de medias la

distribucion de H se aproxima por una χ2I−1.

6. Rechazar la hipotesis nula de igualdad de mediaspara valores grandes de H .

Page 96: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 96

Test de Kruskal-Wallis

Comentarios:

1 Basicamente, el estadıstico de Kruskal-Wallis, H ,compara los rangos promedio observados den-tro de cada tratamiento con los esperados ((n+1)/2 para todos ellos) si la hipotesis nula escierta.

2 La aproximacion χ2 para H es aceptable siempreque I ≥ 4 y todos los ni ≥ 6.

Page 97: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 97

Test de Kruskal-Wallis

3 En el supuesto que existan “empates” (observa-ciones repetidas), H se corrige por:

H 0 = C−1H siendo C = 1−

sXi=1

Ti

(n− 1)n(n+ 1)

donde s denota el numero de grupos de em-pates y Ti = (ti−1)ti(ti+1), con ti el numerode empates en el i-esimo grupo de empates

Page 98: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 98

Test de Kruskal-Wallis: Ejemplo

Muestra numero 1: 64, 72, 68, 77, 56 y 95

Muestra numero 2: 78, 91, 97, 82, 85 y 77

Muestra numero 3: 75, 93, 78, 71, 63 y 76

Muestra numero 4: 55, 66, 49, 64, 70 y 68

Page 99: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 99

Test de Kruskal-Wallis: Ejemplo

1272

1171

1070

628.568

8.568

766

625.564

5.564

463

356

255

149

Titi43214321

Emp.RangosDatos ordenados

1375

1476

2497

15.577

6215.577

2395

2293

2191

2085

1982

6217.578

17.578

Titi43214321Emp.RangosDatos ordenados

3481.5117R4.R3.R2.R1.

67.5XTi = 24⇒ C = 1− 24

23× 24× 25 = 0.9983

Page 100: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 100

Test de Kruskal-Wallis: Ejemplo

H =

½12

24× 25µ67.52

6+1172

6+81.52

6+342

6

¶− 3× 25

¾/0.9983 = 11.83

P¡χ23 > 11

083¢< 0001

GRUPOS NO HOMOGÉNEOS

Page 101: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 101

Test χ2 de homogeneidadCuando la respuesta es nominal, ni el Anova ni laspruebas basadas en rangos son la solucion apropiada.

Tipo de historiaHijo Madre A B C D E

Esquizofrenico 1 2 2 4 1 12 1 0 2 1 6...

......

......

...20 1 1 4 2 2

Normal 21 8 0 1 0 122 4 0 0 1 5...

......

......

...40 4 0 2 0 4

Page 102: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 102

Test χ2 de homogeneidadSe desean comparar I tratamientos de un factor en base auna respuesta nominal Y con K posibles categorıas.

Se dispone de una muestra aleatoria de cada tratamientode tamano ni: yi1, yi2, . . . , yini , para cada i = 1, . . . , I; demodo que las I muestras son independientes.

Cada dato yit equivale a clasificar la observacion t-esimadel i-esimo tratamiento en alguna de las K caracterısticasnominales.

Es habitual presentar los resultados en una tabla con I filasy K columnas tal que en la celda (i, k) figura la frecuenciaobservada de la categorıa k con el tratamiento i.

Page 103: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 103

Test χ2 de homogeneidad: EjemploSe investiga que tratamiento de cuatro posibles (codificadosde 1 a 4) es mas adecuado para curar una cierta enfermedad.

Se seleccionan al azar cuatro grupos de enfermos de tamanosn1 = 150, n2 = 120, n3 = 130 y n4 = 160.

A cada grupo se le aplica un tratamiento distinto y, pasadoun tiempo razonable, se observa si el paciente ha mejo-rado (categorıaMejor), ha empeorado (categorıaPeor)o esta igual (categorıa Igual).

Page 104: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 104

Test χ2 de homogeneidad: EjemploCategorıas

Tratamientos Peor Igual Mejor TotalTratamiento 1 O11 = 7 O12 = 28 O13 = 115 F1 = n1 = 150Tratamiento 2 O21 = 15 O22 = 20 O23 = 85 F2 = n2 = 120Tratamiento 3 O31 = 10 O32 = 30 O33 = 90 F3 = n3 = 130Tratamiento 4 O41 = 5 O42 = 40 O43 = 115 F4 = n4 = 160

Total C1 = 37 C2 = 118 C3 = 405 T = 560½H0 : no existen diferencias entre los tratamientosH1 : al menos dos tratamientos difieren

¿Cómo modelizar matemáticamente este contraste?

Page 105: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 105

Test χ2 de homogeneidad

Al tratarse de una respuesta nominal carece de sentidoplantear la comparacion en terminos de medias.

Los tratamientos seran “iguales” si la distribucion de pro-babilidad para la respuesta nominal es la misma bajo todoslos tratamientos.

H0 : p1k = p2k = . . . = pIk = p.k para todo k = 1, . . . ,KH1 : Existen i y j / pik 6= pjk para algun k = 1, . . . ,K

Page 106: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 106

Test χ2 de homogeneidad: EjemploEl escenario real (poblacional) en el problema planteado enel ejemplo es:

CategorıasTratamientos Peor Igual Mejor TotalTratamiento 1 p11 p12 p13 1Tratamiento 2 p21 p22 p23 1Tratamiento 3 p31 p32 p33 1Tratamiento 4 p41 p42 p43 1

H0 : p1k = p2k = p3k = p4k = p.k para todo k = 1, 2, 3, 4H1 : existen i y j / pik 6= pjk para algun k = 1, 2, 3, 4

Page 107: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 107

Test χ2 de homogeneidad: Algoritmo1. Sea µik el numero esperado de observaciones con el tra-

tamiento i en la categorıa k, para i = 1, . . . , I y k =1, . . . ,K. Es claro que:

µik = Fi × pik2. BajoH0, pik es independiente de i de modo que pik = p.k

para todo i, donde p.k denota la proporcion real deobservaciones en la categorıa k para cualquier trata-miento. Por tanto:

µik = Fi × p·k

Page 108: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 108

Test χ2 de homogeneidad: Algoritmo

bp.k = Ck/Tbµik = Eik = Fi × bp.k = Fi × Ck

T

3. Como un estimador natural de p.k (bajo H0) es:

un estimador para µik (bajo H0) es:

4. Bajo H0:

χ2 =

IXi=1

KXk=1

(Oik − Eik)2Eik

∼ χ2(I−1)(K−1)

Page 109: Diseños con una fuente de

02-03/2008 Prof. José A. Vilar Diseño y Análisis de Experimentos POP Técnicas Estadísticas 109

Test χ2 de homogeneidad: EjemploCategorıas

Tratamientos Peor Igual Mejor Total

Tratamiento 1O11 = 7E11 = 9

091O12 = 28E12 = 31

061O13 = 115E13 = 108

048 F1 = 150

Tratamiento 2O21 = 15E21 = 7

093O22 = 20E22 = 25

028O23 = 85E23 = 86

079 F2 = 120

Tratamiento 3O31 = 10E31 = 8059

O32 = 30E32 = 27039

O33 = 90E33 = 94002

F3 = 130

Tratamiento 4O41 = 5

E41 = 10057

O42 = 40E42 = 33

072O43 = 115E43 = 115

071 F4 = 160

Total C1 = 37 C2 = 118 C3 = 405 T = 560

χ2 =IXi=1

KXk=1

O2ikEik

− T = 13087 > χ26,0005

TEST SIGNIFICATIVO AL 5%