unidad 5 Diseño experimental con bloques al azar y diseños factoriales.

5° Semestre

Asignatura:

Estadística Inferencial II

Profesor:

Lic. Isaac Vázquez Esqueda

Unidad 5

Diseño Experimental con bloques al azar y diseños

factoriales.

Alumna:

Arantza Aquino Prado

Cd. Lázaro Cárdenas, Mich. A 30 de noviembre del 2013.

Instituto Tecnológico De Lázaro Cárdenas

Diseño experimental que sirve para estudiar el efecto individual y de interacción de

varios factores sobre una o varias respuestas .Es decir lo que se busca es estudiar

la relación entre factores y la respuesta, con la finalidad de conocer mejor como es

esta relación y generar conocimiento que permita tomar acciones y decisiones que

mejoren el desempeño de proceso.2Estadistica II Diseño factorial

Uno de los objetivos particulares más importantes que en general tiene un diseño

factorial es determinar una combinación de niveles de los factores en la cual el

desempeño del proceso sea mejor que en las condiciones de operación actuales,

es decir, encontrar nuevas condiciones de operación que eliminen o disminuyan

cierto problema de calidad en la variable de salida.

Contenido temático

Unidad 5: Diseño experimental con bloques al azar y diseños factoriales.

5.1 Metodología del diseño experimental de bloques al

azar.

5.2 Diseño de experimentos factoriales.

5.3 Diseño factorial 2k

5.4 Diseño de cuadrados latinos.

5.5 Diseño de cuadrados grecolatinos.

5.6 Aplicaciones.

Unidad 5

5.1 METODOLOGÍA DEL DISEÑO EXPERIMENTAL DE BLOQUES AL AZAR.

En muchos problemas de diseño experimental es necesario diseñar el

experimento de modo que sea posible controlar la variabilidad generada por un

factor indeseable. El procedimiento general para el diseño aleatorizado por

bloques completos consiste en seleccionar b bloques y realizar una réplica

completa del experimento en cada uno de ellos. En cada bloque existen a

observaciones (una por cada nivel del factor), y el orden en que se toman estas

observaciones se asigna de manera aleatoria dentro del bloque.

Suponga que tiene interés en un solo factor que tiene a niveles, y que el

experimento se efectúa en b bloques. Las observaciones pueden presentarse con

el modelo estadístico lineal

Donde μ es la media global, iτ es el efecto del i-ésimo tratamiento, jβ es el efecto

del j ésimo bloque y jiε es el término de error aleatorio, el cual se supone que tiene

una distribución normal e independiente con media cero y varianza ().En principio,

los efectos de los tratamientos y de bloques son considerados como factores fijos.

Por otro lado, los efectos de los tratamientos y de los bloques son definidos como

desviaciones de la media global.

Modelo Estadístico

Para este diseño el modelo lineal esta dado por

Donde es la media global de los tratamientos, es el efecto

del tratamiento el cual es constante para todas las observaciones

dentro del tratamiento, es el efecto del bloque, es el

término del error aleatorio, el cual se distribuye normal e independiente con media

0 y varianza . Las restricciones del modelo son

Estimación de parámetros

Al aplicar el método de mínimos cuadrados, se obtiene como estimadores de los

parámetros

Tabla Anova - Análisis de Varianza

La tabla de análisis de varianza para este diseño se presenta a continuación:

Tabla 02. Análisis de varianza para un diseño de bloques completos al azar

Causa de

variación

Grados de

libertad

Suma de

cuadrados

Cuadrado

medio

Valor esperado de

cuadrados medios

Tratamient

os

Bloques

Error

Total

Para contrastar las hipótesis de no efectos de tratamientos

Se puede utilizar el cociente

ya que si es cierta y así , lo cual quiere decir

que es un estimador intestado de y como además es también un

estimador de entonces de tienen dos estimadores intestados de y por

tanto su cociente deber ser un valor estadísticamente cercano a 1.

Supuestos del modelo

El residual en un diseño de bloques completos al azar es dado por

Los supuestos del modelo son:

El modelo es aditivo, es decir no existe interacción entre bloques y tratamientos

Las variables aleatorias error se distribuyen normal con media cero

Las variables aleatorias error son no correlacionadas (independientes)

Otra manera de enunciar los supuestos es:

. Los efectos de tratamientos y bloques son aditivos; las respuestas dentro de

los bloques tienen la misma tendencia con respecto a los efectos de los

tratamientos.

Las observaciones en las celdas constituyen muestras aleatorias de

tamaño 1 de cada una de las poblaciones Todas las poblaciones son

normalmente distribuidas,

Las varianzas de cada una de las poblaciones son iguales

Si la primera condición se tiene se dice que los efectos de bloques y tratamientos

no interactúan y una prueba para la no aditividad es debida a Tukey (1949) y

Ascombe.

Validación de los supuestos del modelo

Antes de conocer los métodos de validación de supuestos es importante hacer las

siguientes observaciones:

1. La desviación relativamente grande del supuesto de homogeneidad de

varianzas tiene muy poco efecto sobre el nivel de significancia, aunque este puede

ser mayor que el nivel dado, el poco efecto es debido a que los tratamientos son

igualmente replicados.

2. La no actividad puede ser más seria ya que puede aumentar el estimado del

error experimental (CM resultando en posibles fallas para detectar diferencias

reales de los tratamientos.

3. Antes de probar cualquier supuesto se debe asegurar que no existan valores

outlier en los datos. Algunos trabajos han venido desarrollándose para detectar

outlier en clasificaciones a dos vías que incluyen el DBC. Cuando el diseño tiene

residuales con varianza común, como podría ser el caso de diseños balanceado,

la mejor prueba para detectar un solo outlier es basada en el máximo residuo

normalizado (MRN)

Stefansky (1972) describe un método general para calcular valores críticos del

MRN y provee tablas para el caso de dos vías de clasificación con una

observación por celda. Para algunos valores de solamente acotados para

valores críticos pueden ser obtenidos. Esas tablas son reproducidas en Martin

Tablas C- 6a y C- 6b. Las clasificaciones filas y columnas son intercambiables.

El máximo residuo normalizado es dado por:

Donde: y es el mayor residual en valor

absoluto. Si este valor excede el valor crítico de tabla, la observación es declarada

como un outlier potencial. Estas deben ser localizadas y examinadas para buscar

causas asignables. La eliminación arbitraria de valores extremos debe evitarse.

Homogeneidad de varianza

La prueba gráfica de igualdad de varianza es graficar los residuales contra los

valores predichos ( si existe algún patrón especial que

muestre mayor dispersión para un lado de la gráfica se puede decir que no hay

homogeneidad de varianza.

Las pruebas analíticas para igualdad de varianza dadas por el DCA no son

aplicables a bloques ya que no se tienen estimadores independientes de las

varianzas de los tratamientos. Existen algunos procedimientos, pero quizá el más

simple es el desarrollado por Han ( . Esta prueba es especialmente para un

DBC y asume:

Las poblaciones muestreadas sean normalmente distribuidas

Los errores son igualmente correlacionados dentro de los bloques, pero son

independientes entre bloques.

La prueba estadística es:

Donde el estimado de la varianza para el tratamiento es:

Donde es el número de bloques y los son los residuales en el tratamiento .

Note que la varianza no es calculada directamente de los datos, por ello la no

independencia de las varianzas. Observe que para el calculo de la varianza del

tratamiento 1 utiliza a la medias de los bloques, , y para el

tratamiento 2 utiliza también a a la medias de los bloques .

Los valores críticos de la prueba estadística son basados sobre puntos de

porcentaje de la distribución rango estudentizado en vez de la distribución

Fmax.

Se rechaza la hipótesis de homogeneidad de

varianzas si . Los puntos de porcentaje

de han sido tabulados por Harter (1960) y pueden ser obtenidos en la tabla

C-7 de Martin.

Ejemplo

Los datos presentados son tomados de Graybill (1954) de ensayos de variedades

de trigo. Cuatro variedades de trigo crecieron en cada una de trece localidades del

estado de Oklahoma. Las respuestas en bushels por acre, son dadas en la tabla.

variedades

Loc. 1 2 3 4

1 43.60 24.05 19.47 19.41

2 40.40 21.76 16.61 23.84

3 18.08 14.19 16.69 16.08

4 19.57 18.61 17.78 18.29

5 45.20 29.33 20.19 30.08

6 25.87 25.60 23.31 27.04

7 55.20 38.77 21.15 39.95

8 55.32 34.19 18.56 25.12

9 19.79 21.65 23.31 22.45

10 46.24 31.52 22.48 29.28

11 14.88 15.68 19.79 22.56

12 7.52 4.69 20.53 22.08

13 41.17 32.59 29.25 43.95

33.29 24.05 20.70 26.16

Las varianzas muéstrales de los tratamientos son:

Por consiguiente . Tomando

, y el aproximado percentil cinco de . Bajo esta

prueba la hipótesis nula de igualdad de varianzas es rechazada.

La Aditividad del modelo

Este es un problema más serio que la homogeneidad de varianzas. Cuando no

existe aditividad el estimado del error experimental es inflado resultando así un

sesgo negativo para la prueba de tratamientos. Aunque una prueba significante

para tratamientos implicaría diferencias entre las medias de los tratamientos, una

prueba no significativa no necesariamente implica que no hay efecto de las

medias de los tratamientos.

Para detectar la no aditividad gráficamente, se debe realizar un gráfico de

dispersión entre los residuales (eje Y) y los valores predichos (eje X). Una

tendencia cuadrática en el gráfico indica la presencia de no aditividad

transformable, esto es, no aditividad que puede ser removida por la aplicación de

una transformación. Para determinarla naturaleza de la no aditividad, considere el

modelo para el diseño de bloques completos al azar con interacción

Donde es la componente de interacción (no aditividad). Existe aditividad

cuando se cumple que para todo y .

TUKEY(1949a), desarrolló una prueba de un solo grado de libertad para

determinar si existe el efecto de interacción, asumiendo un modelo de la forma

Es decir, este procedimiento supone que la forma de interacción es

particularmente simple o sea

Donde es una constante desconocida.

Note que cada celda contiene exactamente observaciones que en el caso de

bloques completos es una. Si se define la interacción de esta forma, puede usarse

el método de regresión para probar la significancia de este término, al probar la

hipótesis .

La tabla de ANOVA es dada por:

Causa de

variación

Grados de

libertad

Suma de

cuadrados

C.M

Tratamientos t-1 SC

Bloques b-1 SC

Residual (t-1)(b-1)

Error (t-1)(b-1)-1 SC

No aditividad 1 SC

TOTAL N-1

Acombe (1961) propuso una prueba general que puede ser usada para cualquier

modelo lineal, incluyendo modelos de regresión

Donde es dado en la instrucción

Utilizando SAS

Data TRIGO;

Input LOC VAR Y;

Cards;

;

PROC GLM;

CLASS Bloque Ttos;

MODEL Y= Bloque Ttos;

OUTPUT OUT= VALIDA PREDICTED (o P)=PRE RESIDUAL (o R)= RES;

DATA NUEVO;

SET VALIDA;

Y2= PRE*PRE;

Z= RES*Y2;

DROP PRE RES;/*excluye las variables PRE y RES*/

PROC MEANS DATA= NUEVO SUM;

VAR Z;

PROC ANOVA;

CLASS Bloque Ttos;

MODEL Y2=Bloque Ttos/SS1;

RUN;

El numerador de la suma de cuadrados de la no aditividad es el cuadrado del total

de SUM de Z = 15957.55 y el denominador es la Suma de cuadrados del error

para el ANOVA obtenido en la instrucción MODEL Y2=Bloque Ttos/SS1 dado por

SC = 265419.94079804. Luego la suma de cuadrados de no aditividad es

dado por

Causa de

variación

Grados de

libertad

Suma de

cuadrados

Cuadrado

medio

F Valor p

Tratamientos 3 1106.6 368.9 6.55 0.001

Bloques 12 3118.2 259.8 4.62 0.000

Residual 36 2026.91 56.3

Error* 35

No aditividad 1 SC

TOTAL 51 6251.6

Donde

La hipótesis a probar es

La hipótesis de aditividad es rechazada al nivel 5%.

Ejercicio

Suponga la siguiente tabla de un BC

Tratamientos

Bloques

1

2

3

A

4

4

2

B

7

4

5

C

4

4

2

Qué hacer si no se cumple el supuesto de aditividad

Cuando no se cumple del supuesto de aditividad se pueden presentar los

siguientes problemas: si el investigador quiere comparar y hacer recomendaciones

sobre los tratamientos, la presencia de interacción entre los bloques y los

tratamientos implica que tales comparaciones no son la misma para todos los

bloques. Por consiguiente hacer comparaciones de la manera usual; por medio

de las medias de tratamientos , puede representar una idea equivocada.

También, como lo mostró Kempthorne (1952, Sección 8.3), con la no aditividad no

es posible obtener un ``razonable'' error estándar para la comparación de los

tratamientos. Y finalmente, la no aditividad en una tabla a dos vías puede ser

debida a interacción o a la no homogeneidad de varianzas.

La no aditividad puede conllevar a diferentes acciones dependiendo de la forma de

construcción de los bloques: aquellos construidos de manera ``natural''

dividendo las unidades experimentales heterogéneas existentes en grupos

homogéneos y aquellos donde los bloques son introducidos por el

investigador en la forma de factores de bloqueo, principalmente para ampliar las

inferencias acerca de los tratamientos. Como una ilustración del primer caso

puede ser que las unidades experimentales sean las hojas de las plantas y que las

plantas sean los bloques. El segundo caso puede ser representado como por un

experimento con plantas como unidades experimentales y los bloques las

diferentes variedades de plantas.

En el primer caso claramente cualquier intento por explicar o modelar la no

aditividad no es de valor con respecto a la comparación de los tratamientos. En

vez de esto se puede remover tal no aditividad a través de una transformación

disponible usando los métodos de transformación. En este caso es útil realizar un

gráfico del valor absoluto de los residuales contra las

observaciones para tener alguna idea sobre la transformación apropiada de los

datos.

En el segundo caso puede ser muy importante modelar la posible no aditividad

como un significado de la interpretación diferencial de los efectos de tratamientos.

En efecto, en este caso las interacciones entre bloques y tratamientos pueden ser

más importantes que los mismos efectos de tratamientos. Se puede sugerir

entonces que en lo posible se utilice un diseño diferente como el diseño de

bloques generalizado.

5.2 DISEÑO DE EXPERIMENTOS FACTORIALES.

En cualquier experimento diseñado, es siempre importante examinar los residuos

y verificar si se violan las suposiciones básicas (Normalidad, Independencia,

Aditivita e Igualdad de varianzas) que pueden invalidar los resultados.

Los valores de los residuos del diseño aleatorizado por bloques completos se

obtienen, como es usual, por la diferencia entre los valores observados y los

estimados

El análisis de varianza del modelo supone que las observaciones están

distribuidas de manera normal e independiente, con la misma varianza para cada

tratamiento o nivel del factor. Estas suposiciones deben verificarse mediante el

análisis de los residuos.

La suposición de normalidad puede verificarse mediante la construcción de una

gráfica de probabilidad normal de los residuos. Para esto, los residuos se agrupan

en una tabla de distribución de frecuencias, se calcula la frecuencia relativa

acumulada para cada valor y se grafican en una hoja de papel de probabilidad

normal. Si la suposición es válida los puntos tenderán a agruparse sobre una línea

recta que pasa por el punto medio.

Así, por ejemplo, si el diseño experimental es bloques al azar, el modelo es:

yij = µ + τi + βj + ǫij

Respuesta = media general + efecto de tratamiento + efecto de bloque + error

Si se trata de un diseño factorial, los tratamientos se forman combinando los

niveles de los factores en estudio, de manera que el efecto del tratamiento τi se

considera a su vez compuesto de los efectos de los factores y sus interacciones.

Por ejemplo, si son dos factores en estudio se tiene:

τi = τkl = αk + γl + ξkl

Tratamiento = factor A + factor B + interacción AB

Haciendo una equivalencia entre los valores de i y los de k y l suponiendo que el

factor A tiene K niveles y el factor B L:

i k l

1 1 1

2 1 2

3 1 3

.. .. ..

t K L

Y el modelo resultante es: yklj = µ + αk + γl + ξkl + βj + ǫklj

Es poco usual tener diseños experimentales muy complicados en los

experimentos factoriales, ya que se discuta el análisis y la interpretación.

Las ventajas de los experimentos factoriales son:

1. Economía en el material experimental al obtener información sobre varios

factores sin aumentar el tamaño del experimento. Todas las u.e.se utilizan para la

evaluación de los efectos.

2. Se amplía la base de la inferencia en relación a un factor, ya que se estudia en

las diferentes condiciones representadas por los niveles de otros factores. Se

amplía el rango de validez del experimento.

3. Permite el estudio de la interacción, esto es, estudiar el grado y forma en la cual

se modifica el efecto de un factor por los niveles de los otros factores.

Una desventaja de los experimentos factoriales es que requiere un gran número

de u. E., sobre todo cuando se prueban muchos factores o muchos niveles de

algunos factores, es decir, se tiene un número grande de tratamientos.

(Factoriales fraccionales)

Suponga un diseño con dos factores: A con a niveles y B con b niveles, en diseño

completamente al azar. (Factorial a × b completo, balanceado, efectos fijos)

Sea yijk la respuesta para la k-ésimau.e. del nivel i de A y j de B.

yijk = µ + τi + βj + γij + ǫijk

i = 1,. . ., a j = 1, . . ., b k = 1, . . ., n

Las hipótesis que se prueban son:

H01 :γij = 0 ∀i, j

H02 :τi + ¯γi. = 0 ∀ i

H03 : βj + ¯γ.j = 0 ∀ j

Tipo de Temperatura (F)

Material 15 70 125

1 130 155 34 40 20 70

74 180 80 75 82 58

2 150 188 136 122 25 70

159 126 106 115 58 45

3 138 110 174 120 96 104

168 160 150 139 82 60

El ingeniero quiere contestar las siguientes preguntas:

1. Qué efectos producen el material y la temperatura en la vida de la batería?

2. Existe un material que produzca uniformemente más larga vida a la batería sin

importar la temperatura? diseño completamente al azar, experimento balanceado,

completo, factores fijos.

Una observación por celda

Suponga un experimento con dos factores A con a niveles y B con b niveles y una

sola repetición en cada celda (tratamiento).

El modelo con interacción es:

yij = µ + τi + βj + (τβ)ij + ǫiji = 1, . . ., a j = 1, . . ., b

F.V. g.l. E(CM)

A a − 1 σ2 + bθ2ª

B b − 1 σ2 + aθ2b

AB (a − 1)(b − 1) σ2 + θ2ab

Error 0 σ2

Total ab − 1

σ2 no se puede estimar, por lo tanto no hay prueba para los efectos principales a

menos que no haya interacción, y entonces el modelo es

yij = µ + τi + βj + ǫij

ESTE ES EL CASO DE BLOQUES AL AZAR.

El Diseño Factorial General. Balanceado

El diseño factorial de dos factores se puede generalizar atener p factores:

A con a niveles

B con b niveles

..............

En general, habrá abc · · · n observaciones si hay n repeticionesdel experimento

completo.

Debe haber por lo menos 2 repeticiones (n ≥ 2) para podercalcular σˆ2 si todas las

posibles interacciones están incluidas en el modelo.

Tres factores

El modelo para un factorial de tres factores en diseño completamente al azar:

yijkl = µ+τi+βj +γk+(τβ)ij +(τγ)ik+(βγ)jk+(τβγ)ijk+ǫijkl

i = 1,. . ., a; j = 1, . . ., b; k = 1, . . ., c; l = 1, . . ., n

Ejemplo:

Se desea obtener más uniformidad en el llenado de botellas de refresco. La

máquina de llenado teóricamente llena cada botella a la altura correcta, pero en la

práctica hay variación, y

la embotelladora desea entender mejor las fuentes de esta variabilidad para

eventualmente reducirla.

El ingenio de procesos puede controlar tres factores durante el proceso de

llenado:

El % de carbonato (A), la presión del llenado (B) y las botellas llenadas por minuto

(velocidad de la línea) (C).

5.3 DISEÑO FACTORIAL 2^k

En ocasiones, cuando se utiliza un diseño aleatorizado por bloques completos,

alguna de las observaciones en uno de los bloques puede faltar. Esto sucede

debido algún descuido o error, o por razones fuera del control del experimentador,

como sería el caso de la pérdida de alguna unidad experimental. Una observación

faltante introduce un nuevo problema en el análisis, ya que los tratamientos dejan

de ser ortogonales a los bloques.

En otras palabras, cada tratamiento no ocurre en cada bloque. Existen dos formas

generales de resolver el problema de los valores faltantes. La primera es un

análisis aproximado en el que se estima la observación faltante. A continuación se

efectúa el análisis de varianza usual como si la observación estimada fuera un

dato real, disminuyendo los grados de libertad del error en uno. La segunda es un

análisis exacto usando la prueba de significancia de regresión general.

Suponga que falta la observación correspondiente al tratamiento i y al bloque j.

Esta observación se representa mediante x el gran total con una observación

faltante se representará mediante y los totales del tratamiento y del bloque con un

dato faltante como y, respectivamente. Supongamos, además, que para estimar la

observación faltante se elige x, de manera que tenga una contribución mínima a la

suma de cuadrados del error. Como la suma de cuadrados del error está dada en

donde R incluye todos los términos que no contienen a x. Al derivar la SCE con

respecto a x e igualar a cero se obtiene

Como un estimador para la observación faltante.

El efecto de un factor se define como el cambio en la respuesta producida por un

cambio en el nivel del factor. Con frecuencia, éste se conoce como efecto

principalporque se refiere a los factores de interés primordial del experimento. Por

ejemplo, consideremos los datos de la tabla 1. El efecto principal del factor A

podría interpretarse como la diferencia entre la respuesta promedio en el primer y

segundo nivel de ese factor. Numéricamente

212

3020

2

5240A

Tabla 1 Un experimento factorial

En otras palabras incrementar el factor A del nivel 1 al 2 produce un cambio en la

respuesta promedio de 21 unidades. Similarmente, el efecto principal de B es:

11

2

4020

2

5230B

Si los factores tienen más de dos niveles, el procedimiento anterior debe ser

modificado ya que las diferencias entre las respuestas promedio pueden

expresarse de muchas formas.

En algunos experimentos puede encontrarse que la diferencia en la respuesta

entre los niveles de un factor no es la misma en todos los niveles de los otros

factores. Cuando esto ocurre existe una interacción entre los factores. Por

ejemplo, considérense los datos de la Tabla 2.

Tabla 2. Un experimento factorial con interacción

En el primer nivel del factor B, el efecto de A es:

A = 50 - 20 = 30

Mientras que en el segundo nivel de B, el efecto de A es:

A = 12 - 40 = 28

Puede observarse que existe una interacción entre los factores A y B porque el

efecto de A depende del nivel elegido de B.

20 40

50 12

B1 B2

A1

A2

Factor B

Factor A

20 40

50 12

B1 B2

A1

A2

Factor B

Factor A

Estas ideas pueden ilustrarse gráficamente. En la Fig. 1 se muestra una gráfica de

la respuesta de los datos de la Tabla 1 contra los niveles del factor A para ambos

niveles del factor B. Se observa que las rectas B1 y B2 son, aproximadamente,

paralelas. Esto indica que no hay interacción entre los factores. De manera similar,

en la Fig. 2 se presenta una gráfica de la respuesta de los datos de la Tabla 2.

Figura 1 Un experimento factorial sin interacciones

En este caso se ve que las rectas B1 y B2 no son paralelas. Esto muestra que

existe una interacción entre A y B. Sin embargo, no debe ser la única técnica para

analizar los datos, porque su interpretación es subjetiva y su apariencia, a

menudo, es engañosa.

Figura 2 Un experimento factorial con interacciones

Hay que notar que cuando una interacción es grande los correspondientes efectos

principales tienen poco significado práctico. Una estimación del efecto principal de

A de los datos de la Tabla 2 es:

12

4020

2

1250A

10

20

30

40

50

60

A1 A2

B1

B2

B1

B2

Resp

uesta

Factor A

10

20

30

40

50

60

A1 A2

B1

B2

B1

B2

Resp

uesta

Factor A

10

20

30

40

50

60

A1 A2

B1

B2

B1

B2

Resp

uesta

Factor A

10

20

30

40

50

60

A1 A2

B1

B2

B1

B2

Resp

uesta

Factor A

El cual resulta ser muy pequeño corriéndose el riesgo de concluir que no existe un

efecto debido a A. Sin embargo, cuando se examinó el efecto de A en niveles

diferentes de B se concluyó que éste no era el caso. El factor A tiene un efecto,

pero depende del nivel del factor B. En otras palabras, es más útil conocer la

interacción AB que el efecto principal. Una interacción significativa oculta a

menudo el significado de los efectos principales.

Ventajas de los diseños factoriales

Las ventajas de los diseños factoriales pueden ilustrarse fácilmente. Supongamos

que se tienen dos factores, A y B, cada uno con dos niveles. Estos niveles se

representan mediante A1, A2, B1 y B1. La información acerca de ambos factores

puede obtenerse variando un factor a la vez como aparece en la tabla 3. El efecto

de variar el factor A está dada por A2B1 -A1B2. A causa de que existe error

experimental, es conveniente realizar, por ejemplo, dos observaciones de cada

combinación de tratamientos y hacer una estimación de los efectos de los factores

usando las respuestas promedio. Por lo tanto, se requiere un total de seis

observaciones.

Tabla 3 El método de un factor a la vez

Los diseños factoriales poseen algunas ventajas.

Son más eficientes que los experimentos de un factor a la vez.

Los diseños factoriales son necesarios cuando alguna interacción puede

estar presente, para evitar hacer conclusiones engañosas.

A1B1 A1B2

A2B1 12

B1 B2

A1

A2

Factor B

Factor A

A1B1 A1B2

A2B1 12

B1 B2

A1

A2

Factor B

Factor A

Los diseños factoriales permiten estimar los efectos de un factor en

diversos niveles de los otros factores, produciendo conclusiones que son

válidas sobre toda la extensión de las condiciones experimentales.

2. Diseño factorial de dos factores

El primer diseño de la serie 22 es aquel en el que solo dos factores, A y B, cada

uno con dos niveles. Este diseño se conoce como diseño factorial 22.

Arbitrariamente, los niveles del factor pueden llamarse “bajo” y “alto”.

Ejemplo 1 Considérese una investigación llevada a cabo para estudiar el efecto

que tiene la concentración de un reactivo y la presencia de un catalizador sobre el

tiempo de reacción de un proceso químico. Sea la concentración del reactivo el

factor A con dos niveles de interés, 15% y 20%. El catalizador constituye el factor

B; el nivel alto o superior denota el uso de dos sacos de catalizador y el nivel bajo

o inferior denota el uso de un solo saco. El experimento se realiza (“replica o

repite”) tres veces, y los datos son como sigue:

En la figura 4 siguiente se presentan gráficamente las combinaciones de

tratamiento para este diseño, el efecto de un factor se denota por la letra latina

minúscula. De este modo, “A” se refiere al efecto del factor “A”, y “B” se refiere al

efecto del factor “B”, y “AB” se refiere a la interacción entre AB. En el diseño 22 los

niveles bajo y alto de A y B se denotan por “-“ y “+” respectivamente, en los ejes A

y B. Así – en el eje B representa el nivel bajo de catalizador mientras que + denota

el nivel alto.

Combinación de

tratamientos

Replica

I II III Total

A baja, B baja 28 25 27 80

A alta, B baja 36 32 32 100

Las cuatro combinaciones de tratamientos en el diseño pueden representarse por

letras minúsculas, cono se muestra en la figura 3. En esta figura se aprecia que el

nivel superior de cualquier factor de una combinación de tratamientos esta

representado por la presencia de la letra minúscula correspondiente, mientras que

la ausencia de esta ultima representa el nivel inferior del factor.

Así

“a” representa la combinación de tratamientos, en la que A se encuentra en

el nivel superior y B en el nivel inferior;

“b” representa aquella en la que A se halla en el nivel inferior y B en el

superior, y

“ab” representa a ambos factores en el nivel superior.

Por convención (1) se usa para representar a ambos factores en el nivel

inferior.

El efecto promedio de un factor se define como el cambio en la respuesta

producida por un cambio en el nivel de ese factor, promediado sobre los

niveles del otro factor.

Como se ilustra en la figura 3, las letras minúsculas (1), a, b y ab también se usan

para representar los totales de las n replicas de las combinaciones de tratamientos

correspondientes. Ahora bien, el efecto de A en el nivel B es {a-(1)}/n. Mientras

que el nivel superior B es {ab-b}/n. Tomando el promedio de estas dos cantidades

se obtiene:

(1)baab2n

1(1)abab

2n

1A

A baja, B alta 18 19 23 60

A alta, B alta 31 30 29 90

El efecto promedio de B se determina a partir de su efecto en el nivel inferior de A

(esto es, {b-(1)}/n, y de su efecto en el nivel superior de A (que es igual a [ab-a]/n

obteniéndose:

(1)a-bab

2n

1(1)baab

2n

1B

El efecto de la interacción AB se define como la diferencia promedio entre el

efecto de A en el nivel superior de B y su efecto en el nivel inferior de B, así:

(b)a(1)ab

2n

1(1)abab

2n

1AB

Por otro lado se puede definir AB como la diferencia promedio entre el efecto de B

en el nivel superior de A y el efecto de B en el nivel inferior de A.

Las formulas para los efectos de A, B y AB pueden deducirse por otro método. El

efecto de A puede hallarse como la diferencia en la respuesta promedio de las dos

combinaciones de tratamiento en la mitad derecha (que llamaremos Y A+, puesto

que es la respuesta promedio para las combinaciones de tratamientos a las que A

que se encuentra en el nivel alto) y las dos combinaciones de tratamientos en la

mitad izquierda (o Y A). Esto es,

AYAYA

2n

(1)b

2n

aab

Alto (2 sacos) +

bajo (1 saco) -

-bajo (15%)

+alto (20%)

Concentracion de reactivo A

Cant

idad

de

cata

lizad

or B

b = 60(18+19+23) ab = 90(31+30+19)

(1) = 80(28+25+27) a = 100(36+32+32)

Figura 1: Combinaciones de tratamiento en el diseño factoriall

Alto (2 sacos) +

bajo (1 saco) -

-bajo (15%)

+alto (20%)

Concentracion de reactivo A

Cant

idad

de

cata

lizad

or B

b = 60(18+19+23) ab = 90(31+30+19)

(1) = 80(28+25+27) a = 100(36+32+32)

Figura 1: Combinaciones de tratamiento en el diseño factoriall

(1)baab

2n

1

Este es exactamente el mismo resultado, el efecto de B se encuentra como la

diferencia entre el promedio de las dos combinaciones de tratamientos en la parte

superior del cuadrado (Y B+) y el promedio de las dos combinaciones de

tratamientos en la parte inferior ( Y B-), o

BYBYB

2n

(1)a

2n

bab

(1)abab

2n

1

Finalmente el efecto de interacción AB es el promedio de las combinaciones de

tratamientos en la diagonal de derecha a izquierda del cuadrado ab y (1) menos

el promedio de las combinaciones de tratamientos en la diagonal de izquierda a

derecha (a y b), o

2n

ba

2n

(1)abAB

ba(1)ab

2n

1

Con los datos que aparecen en la figura 1, las estimaciones de los efectos

promedio son:

8.33806010090

2(3)

1A

5.00801006090

2(3)

1B

1.67601008090

2(3)

1AB

El efecto de A (concentración de reactivo) es positivo; esto sugiere que al elevar A

del nivel bajo (15%) al nivel alto (25%) incrementará el rendimiento. El efecto de B

(catalizador) es negativo; esto sugiere que elevar la cantidad del catalizador

agregada al proceso reducirá el rendimiento. Al parecer, el efecto de

interacciones es pequeño comparado con los dos efectos principales.

En muchos experimentos que implican diseños 2K se examina la magnitud y la

dirección de los efectos de los factores para determinar cuales variables es

probable que sean importantes. Por lo general puede emplearse el análisis de

varianza para confirmar esta interpretación. En el diseño 2k existen algunos

métodos rápidos especiales para realizar los cálculos del análisis de varianza.

Consideremos la suma de cuadrados para A, B y AB. Obsérvese la primera

ecuación que se utiliza un contraste para estimar A; esto es,

(1)baabContrasteA

Este contraste suele llamarse efecto total de A. A partir de la segunda y tercera

ecuación, puede apreciarse que también se utilizan contraste para estimar B y AB.

Además, estos tres contrastes son ortogonales. La suma de cuadrados de

cualquiera de ellos puede calcularse usando la siguiente ecuación:

aa

2cin

2a1ciyi.SSc .

Esta ecuación establece que la suma de cuadrados de contraste es igual al

contraste elevado al cuadrado entre el producto del número de las observaciones

de cada total del contraste por la suma de cuadrados de los coeficientes del

mismo. En consecuencia, se obtiene que las sumas de cuadrados de A, B y AB

sean:

4*n

2ba(1)ab

SS

4*n

2(1)abab

SS

4*n

2(1)baab

SS

AB

B

A

Con los datos de la figura 1, las sumas de cuadrados se pueden calcular aplicando

las ecuaciones anteriores, obteniéndose:

8.33

4(3)

210

SS

75.00

4(3)

230

SS

208.33

4(3)

250

SS

AB

B

A

La suma total de cuadrados se determina de la manera usual mediante:

21i

21j

n1k

4n

...2

Yijk

2YSST

En general SST tiene 4n –1 grados de libertad. La suma de cuadrados del error,

con 4(n-1) G.L. se puede calcular en la forma usual, por diferencia, mediante.

323.009075.009398.00

4(3)

2Y2

1i

2

1j

3

1k

2ijkYESS

ABSSBSSASSTSSESS

31.348.3375.00208.33323.00

El análisis de varianza completo se presenta en la tabla siguiente. Ambos efectos

principales son significativos al 1%.

A menudo se es conveniente escribir las combinaciones de tratamientos en el

orden (1), a, b, y ab. Este orden se conoce como orden estándar. Cuando se

utiliza es posible apreciar que los coeficientes de los contrastes usados para

estimar los efectos son

Efectos (1) a b Ab

A:

B:

AB:

-1

-1

+1

+1

-1

-1

-1

+1

-1

+1

+1

+1

Tabla ANOVA para los datos del ejemplo 3.1 es la siguiente:

Fuente de

variación SS G.L. MS Fo

A

B

AB

Error

Total

208.33

75.00

8.33

31.34

323.00

1

1

1

8

11

208.33

75.00

8.33

3.92

53.15a

19.13a

2.13

a significativo al 1%

Signos algebraicos para calcular los efectos en un diseño 22

Observe que los coeficientes de los contrastes usados para estimar la interacción

son iguales al producto de los coeficientes correspondientes a los dos efectos

principales. Los coeficientes de los contrastes siempre son +1 o –1 y se puede

usar una tabla de signos positivos y negativos como la mostrada en la de signos

algebraicos para determinar el signo apropiado de cada combinación de

tratamientos. En el encabezado de las columnas de tabla y se encuentran los

efectos principales (A y B), la interacción AB, e I, que representa el total el total o

el promedio de todo el experimento. Se observa que la columna encabezada por I

se compone de solo de signos positivos. Los renglones corresponden a las

combinaciones de tratamientos.

Para encontrar un contraste con el fin de estimar cualquier efecto, simplemente se

multiplican los signos de la columna apropiada de la tabla por la correspondiente

combinación de tratamientos, y se suma. Por ejemplo, el contraste para estimar A

es –(1) + a – b + ab, lo cual concuerda con la ecuación.

(1)baab

2n

1(1)abab

2n

1A

Combinación

De

Tratamientos

Efecto Factorial

I A B AB

(1)

a

b

ab

+ - - +

+ + - -

+ - + -

+ + + +

Los tipos más sencillos de diseños factoriales implican sólo dos factores o

conjuntos de tratamientos. Haya “a” niveles del factor A y “b” niveles del factor

B,dispuestos en un diseño factorial; esto es, cada A repetición o réplica del

experimento contiene todas las combinaciones de tratamiento ab. En general, hay

nrepeticiones.

5.4 DISEÑO DE CUADROS LATINOS.

Un diseño cuadrado latino para p factores, o un cuadrado latino p x p, es un

cuadrado que contiene p renglones y p columnas. Cada una de las p2 celdas

contiene una de las p letras que corresponde a un tratamiento, y cada letra

aparece una sola vez en cada renglón y columna. El diseño cuadrado latino se usa

para eliminar dos fuentes de variabilidad problemáticas; en otras palabras, permite

analizar sistemáticamente por bloques en dos direcciones. A continuación se

presentan algunos ejemplos de cuadrados latinos.

En donde:

Kjiy= observación correspondiente al i-ésimo renglón, la k-ésima columna y el j-

ésimo tratamiento

Μ= la media general

Iα= es el i-ésimo efecto de renglón

Jτ= es el j-ésimo efecto de tratamiento

Kβ= es el k-ésimo efecto de la columna

Kjiε= es el error aleatorio

El modelo es completamente aditivo, en otras palabras, no existe interacción entre

los renglones, las columnas y los tratamientos. Sólo dos de los subíndices i, j y k

se requieren para especificar una observación en particular porque únicamente

hay una observación en cada celda.

El análisis de varianza consiste en descomponer la suma total de cuadrados de

las observaciones en sus componentes de renglón, columna, tratamiento y error

Cuyos grados de libertad.

Bajo la suposición de que el error aleatorio se distribuye en forma normal e

independiente, cada una de las sumas de cuadrados es al dividir entre, variables

aleatorias independientes con distribución ji-cuadrada.

Los diseños en cuadrados latinos son apropiados cuando es necesario controlar

dos fuentes de variabilidad. En dichos diseños el número de niveles del factor

principal tiene que coincidir con el número de niveles de las dos variables de

bloque o factores secundarios y además hay que suponer que no existe

interacción entre ninguna pareja de factores.

Supongamos que el número de niveles de cada uno de los factores es K. El

diseño en cuadrado latino utiliza K2bloques, cada uno de estos bloques

corresponde a una de las posibles combinaciones de niveles de los dos factores

de control. En cada bloque se aplica un solo tratamiento de manera que cada

tratamiento debe aparecer con cada uno de los niveles de los dos factores de

control.

Si consideramos una tabla de doble entrada donde las filas y las columnas

representan cada uno de los dos factores de bloque y las celdillas los niveles del

factor principal o tratamientos, el requerimiento anterior supone que cada

tratamiento debe aparecer una vez y sólo una en cada fila y en cada columna.

Recibe el nombre de cuadrado latino de orden K a una disposición en filas y

columnas de K letras latinas, de tal forma que cada letra aparece una sola vez en

cada Fila y en cada columna.

A continuación vamos a dar una forma simple de construcción de cuadrados

latinos.

Se parte de una primera Fila con las letras latinas ordenadas alfabéticamente

Columna1 Columna 2 Columna 3 · · · Columna k

Fila 1 A B C · · · K

Laposición (construcción por permutación cíclica), el cuadrado así obtenido es un

cuadrado latino estándar. Un cuadrado latino se denomina estándar cuando las

letras de la primera

Fila y la primera columna están ordenadas alfabéticamente. A parte de los

cuadrados latinos así obtenidos existen otros cuadrados latinos diferentes,

estándares y no estándares. En el

Apéndice B se muestran algunos cuadrados latinos estándares para los órdenes

3, 4, 5, 6, 7, 8 y 9.

El procedimiento para construir un diseño en cuadrado latino es el siguiente:

1) Se elige aleatoriamente un cuadrado latino de los disponibles.

2) Se asigna aleatoriamente el orden de las filas y columnas.

3) Se asignan aleatoriamente los tres factores a las filas, columnas y letras,

respectivamente.

Ilustremos este procedimiento con el ejemplo del rendimiento de la semilla de

trigo. Al plantear este experimento se pensó que podría conseguirse mayor

precisión si se controlaba la variabilidad introducida por los tipos de abono e

insecticida. El instituto de experimentación agrícola está interesado en estudiar 4

tipos de semilla de trigo, (s1, s2, s3, s4) y decide realizar el experimento utilizando

un diseño en cuadrado latino. Para ello selecciona 4 niveles para cada una de las

variables de bloque: abono, (a1, a2, a3, a4), e insecticida, (i1, i2, i3, i4).

La selección de uno de los cuadrados se hace al azar. Supongamos que el

cuadrado latino elegido es el siguiente

A B C D

B A D C

C D A B

D C B A

A continuación, se asigna también al azar, el orden de las filas y las columnas.

Supongamos que el orden seleccionado para las filas sea (2, 3, 1, 4), entonces el

cuadrado latino anterior se convierte en

B A D C

C D A B

A B C D

D C B A

Se vuelven a generar otros 4 números aleatorios que se idéntica con el orden de

las columnas de este último cuadrado. Supongamos que los números obtenidos

son (4, 3, 1, 2), obteniéndose el siguiente cuadrado latino

C D B A

B A C D

D C A B

A B D C

Por último, se asignan al azar las filas, las columnas y las letras latinas a los tres

factores. Por ejemplo, supongamos que las filas, las columnas y las letras se

asignan, respectivamente, a los tipos de insecticidas, semillas y abonos, de tal

forma que el diseño resultante es

Table 5-1.

Semillas

Insecticidess1 s2 s3 s4

i1 a3 a4 a2 a1

i2 a2 a1 a3 a4

i3 a4 a3 a1 a2

i4 a1 a2 a4 a3

Por convenio, se suele situar el factor principal, en este caso el tipo de semilla, en

las

Celdillas. Reordenando el diseño anterior se obtiene la siguiente tabla:7.2 Diseños

en cuadrados latinos 5

Tabla 5-2.

Abonos

Insecticidas a1 a2 a3 a4

i1 s4 s3 s1 s2

i2 s2 s1 s3 s4

i3 s3 s4 s2 s1

i4 s1 s2 s4 s3

En resumen, podemos decir que un diseño en cuadrado latino tiene las siguientes

características:

1o) Se controlan tres fuentes de variabilidad, un factor principal y dos factores de

bloque.

2o) Cada uno de los factores tiene el mismo número de niveles, K.

3o) Cada nivel del factor principal aparece una vez en cada fila y una vez en cada

columna.

4o) No hay interacción entre los factores.

5.5 DISEÑO DE CUADROS GRECOLATINOS.

Consideremos un cuadrado latino p × p al que se le sobrepone un segundo

cuadrado latino cuyos tratamientos se designan por letras griegas. Se dice que los

dos son ortogonales si al sobreponerse poseen la propiedad de que cada letra

griega aparece solamente una vez con cada letra latina.

El diseño cuadrado greco-latino puede utilizarse para controlar sistemáticamente

tres fuentes extrañas devariabilidad. En otras palabras, se usa para hacer un

análisis por bloques en tres direcciones. El diseño permite analizar cuatro factores

(renglón columna, letra griega y letra latina), cada uno con p niveles, usando

solamente p2 ensayos. Los cuadrados grecolatinos existen para toda excepto para

p = 6.

En donde:

lkjiy la observación que corresponde al renglón i, la columna k, la letra latina j y la

letra griega k.

μ= La media general

iθ= Es el efecto del i-ésimo renglón

jτ= Es el j-ésimo efecto de tratamiento de las letras latinas

kω= Es el k-ésimo efecto de tratamiento de las letras griegas

lψ= Es el efecto de la columna l

lkjiε= Es la componente del error aleatorio

Sólo dos de los cuatro subíndices son necesarios para identificar completamente

cualquier observación.

El análisis de varianza es muy similar al de un cuadrado latino. El factor

representado por las letras griegas es ortogonal a los renglones, las columnas y

los tratamientos de la letra latina porque cada letra griega ocurre una sola vez en

cada renglón, en cada columna y para cada letra latina. Por lo tanto la suma de

cuadrados debida al factor letra griega puede calcularse usando los totales de la

letra griega. El error experimental se reduce en esta cantidad. Las hipótesis nulas

de igualdad entre los renglones, entre las columnas, entre los tratamientos de la

letra latina y entre los tratamientos de la letra griega pueden probarse dividiendo la

media de cuadrados correspondiente entre la media de cuadrados del error

Los cuadrados greco-latinos se obtienen por superposición de dos cuadrados

latinos del mismo orden y ortogonales entre sí, uno de los cuadrados con letras

latinas el otro con letras griegas. Dos cuadrados reciben el nombre de ortogonales

si, al superponerlos, cada letra latina y griega aparecen juntas una sola vez en el

cuadrado resultante.

En el Apéndice C se muestra una tabla de cuadrados latinos que dan lugar, por

superposición de dos de ellos, a cuadrados greco-latinos. Notamos que no es

posible formar cuadrados greco-latinos de orden 6. La Tabla 5-8 ilustra un

cuadrado greco-latino para K = 4

Tabla 5-8.

Cuadrado greco-latino

A α B β C γ D δ

D γ C δ B α A β

B δ A γ D β C α

C β D α A δ B γ

Planteamiento del modelo

En un diseño en cuadrado greco-latino la variable respuesta yij(hp) viene descrita

por la siguiente ecuación

yij(hp) = µ + τi + βj + γh + δp + ǫij(hp)

i = 1, 2 . . . , K

j = 1, 2 . . . , K

h = 1, 2 . . . , K

p = 1, 2 . . . , K , (8.1)

Donde

µ es un efecto constante, común a todas las unidades. τi es el efecto producido

por el i-ésimo nivel del factor fila. Dichos efectos están sujetos a la restricción

iτi = 0.

Βj es el efecto producido por el j-ésimo nivel del factor columna. Dichos efectos

están sujetos a la restricción

jβj = 0.

Γh es el efecto producido por el h-ésimo nivel del factor letra latina. Dichos efectos

están sujetos a la restricción

hγh = 0.

δp es el efecto producido por el p-ésimo nivel del factor letra griega. Dichos

efectos están sujetos a la restricción

p δp = 0.

Ǫ ij(hp) son variables aleatorias independientes con distribución N(0, σ).

La notación yij(hp) indica que los niveles i y j determinan los niveles h y p para un

cuadrado greco-latino especificado. Es decir, los subíndices h y p toman valores

que dependen de la celdilla (i, j).

Se utiliza la siguiente notación:

N = K2 es el número total de observaciones.

El total y el promedio de todas las observaciones.

unidad 5 Diseño experimental con bloques al azar y diseños factoriales.

Documents

Transcript of unidad 5 Diseño experimental con bloques al azar y diseños factoriales.