ANÁLISIS E INTERPRETACIÓN DE DATOS …agro.unc.edu.ar/~mejogeve/ClasePablo.pdf · aplican sobre...
Transcript of ANÁLISIS E INTERPRETACIÓN DE DATOS …agro.unc.edu.ar/~mejogeve/ClasePablo.pdf · aplican sobre...
ANÁLISIS E INTERPRETACIÓN DE DATOS EXPERIMENTALES
EN EL MEJORAMIENTO GENÉTICO VEGETAL.
Ing. Agr. Pablo Mansilla
MGV-FCA, UNC.
ALGUNAS DEFINICIONES NECESARIAS..
El tamaño de la unidad experimental es usualmente una decisión arbitraria, pero afecta la calidad de la
observación de la variable respuesta.
UNIDAD EXPERIMENTAL (UE)
Ejemplos: planta, parcela de terreno, alícuota de materia prima (muestra de harina), grupo de insectos,
etc.
Porción de material o terreno, un individuo o grupo de individuos, susceptible de tratamiento experimental y sobre la que se observa una respuesta. Generalmente coincide con la Unidad de Observación (UO).
RESPUESTA Cuando se planifica un experimento, se debe identificar la respuesta del sistema
que se va a evaluar
Cualitativas Univariadas (una sola
variable)
Cuantitativas Multivariadas (varias variables)
variables respuesta (variables dependientes)
FACTORES Las potenciales fuentes de variación de la/s
variable/s respuesta en un sistema experimental identificadas a priori son llamadas factores
Los distintos estados o valores de los factores se designan niveles
La combinación de niveles evaluados para un conjunto de factores recibe el nombre de
tratamiento
TRATAMIENTO: conjunto de acciones que se aplican sobre las unidades experimentales y que
son objeto de comparación.
EJEMPLOS…
“Se desea medir contenido de gluten en 15 cultivares de trigo”
“Se desea comparar los rendimientos de 13 híbridos experimentales de maíz bajo
diferentes dosis de nitrógeno (50, 90 y 120 kg/ha)”
“Se desea comparar la efectividad de 3 fungicidas (Benomyl, Captane e Iprodione) en diferentes
concentraciones ( 0.3, 3.0 y 30 mM) sobre cuatros hongos fitopatógenos (Colletrotrichum acutatum,
Colletrotrichum fragariae, Colletrotrichum gloesporioides y Fusarium oxysporum)”
ERROR EXPERIMENTAL
El término error experimental se refiere a la diferencia entre el valor observado de la
variable respuesta sobre una unidad experimental y su valor esperado (de
acuerdo a un modelo).
El error experimental es el responsable de la variación observada entre unidades
experimentales tratadas de la misma forma.
COMPONENTES DEL ERROR EXPERIMENTAL
Usualmente, una vez obtenido un dato experimental, no es posible identificar la magnitud de las distintas
componentes que, sumadas, conforman el error experimental.
Error de medición: Variación que introduce el instrumento o procedimiento de medición.
Error de muestreo: Variación en la respuesta diferencial de cada UE al tratamiento que recibe y depende de propiedades inherentes a la UE.
Error de tratamiento: Variación en la respuesta debida a los errores en la reproducción del tratamiento.
Error de observación: Variación debida al submuestreo de la unidad experimental.
ALGUNOS RECURSOS DEL DISEÑO DE EXPERIMENTOS
Repetición
Aleatorización
Bloqueo
ALEATORIZACIÓN Procedimiento de asignación aleatoria...
de los tratamientos a las unidades experimentales (distribución del error de muestreo)
del orden en que los tratamientos son aplicados (control sobre posibles variaciones en la aplicación de tratamientos)
del orden en que se miden las respuestas (control de variaciones sistemáticas del error de medición)
Permite distribuir aleatoriamente las fuentes de error
REPETICIÓN
Se considera repetición a la aplicación de ese tratamiento a una
nueva unidad experimental.
Dado que toda observación tiene error, para estimar insesgadamente el efecto de un tratamiento, se debe promediar
sobre un conjunto de repeticiones.
BLOQUEO Aunque la aleatorización “distribuye los errores” y controla el sesgo, no elimina ni minimiza el
error experimental.
El bloqueo es el resultado de un reconocimiento a priori de fuentes sistemáticas de error y
permite obtener experimento más eficientes
DISEÑOS EN BLOQUES El bloque señala que: Las unidades experimentales dentro de un bloque deben ser tan homogéneas como sea posible. Las diferencia entre UE deben ser explicadas por las diferencias entre bloques (heterogeneidad entre bloques).
“en bloques completos” porque en cada bloque aparecen todos los tratamientos, y “al azar” porque los tratamientos son asignados en forma aleatoria dentro de cada bloque. Todas las UE de un mismo bloque tienen la misma probabilidad de recibir cualquiera de los tratamientos. Generalmente, el N° de R coincide con el N °de bloques.
EXPERIMENTO: 3 tratamientos en un Diseño en Bloques Completos al Azar (DBCA), con 4
repeticiones
MODELO Y ANÁLISIS
Experimento bien planificado :
Análisis simple Interpretación directa
• En estudios observacionales, el análisis se transforma en una herramienta de exploración de datos
• El objetivo es “encontrar el modelo apropiado” • Se entra en un territorio donde la
interpretación de los resultados puede ser poco confiable
ANÁLISIS DE LA VARIANZA
Descompone la variabilidad total en la muestra (suma de cuadrados total de las observaciones) en componentes
(CUADRADOS MEDIOS) asociados cada uno a una fuente de variación
reconocida .
ANÁLISIS DE LA VARIANZA
En experimentos con fines comparativos, usualmente se realiza la aplicación de varios tratamientos a un conjunto de unidades experimentales (parcelas, individuos, macetas, etc.)
De esta manera, se logra que las alteraciones en las respuestas (variables) puedan ser atribuidas a la acción de los tratamientos, excepto por variaciones aleatorias.
El propósito es comparar medias de tratamientos con el menor “ruido” posible.
OBJETIVO...
ANÁLISIS DE LA VARIANZA
Establecer si las diferencias obtenidas entre las medias estimadas reflejan las diferencias entre
las verdaderas medias (parámetros)
ijiijY
El modelo lineal
Yij= + i + bj + ij
Efecto de bloque
DISEÑO EN BOQUES
Efecto de tratamiento
las variaciones debidas a la estructura presente entre bloques, es eliminada de las comparaciones entre unidades que reciben el mismo tratamiento. El bloqueo permite disminuir el error
CONTRASTE DE HIPÓTESIS
La hipótesis nula en un análisis de la varianza es:
La hipótesis alternativa es:
• Las medias de tratamientos son iguales
• Existe al menos una media que se diferencia de las otras
1 2 ... a
Hipótesis Nula:
El modelo más simple es adecuado para
explicar la variación observada en los datos
¿Cómo se establece si el modelo más simple es adecuado para los datos
observados?
¿Cómo se decide si la hipótesis nula es soportada por los datos
experimentales?
Dicho de otra manera…
Se asume que la hipótesis nula es cierta
Se calcula una medida de credibilidad de la hipótesis nula, conocida como p-valor
Cuanto menor es el p-valor, menos verosímil es la hipótesis nula
Se fija un umbral por debajo del cual la hipótesis nula se rechaza, conocido como nivel de significancia (α)
Si se rechaza
Ho ¿Cuál o cuáles de las medias poblacionales
son las diferentes?
PROCEDIMIENTOS DE COMPARACIONES MÚLTIPLES
FV
ENTRE PROGENIES
DENTRO PROGENIES
SC GL CM є (CM)
CME ENTRE PROGENIES
CMD
VE + R VG
VE
CUADRADO MEDIO DENTRO (CMD) = VARIANZA AMBIENTAL (VE)
CUADRADO MEDIO ENTRE (CME) = VARIANZA FENOTÍPICA (VE + VG * R), donde R es el N° de
Repeticiones.
VG = (CME – CMD)/R %VG ó H2 (amplio) = (VG) / (VG + VE)
Uno de los principales usos del ANOVA en MGV es para ESTIMAR VARIANZAS…
ACTIVIDAD PRÁCTICA
Documento Excel: “base de datos para curso”
EVALUACIÓN DEL VALOR NUTRICIONAL DE MAÍCES ESPECIALES (Zea mays L.):
SELECCIÓN PARA CALIDAD AGROALIMENTARIA
OBJETIVO GENERAL
TESIS…
Evaluar el valor nutritivo de maíces especiales a partir de su composición química, a fin de seleccionarlos para
calidad agroalimentaria.
PROTEÍNAS Varían entre el 8 y 11% del peso del
grano
Posee una mutación natural en el gen recesivo o2, que codifica para la síntesis de zeínas.
La expresión de este gen (doble recesivo) lo convierte en maíz con valor nutritivo superior
al maíz normal (QPM) .
Limita la síntesis de zeína, y se traduce en
la duplicación del contenido de lisina y
triptófano
MATERIAL GENÉTICO: Prueba de progenies
ANÁLISIS DE CORRELACIÓN Se deben tener dos o más variables aleatorias relevadas sobre cada UE. El Coeficiente de correlación de Pearson (r) es una medida de la magnitud de la asociación lineal entre dos variables cuantitativas que no depende de las unidades de medida de las variables originales. Asume valores entre -1;1 y el signo indica la dirección de la asociación.
LAS CORRELACIONES OBSERVADAS ENTRE DOS VARIABLES NO PUEDEN SER USADAS PARA ESTABLECER RELACIONES
CAUSALES.
Oleico
Linoleico
Linolénico
Proteína Oleico 1 0,000001 0,000002 0,004365
Linoleico -0,934921 1 0,017301 0,006484
Linolénico -0,467880 0,245027 1 0,119157
Proteína 0,291491 -0,278916 0,161833 1
p-valores ≤ a 0.05, estadísticamente significativos. Los p-valores significativos se corresponden a un coeficiente de correlación “r”. Se analiza el valor “r” considerando su valor absoluto y signo. Un signo positivo indica que ambas variables se incrementan o disminuyen en el mismo sentido; un signo negativo indica que mientras una variable se incrementa, la otra disminuye.
Coeficientes de correlación (r)
Valores p asociada a la prueba de hipotésis de correlación nula
En MGV, el coeficiente de correlación de Pearson permite determinar las correlaciones
fenotípicas entre caracteres, por ser la resultante de efectos genéticos y ambientales.
ESTABLECER CRITERIOS DE SELECCIÓN
Caracteres asociados al rendimiento.
UTILIDAD
En el análisis de sendero se pretende construir modelos de causa-efecto entre las variables a través de la partición de la correlación. Estos son efectos directos de una variable sobre otra (senderos simples) y efectos indirectos de una variable sobre otra, vía una o más variables exógenas (senderos compuestos).
ANÁLISIS DE SENDERO (PATH ANALYSIS)
UTILIDAD
SELECCIÓN INDIRECTA
CARÁCTER 1
CARÁCTER 2
rcp-2
rcp-1
r1-2 CP
INTERRELACIONES
Se calculan los coeficientes de correlación fenotípica entre los caracteres, y
los efectos directos e indirectos de los caracteres analizados sobre el carácter sobre el principal (CP).
La correlación entre biomasa y área foliar es significativa (r=-0.49, p=0.0272), y está casi completamente determinada (-0.52) por la
correlación entre biomasa y semillas germinadas.
EJEMPLO…
Las semillas germinadas, posee una fuerte correlación con biomasa y un fuerte efecto indirecto sobre la relación encontrada entre área foliar y biomasa.
MUCHAS GRACIAS…