Análisis de datos 2o de Biología - III. Regresión...

44
P. Cifuentes — 1 Análisis de datos 2 o de Biología III. Regresión lineal Departamento de Matemáticas Universidad Autónoma de Madrid 2018

Transcript of Análisis de datos 2o de Biología - III. Regresión...

Page 1: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 1

Análisis de datos2o de Biología

III. Regresión lineal

Departamento de Matemáticas

Universidad Autónoma de Madrid

2018

Page 2: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 2

Planteamiento

Modelo

Estimación de parámetros

Intervalos de confianza

Análisis de residuos

Transformaciones de datos

Predicciones

Formulario

Page 3: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 3

El problemaExplicar la variabilidad de una magnitud continua Y —variable explicada—por medio de los valores de otra variable continua X —variable explicativa—

Ejemplos

I Peso de una persona por medio de la estaturaI Estatura del hijo en función de la estatura del padreI Presión atmosférica en función de la altitudI Alargamiento de un resorte en función de la fuerza aplicadaI Nota en los exámenes de Acceso en función de la nota media de Bachillerato

Page 4: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 4

Los elementos

I Normal bivarianteI Ajuste por mínimos cuadrados

Page 5: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 5

Normal bivariante

12πσ1σ2

√1−ρ2

exp{

− 12σ2

1σ22(1−ρ2)(σ

22(x−µ1)2−2σ1σ2ρ(x−µ1)(y−µ2)+σ2

1(y−µ2)2)}

12πσ1σ2

√1−ρ2

exp

{− 1

2

((x−µ1

σ1√

1−ρ2

)2−2ρ(

x−µ1σ1√

1−ρ2

)(y−µ2

σ2√

1−ρ2

)+(

y−µ2σ2√

1−ρ2

)2)}

Page 6: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 6

Simulación

Page 7: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 7

Modelo

Modelo lineal: Y = β0 + β1X + U

Normalidad y homocedasticidad:

U ∼ N(0, σ), es decir, Y |X=x ∼ N(β0 + β1x, σ)

Parámetros: β0, β1, σ.

Page 8: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 8

Ejemplo: Pearson y LeeOn the Laws of Inheritance in Man; Karl Pearson, Alice Lee; Biometrika (1903) (disponible en «Lecturas»)

Y = 0,516X + 33,73

X: estatura del padreY : estatura del hijo

Datos: 1078 parejas (padre, hijo)

Estatura media padres: 68 pulgadasEstatura media hijos: 69 pulgadas

vx = vy = 2,7r = 0,51

Page 9: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 9

Muestra aleatoriaMuestra: (Xi, Yi), i = 1, . . . , n, pares independientes

Dos modelos distintos:I Valor de Xi aleatorio

I Estatura y peso de un conjunto de individuosI Estatura del padre y estatura del hijo para un conjunto de parejas (padre, hijo)

I Valor de Xi determinado por el investigadorI Presión atmosférica a una serie de altitudes prefijadasI Extensión del resorte para una serie de masas prefijadas

Ambos modelos se tratan matemáticamente de forma análoga

Page 10: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 10

Ejemplo

La estatura crece linealmente con la edad No hay relación (lineal) entre el mes denacimiento y la estatura

Page 11: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 11

Ajuste por mínimos cuadrados

Mínimos cuadradosMínima suma de cuadrados dedistancias verticales a la recta.

Determinar β0 y β1 para que lasuma

n∑i=1

(yi − (β0 + β1xi))2

sea mínima.

Notación

x =1n

∑i

xi y =1n

∑i

yi

Page 12: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 12

Parámetros estimados

Page 13: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 13

Varianza residualEstimación de σ2:

Residuos

ei = yi − yi

= yi − (β0 + β1xi)

= (yi − y)− β1(xi − x)

Varianza residual

S2R =

∑ni=1 e

2i

n− 2

Page 14: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 14

Estimación puntual de los parámetros

β1 = cov(x, y)vx

β0 = y − β1x

ρ = r = cov(x, y)√vxvy

∑e2i = n(1− r2)vy

σ2 = S2R =

∑e2i

n− 2

Recuérdese:

vx =1n

∑i

(xi − x)2 =

(1n

∑i

x2i

)− x2

vy =1n

∑i

(yi − y)2 =

(1n

∑i

y2i

)− y2

cov(x, y) =1n

∑i

(xi − x)(yi − y) =

(1n

∑i

xiyi

)− xy

Page 15: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 15

Intervalos de confianza

IC1−α(β1) =(β1 − tn−2;α2 · SR

√1nvx

, β1 + tn−2;α2 · SR

√1nvx

)

IC1−α(β0) =

(β0 − tn−2;α/2SR

√1n

+x2

nvx, β0 + tn−2;α/2SR

√1n

+x2

nvx

)

IC1−α(σ2) =(

(n− 2)S2R

χ2n−2;α/2

,(n− 2)S2

R

χ2n−2;1−α/2

)

Page 16: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 16

Contraste de la regresión

¿Es β1 6= 0?H0 ≡ β1 = 0H1 ≡ β1 6= 0

Contraste t

R =

∣∣∣∣∣∣ β1

SR√

1nvx

∣∣∣∣∣∣ > tn−2;α/2

Page 17: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 17

Contraste ANOVAEquivalente al contraste t (los estadísticos que se obtienen con una muestra dadatiene exactamente el mismo p-valor en ambos contrastes)

Sumas de cuadrados

SCT =∑i

(yi − y)2 =∑i

(yi − yi)2 +∑i

(yi − y)2 = SCR + SCE

Tabla ANOVASuma de cuadrados g. de l. Varianzas F

Modelo SCE 1 SCE SCE/S2R

Error SCR n− 2 S2R

Total SCT n− 1

R = {F > F1,n−2;α}

Page 18: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 18

Comentarios

I El contraste de la regresión permite decidir si parte de la variabilidad de la Ypuede atribuirse a la X.

I Las sumas de cuadrados pueden calcularse a partir de algunos estadísticosya calculados:SCT = nvy = (n− 1)s2

y

SCE = nvyr2 = (n− 1)s2

yr2

SCR = nvy(1− r2) = (n− 1)s2y(1− r2)

I Según lo anterior:

F = (n− 2) r2

1− r2

Page 19: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 19

Ejemplo: Oecanthus niveus; Bessey & Bessey; The AmericanNaturalist; 1897

Ver el episodio The Jiminy Conjecture de la serie The Big Bang Theory (episodio 2 de la temporada 3)

Temperatura ambiente T en grados Fahrenheit y número N de «crics» por minuto

T N

61 10367 12372 15075 17181 190

n = 5∑T = 356

∑T 2 = 25 580∑

N = 737∑N2 = 113 579∑

NT = 53 539

Modelo para explicar la temperatura (T ) por medio del número de «crics» porminuto (N ): T = β0 + β1N

(...)

Page 20: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 20

...Oecanthus...

T = 71,20 T 2 = 5069,44N = 147,40 N2 = 21 726,76

nvT = (n− 1)s2T = 232,80

nvN = (n− 1)s2N = 4945,20 ncov(N,T ) = 1064,60

β1 = cov(N,T )vN

= ncov(N,T )nvN

= 0,2153

β0 = T − β1N = 39,47

Ecuación de la recta de regresión: T = 39,47 + 0,215N

r = cov(N,T )√vNvT

= 0,9922

S2R = nvT

n− 2(1− r2) = 1,206

(...)

Page 21: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 21

...Oecanthus...

Intervalos de confianza:

IC95 %(β0) = (31,98 , 46,96)

IC95 %(β1) = (0,166 , 0,265)

Sumas de cuadrados:

SCE = 229,2 SCR = 3,618 SCT = 232,8

Contraste F : F = 190 F1,3;0,05 = 10,13

Al nivel de significación α = 0,05, se rechaza β1 = 0

Coeficiente de determinación: R2 = 0,985

Page 22: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 22

Coeficiente de determinación: R2

I Da una idea de qué fracción de la variablidad de Y está explicada por X.I Su valor,

R2 = SCESCT

,

es siempre positivo.I En regresión lineal simple coincide con r2, el cuadrado del coeficiente de

correlación.

Page 23: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 23

Interpretación

Page 24: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 24

Observación de los datos

Page 25: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 25

Observación de los datos

Page 26: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 26

Observación de los datos

Page 27: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 27

Requisitos

I LinealidadI NormalidadI HomocedasticidadI Independencia

Desviaciones significativas sobre estos requisitos pueden proporcionarconclusiones incorrectas

Page 28: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 28

Análisis de residuosResiduo: ei = yi − yiOBSERVACIÓN: ei = yi − β0 − β1xi = (yi − y) − β1(xi − x)

Representación gráfica de los residuosDebe hacerse respecto de los valores pronosticados (yi), nunca respecto de losvalores observados (yi) de la variable explicada.

Page 29: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 29

Los cuatro ejemplos con los mismos descriptivos

Page 30: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 30

Casos 3 y 4

Page 31: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 31

Estatura vs. edad

Page 32: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 32

Dispersión de residuosLAS HIPÓTESIS DEL MODELO

Page 33: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 33

EjemploLa siguiente tabla recoge los datos de altura (cm) y peso (kg) de 20 mujeres estudiantes de la UAM

estatura peso159 57160 47168 53157 50157 43155 48165 48157 48167 55163 52169 55158 50169 60158 51157 51163 50170 49165 57167 47169 55

Coeficiente de correlación:= 0,476

Estimaciones:β0 = −11,84β1 = 0,388

Page 34: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 34

ResiduosDato no Pronóstico Residuo

1 49,88 7,122 50,27 −3,273 53,38 −0,384 49,11 0,895 49,11 −6,116 48,33 −0,337 52,21 −4,218 49,11 −1,119 52,99 2,01

10 51,44 0,5611 53,77 1,2312 49,49 0,5113 53,77 6,2314 49,49 1,5115 49,11 1,8916 51,44 −1,4417 54,15 −5,1518 52,21 4,7919 52,99 −5,9920 53,77 1,23

Page 35: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 35

Tranformaciones de datosA utilizar cuando detectamos problemas de no linealidad o de heterocedasticidady queremos aplicar las técnicas de regresión lineal

Page 36: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 36

EjemplosLogaritmo:

y = keβx −→ ln y = ln k + βx

Doble logaritmo:

y = kxβ −→ log y = log k + β log xNOTA: Cualquier logaritmo

Inversa:

y = k + β1x

Logaritmo e inversa:

y = keβx −→ ln y = ln k + β

1x

Page 37: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 37

Gráficas

Page 38: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 38

Curva logística

Page 39: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 39

Falta de homocedasticidad

Page 40: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 40

Predicciones a partir del modelo ajustadoUna vez aceptado el modelo de regresión, podemos plantearnos realizarestimaciones y predicciones sobre distintas características de la Y dado un valorfijo de X que denominaremos x0.Analizaremos dos opciones:

I Estimación de E(Y |X=x0): valor medio de Y para X = x0I Predicción de un valor de Y para X = x0

En ambos casos la mejor estimación puntual es el valor de Y dado por la recta deregresión ajustada: y0 = β0 + β1x0¿Cuál es la diferencia?

Page 41: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 41

Intervalos de predicción

Estimación de la media

IC1−α(E(Y |X=x0) =

β0 + β1x0 ± tn−2;α/2SR

√1n

+ (x0 − x)2

nvx

Predicción

I1−α(Y |X=x0) =

β0 + β1x0 ± tn−2;α/2SR

√1 + 1

n+ (x0 − x)2

nvx

Page 42: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 42

BandasLos intervalos anteriores definen dos bandas en torno a la recta de regresión quetienen la misma forma. La banda para la media es siempre más estrecha que labanda para la predicción.

Page 43: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 43

FORMULARIO

Modelo: Yi ∼ N(β0 + β1xi;σ2) independientes, i = 1, ..., n.

β1 = covvx

β0 = y − covvx

x = y − β1x

σ2 = S2R = 1

n− 2∑i

(yi − yi)2 = 1n− 2

∑i

(yi − β0 − β1xi)2

IC1−α(β0) =

β0 ± tn−2;α/2 SR

√1n

+ x2

nvx

IC1−α(β1) =

(β1 ± tn−2;α/2 SR

√1nvx

)

IC1−α(σ2) =(

(n− 2)S2R

χ2n−2;α/2

; (n− 2)S2R

χ2n−2;1−α/2

)

Page 44: Análisis de datos 2o de Biología - III. Regresión linealverso.mat.uam.es/~pablo.fernandez/AADD-Cifuentes-regresion-simple-18.pdf · I Da una idea de qué fracción de la variablidad

P. Cifuentes — 44

...FORMULARIO

Tabla ANOVA

Suma de cuadrados G. L. Varianza Estadístico

SCE =∑i(yi − y)2 1 SCE

1 F = SCE/1SCR/(n−2)

SCR =∑i(yi − yi)2 n− 2 SCR

n−2SCT =

∑i(yi − y)2 n− 1

SCE = nvyr2 ; SCR = nvy(1− r2) ; donde r = cov

√vxvy

IC1−α(valor medio de Y |X=x0) =

y0 ± tn−2;α/2 SR

√1n

+ (x0 − x)2

nvx

IC1−α(valor de Y |X=x0) =

y0 ± tn−2;α/2 SR

√1 + 1

n+ (x0 − x)2

nvx

donde y0 = β0 + β1x0