Tema 4. Modelo de regresión múltiple -...
Transcript of Tema 4. Modelo de regresión múltiple -...
Tema 4. Modelo de regresion multiple
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 1
Objetivos del tema
• Construir un modelo que represente la dependencia lineal deuna variable respuesta cuantitativa Y simultaneamenterespecto de varias variables explicativas cuantitativasX1, . . . ,XK .
• Determinar la funcion de regresion lineal optima.
• Partiendo de un conjunto de regresores X1, . . . ,XK , estudiarcuales son significativos para explicar la respuesta.
• Estimar el valor esperado de la respuesta y predecir un valorfuturo de esta para unos valores prefijados de las variablesexplicativas. Determinar la precision de la estimacion y laprediccion.
• Analizando los residuos, estudiar si se verifican las hipotesisbasicas del modelo. Proponer alternativas si no es ası.
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 2
Ejemplo 4.1: Variable respuesta Y = Temperatura (en oF)maxima promedio durante el mes de enero en la estacionmeteorologica de un condado de Texas.Variables explicativas: X1 = Latitud, X2 = Altitud (en pies) y X3
= Longitud de la estacion.
Condado Temperatura Latitud Altitud LongitudHarris 56 29.767 41 95.367Dallas 48 32.85 440 96.85
Kennedy 60 26.933 25 97.8Midland 46 31.95 2851 102.183
Deaf Smith 38 34.8 3840 102.467Knox 46 33.45 1461 99.633
Maverick 53 28.7 815 100.483Nolan 46 32.45 2380 100.533
El Paso 44 31.8 3918 106.4Collington 41 34.85 2040 100.217
Pecos 47 30.867 3000 102.9Sherman 36 36.35 3693 102.083Travis 52 30.3 597 97.7Zapata 60 26.9 315 99.283Lasalle 56 28.45 459 99.217
Cameron 62 25.9 19 97.433
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 3
Ejemplo 4.1 (cont.):
20
30
40 1000 2000 3000 4000
40
50
60
Altitud
Temperaturas máximas promedio en enero (Texas)
Latitud
Tem
pera
tura
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 4
Ejemplo 4.2: Se estudia Y = la tasa de respiracion (no molesO2/(g·min)) del liquen Parmelia saxatilis bajo puntos de goteo conun recubrimiento galvanizado. El agua que cae sobre el liquencontiene zinc y potasio, que utilizamos como variables explicativas.(Fuente de datos: Wainwright (1993), J. Biol. Educ..)
Tasa de respiracion Potasio (ppm) Zinc (ppm)
71 388 241453 258 1069355 292 1168248 205 1256069 449 246484 331 260721 114 1620568 580 200568 622 1825
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 5
Ejemplo 4.2 (cont.):
200400
6005000
1000015000
20
40
60
80
PotasioZinc
Tas
a re
spira
ción
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 6
El modelo de regresion lineal multiple
En la regresion lineal multiple de Y sobre X1, . . . ,XK se suponeque la funcion de regresion tiene la expresion
E (Y |X1 = x1, . . . ,XK = xK ) = β0 + β1x1 + . . . + βKxK .
Cuando K = 2 la funcion de regresion es un plano
01
23
01
230
2
4
6
x1
E(Y|X1=x
1,X
2=x
2) = 2+x
1−0.5x
2
x2
y
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 7
Tenemos una muestra de n individuos en los que observamos lasvariables Y y X = (X1, . . . ,XK )′ obteniendo (xi , yi ), i = 1, . . . , n,donde xi = (xi1, xi2, . . . , xiK )′.
El modelo de regresion lineal multiple supone que
Yi = β0 + β1xi1 + . . . + βKxiK + Ui , i = 1, . . . , n,
donde las perturbaciones Ui verifican las hipotesis
a) E (Ui ) = 0, para cada i = 1, . . . , n.
b) Var(Ui ) = σ2, para cada i = 1, . . . , n.
c) E (UiUj) = 0 , para todo i 6= j .
d) Ui ∼ Normal, para todo i .
e) n ≥ K + 2
f) Las variables Xi son linealmente independientes entre sı (no haycolinealidad).
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 8
Las hipotesis (a)-(d) se pueden reexpresar ası: los individuos de lamuestra son independientes entre sı con
Yi ∼ Normal(β0 + β1xi1 + . . . + βKxiK , σ2).
El modelo admite una expresion equivalente en forma matricial:Y1
Y2...
Yn
=
1 x11 . . . x1K
1 x21 . . . x2K...
...1 xn1 . . . xnK
β0
β1...
βK
+
U1
U2...
Un
o
Y = Xβ + U,
donde X es la matriz del diseno.
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 9
Cada coeficiente βi (i ≥ 1) mide el efecto marginal que, sobre lavariable respuesta Y , tiene un aumento de una unidad de lavariable explicativa xi cuando el resto de las variables xj , con j 6= i ,permanece constante.
Ejemplo 4.1 (cont.):
Ejemplo 4.2 (cont.):
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 10
Estimacion de los parametros del modelo
Parametros desconocidos: β0, β1, . . . , βK , σ2.
Estimamos β0, β1, . . . , βK por el metodo de mınimos cuadrados:minimizamos la suma de los residuos al cuadrado VNE =
∑ni=1 e2
i ,
donde ei = yi − yi e yi = β0 + β1xi1 + . . . + βKxiK .
Para K = 2, cada residuo ei es la distancia en vertical entre el(xi , yi ) observado y (xi , yi ).
x1
x2
y
ei
(xi1
,xi2
,yi)
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 11
Al derivar la VNE respecto a β0, β1, . . . , βK e igualar las derivadasa 0 obtenemos K + 1 ecuaciones de restriccion sobre los residuos:
n∑i=1
ei = 0,
n∑i=1
eixi1 = 0, . . . ,
n∑i=1
eixiK = 0.
Los residuos tienen n − K − 1 grados de libertad.
A partir de estas ecuaciones despejamos los estimadoresmınimo-cuadraticos de β0, β1, . . . , βK :
β =
β0
β1...
βK
= (X′X)−1X′y.
Podemos asegurar que la matriz X′X es invertible si se cumplen lashipotesis basicas (e) y (f).
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 12
Ejemplo 4.2 (cont.):
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 13
200400
6005000
1000015000
20
40
60
80
Potasio
Ejemplo 4.2: Plano de regresión
Zinc
Tas
a re
spira
ción
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 14
Tasa de
respiración Potasio (ppm) Zinc (ppm)
71 388 2414 Resumen53 258 1069355 292 11682 Estadísticas de la regresión
48 205 12560 Coeficiente de correlación múltiple 0,92111277969 449 2464 Coeficiente de determinación R^2 0,84844875284 331 2607 R^2 ajustado 0,7979316721 114 16205 Error típico 8,17212231368 580 2005 Observaciones 968 622 1825
ANÁLISIS DE VARIANZAGrados de libertadSuma de cuadradosPromedio de los cuadradosF Valor crítico de F
Regresión 2 2243,2985 1121,64925 16,7952841 0,0034808Residuos 6 400,701499 66,7835831Total 8 2644
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%Superior 95,0%
Intercepción 101,0883957 18,8660471 5,35821813 0,00173104 54,9248076 147,251984 54,9248076 147,251984Variable X 1 -0,04034212 0,03423824 -1,17827673 0,28329567 -0,12412013 0,04343589 -0,12412013 0,04343589Variable X 2 -0,00387683 0,00100248 -3,86725087 0,00829226 -0,00632981 -0,00142386 -0,00632981 -0,00142386
Análisis de los residuales
Observación Pronóstico para Y ResiduosResiduos estándares
1 76,07698485 -5,07698485 -0,717365322 49,22518266 3,77481734 0,533372293 44,01936545 10,9806346 1,551536334 44,12527292 3,87472708 0,547489295 73,42227401 -4,42227401 -0,624856316 77,62825745 6,37174255 0,900311367 33,66535951 -12,6653595 -1,789583778 69,91692137 -1,91692137 -0,270856229 68,92038178 -0,92038178 -0,13004765
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 15
Ejemplo 4.1 (cont.):
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 16
Un estimador insesgado de σ2 es la varianza residual
s2R =
1
n − K − 1
n∑i=1
e2i .
Ejemplo 4.1 (cont.):
Ejemplo 4.2 (cont.):
Observacion: Se cumple que y = β0 + β1x1 + . . . + βK xK , siendo
y =1
n
n∑i=1
yi , x1 =1
n
n∑i=1
xi1, . . . , xK =1
n
n∑i=1
xiK .
Por tanto, si K = 2, el plano de regresion pasa por el punto demedias muestrales (x1, x2, y).
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 17
Inferencia sobre los parametros del modelo
Propiedades de los estimadores de los parametros
Para j = 0, 1, . . . ,K ,
βj − βj
error tıpico de βj
∼ tn−K−1,
donde(error tıpico de βj)
2 = s2R qjj
y qjj es el elemento j + 1 de la diagonal de (X′X)−1.
Ejemplo 4.2 (cont.):
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 18
Por tanto, para cualquier j = 0, 1, . . . ,K ,
IC1−α(βj) =(βj ∓ tn−K−1;α/2 sR
√qjj
).
Ejemplo 4.1 (cont.): Sabiendo que
(X′X)−1 =
996.1542 −4.1945 0.0215 −9.0039−4.1945 0.0293 −0.0001 0.0345
0.0215 −0.0001 0.0000 −0.0002−9.0039 0.0345 −0.0002 0.0824
,
calcular intervalos de confianza para los parametros βj de lafuncion de regresion.
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 19
Contrastes de hipotesis individuales sobre los coeficientes
Suponiendo que E (Y |X = x) = β0 + β1x1 + . . . + βKxK (secumple el modelo de regresion lineal multiple), estamos interesadosen determinar que variables Xj son significativas para explicar Y .
H0 : βj = 0 (Xj no influye sobre Y )
H1 : βj 6= 0 (Xj influye sobre Y )
La region de rechazo de H0 al nivel de significacion α es
Rj = {|t(βj)| > tn−K−1;α/2},
siendo t(βj) = βj/error tıpico de βj .
Ejemplo 4.2. (cont.):
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 20
O tambienRj = {0 /∈ IC1−α(βj)}
Ejemplo 4.1. (cont.):
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 21
El contraste de la regresion
Suponiendo que se cumple el modelo de regresion lineal multiple,queremos contrastar
H0 : β1 = . . . = βK = 0 (el modelo no es explicativo:
ninguna de las variables explicativas influye en la respuesta)
H1 : βj 6= 0 para algun j = 1, . . . ,K (el modelo es explicativo:
al menos una de las variables Xj influye en la respuesta)
Hacemos un analisis de la varianza: examinamos que proporcion de
la variabilidad total VT =n∑
i=1
(yi − y)2 es explicada por el modelo
regresion Y = β0 + β1x1 + . . . + βKxK + U. Se verifica que
VT = VE + VNE, donde VE =n∑
i=1
(yi − y)2.
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 22
Tabla ANOVA para el contraste de la regresion:
FV SC gl CM F
Explicada VE K s2e =
VE
KF =
s2e
s2R
Residual VNE n − K − 1 s2R
Total VT n − 1
Bajo H0 : β1 = . . . = βK = 0 el estadıstico F sigue unadistribucion FK ,n−K−1. Por tanto, la region de rechazo de H0 anivel de significacion α sera R = {F > FK ,n−K−1,α}.
Ejemplo 4.1. (cont.):
ANÁLISIS DE VARIANZASC gl CM F p-valor
Regresión 934,328006 3 311,442669 491,138015 8,1236E-13Residuos 7,60949449 12 0,63412454Total 941,9375 15
Ejemplo 4.2. (cont.):
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 23
Interpretacion de los contrastes
Contrasteglobal (F )
Contrastesindividuales (t) Conclusion
Modeloexplicativo Todas las Xi explicativas Nos quedamos
con todas las Xi
Modeloexplicativo Algunas Xi explicativas Nos quedamos con
las Xi explicativas
Modeloexplicativo Ninguna Xi explicativa Colinealidad
Modelo noexplicativo Todas las Xi explicativas Colinealidad
Modelo noexplicativo Algunas Xi explicativas Colinealidad
Modelo noexplicativo Ninguna Xi explicativa
Modelo no adecuadopara describir larelacion entre Y yX1, . . . ,XK .
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 24
El coeficiente de determinacion
Es una medida de la bondad del ajuste en el modelo de regresionmultiple
R2 =VE
VT.
A R se le denomina coeficiente de correlacion multiple.
Propiedades:
(i) 0 ≤ R2 ≤ 1. Cuando R2 = 1 existe una relacion lineal exactaentre la respuesta y las variables predictivas. Cuando R2 = 0,sucede que β0 = y y β1 = . . . = βK = 0 y no existe relacionlineal aparente entre Y y las Xi .
(ii) El coeficiente de regresion multiple es el coeficiente deregresion simple entre la respuesta Y y el valor previsto Y .
(iii) Se verifica que F =R2
1− R2
n − K − 1
K.
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 25
No conviene utilizar el coeficiente de determinacion para comparardistintos modelos de regresion entre sı: siempre que introduzcamosun nuevo regresor en el modelo, R2 aumentara, aunque el efectodel regresor sobre la respuesta no sea significativo.
Por ello se define el coeficiente de determinacion ajustado ocorregido por grados de libertad
R2 = 1−s2R
s2y
,
siendo s2y = VT/(n− 1). R2 solo disminuye al introducir una nueva
variable explicativa en el modelo, si la varianza residual disminuye.
Se cumple que R2 = R2 − (1− R2)K
n − K − 1. Por tanto,
R2 ≤ R2.
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 26
Contrastes de grupos de coeficientes
Queremos contrastar que un subconjunto (β1, . . . , βi ), con i < K ,del total de coeficientes β1, . . . , βK son cero:
H0 : β1 = . . . = βi = 0
H1 : Alguno de los βj 6= 0, j = 1, . . . , i .
Primero efectuamos la regresion con todos los regresores
y = β0 + β1x1 + . . . + βKxK .
Denotamos por VE(K ) y VNE(K ) la variabilidad explicada yresidual con este modelo.
Luego planteamos el modelo de regresion bajo H0
y = β′0 + β′
i+1xi+1 + . . . + β′KxK
y llamamos VE(K − i) a la variabilidad explicada por este modelo.Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 27
Definiremos la variabilidad incremental explicada por las variablesX1, . . . ,Xi como
∆VE(i) = VE(K )− VE(K − i) > 0
Rechazaremos H0, al nivel de significacion α, cuando
F =∆VE(i)/i
s2R
> Fi ,n−K−1,α.
Ejemplo 4.1. (cont.):
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 28
Estimacion y prediccion
Supongamos que queremos estimar E (Y0) o predecir Y0, siendo
Y0 = (Y |X = x0) = β0 + β1x10 + . . . + βKxK0 + U.
Entonces una estimacion/prediccion puntual es
y0 = β0 + β1x10 + . . . + βKxK0.
Ejemplo 4.2. (cont.): Estimar la tasa media de respiracion delParmelia saxatilis cuando el agua que cae sobre el liquen tiene unaconcentracion de Potasio de 300 p.p.m. y una concentracion deZinc de 10000 p.p.m.
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 29
Colinealidad
La estimacion β de los parametros en regresion multiple requiereinvertir la matriz X′X. Cuando una de las Xj es combinacion linealde los restantes regresores, X1, . . . ,Xj−1,Xj+1, . . . ,XK , entonces|X′X| = 0. Entonces diremos que las variables explicativas soncolineales.
En la practica esto nunca se dara de manera exacta, aunque sı esposible que en un conjunto de datos algunas de las variables sepuedan describir muy bien como funcion lineal de las restantesvariables. En ese caso, |X′X| es casi cero. Este problema, llamadomulticolinealidad, hace que los estimadores de los parametros βi
tengan alta variabilidad y sean muy dependientes entre sı.
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 30
Para identificar las variables colineales primero se examina lamatriz de correlacion R entre las variables explicativas. Si existencorrelaciones altas entre parejas de regresores, tenemos unasituacion clara de multicolinealidad. Sin embargo, es posible queuna de las variables explicativas Xi se pueda expresar comocombinacion lineal de las restantes y que su correlacion con cadauna de estas otras sea baja (ver Pena 2002).
Ejemplo 4.1. (cont.):
R =
1 0.731 0.4310.731 1 0.8890.431 0.889 1
Ejemplo 4.2. (cont.):
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 31
Diagnosis del modelo
Se realiza igual que en regresion simple: mediante el analisis de los
residuos estandarizados ei =ei
sR√
1− hi, donde hi = x′i (X′X)−1xi .
Bajo las hipotesis del modelo de regresion multiple, los ei siguenaproximadamente una N(0,1).
Ejemplo 4.1. (cont.):
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 32
Las hipotesis de linealidad y homocedasticidad se comprueban conun grafico de residuos estandarizados ei frente a valores previstosyi . Este grafico tambien sirve para detectar datos atıpicos.
Ejemplo 4.1. (cont.):
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 33
Transformacion de los datos
Ejemplo 4.3: Harrison y Rubinfeld (1978), “Hedonic HousingPrices and the Demand for Clean Air”, Journal of EnvironmentalEconomics and Management, observaron las siguientes variablespara n = 506 secciones censales del area metropolitana de Boston.Su objetivo era estudiar si los precios de las casas dependıan de lacontaminacion en la zona (regresion hedonica).
MEDV Mediana del precio de las casas (en miles de $)DIS Media ponderada de distancias a 5 centros de trabajoRAD Accesibilidad a autopistas radialesINDUS Proporcion de superficie de la zona dedicada a empresas e industriaCHAS 1 junto al rıo Charles, 0 si noNOX Concentracion de oxido nıtrico (p.p.109)RM Numero medio de habitaciones en las casasAGE proporcion de casas construidas antes de 1940CRIM Tasa de delincuencia per capitaZN Proporcion de superficie residencial dividida en parcelas de mas de 25000 pies2
TAX Tasa de impuestos de las propiedades por cada $10,000PT No de estudiantes por profesorB 1000(pB − 0.63)2, siendo pB la proporcion de habitantes de raza negraLSTAT Porcentaje de poblacion con bajo nivel adquisitivo
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 34
Los datos estan disponibles enhttp://lib.stat.cmu.edu/datasets/boston.Estudiemos MEDV en funcion de NOX, RM y LSTAT.
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 35
Regresion lineal de MEDV en funcion de NOX, RM y LSTAT:Resumen del modelob
,799a ,639 ,637 5,54310
Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), RM, NOX, LSTATa.
Variable dependiente: MEDVb.
Página 1
ANOVAb
27291,884 3 9097,295 296,079 ,000a
15424,411 502 30,726
42716,295 505
Regresión
Residual
Total
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), LSTAT, NOX, RMa.
Variable dependiente: MEDVb.
Página 1
Coeficientesa
-,767 3,286 -,233 ,816
5,124 ,447 ,391 11,471 ,000
-1,846 2,651 -,023 -,696 ,487
-,623 ,052 -,484 -11,994 ,000
(Constante)
RM
NOX
LSTAT
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizado
s
t Sig.
Variable dependiente: MEDVa.
Página 1
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 36
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 37
Ahora estudiemos log(MEDV) en funcion de NOX2, RM2 y
log(LSTAT).
Resumen del modelob
,835a ,698 ,696 ,22536
Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), LOG_LSTAT, NOX2, RM2a.
Variable dependiente: LOG_MEDVb.
Página 1
ANOVAb
58,882 3 19,627 386,467 ,000a
25,495 502 ,051
84,376 505
Regresión
Residual
Total
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), LOG_LSTAT, NOX2, RM2a.
Variable dependiente: LOG_MEDVb.
Página 1
Coeficientesa
3,841 ,104 37,054 ,000
-,243 ,087 -,083 -2,776 ,006
,008 ,001 ,183 5,493 ,000
-,446 ,026 -,656 -17,116 ,000
(Constante)
NOX2
RM2
LOG_LSTAT
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizado
s
t Sig.
Variable dependiente: LOG_MEDVa.
Página 1
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 38
Estadıstica (CC. Ambientales). Profesora: Amparo Baıllo Tema 4: Regresion multiple 39