Jos Manuel Rojo1
Regresin lineal mltiple
J. M. Rojo Abun Instituto de Economa y GeografaMadrid, II-2007Jos Manuel Rojo
ndiceINTRODUCCIN2EL MODELO DE REGRESIN LINEAL MLTIPLE5HIPTESIS6ESTIMACIN DE LOS PARMETROS POR MNIMOS CUADRADOS7VARIANZA RESIDUAL 11CONTRASTE DE REGRESIN 13COEFICIENTE DE DETERMINACIN R2 16DIAGNOSIS Y VALIDACIN DE UN MODELO DE REGRESIN LINEAL MLTIPLE 17Multicolinealidad 17Anlisis de residuos 18Valores de influencia (leverage) 20Contrastando las hiptesis bsicas 21Homocedasticidad 22Errores que deben de evitarse 23SELECCIN DE LAS VARIABLES REGRESORAS 24EJEMPLO 1 25
Jos Manuel Rojo
Introduccin
En el capitulo anterior se ha estudiado el modelo de regresin lineal simple, donde se analizaba la influencia de una variable explicativa X en los valores que toma otra variable denominada dependiente (Y).En la regresin lineal mltiple vamos a utilizar ms de una variable explicativa; esto nos va a ofrecer la ventaja de utilizar ms informacin en la construccin del modelo y, consecuentemente, realizar estimaciones ms precisas.
Al tener ms de una variable explicativa (no se debe de emplear el trmino independiente) surgirn algunas diferencias con el modelo de regresin lineal simple.
Una cuestin de gran inters ser responder a la siguiente pregunta: de un vasto conjunto de variables explicativas: x1, x2, , xk, cules son las que ms influyen en la variable dependiente Y.
En definitiva, y al igual que en regresin lineal simple, vamos a considerar que los valores de la variable dependiente Y han sido generados por una combinacin lineal de los valores de una o ms variables explicativas y un trmino aleatorio:
y = b0 + b1 x1 + b2 x2 + ... + bk xk + u
Los coeficientes son elegidos de forma que la suma de cuadrados entre los valores observados y los pronosticados sea mnima, es decir, que se va a minimizar la varianza residual.
Esta ecuacin recibe el nombre de hiperplano, pues cuando tenemos dos variables explicativas, en vez de recta de regresin tenemos un plano:
Linear RegressionA
Ae + 1,41 * a_espaldAAA AA AAAAA AAAAA
AA A AAAAAAA
Con tres variables explicativas tendramos un espacio de tres dimensiones, y as sucesivamente.
Vamos a ir introduciendo los elementos de este anlisis a travs de un sencillo ejemplo.
Consideramos una muestra de personas como la que sigue a continuacin:
Registro
sexo
estatura
l_roxto
pie
l_brazo
a_espald
d_crneo
peso
X1X6X2X3X4X5Y1mujer1583936684355432mujer1523834664055453mujer168433972.54154.5484mujer159403668.54257495mujer158413668.54457506mujer16440367144.554517mujer1564136673656528mujer16744377341.55852
En base a estos datos, vamos a construir un modelo para predecir el peso de una persona (Y). Esto equivale a estudiar la relacin existente entre este conjunto devariables x1 ,..., x5 y la variable peso (Y).
En primer lugar tenemos que la variable dependiente es el peso; y las variables que vamos a utilizar para predecir el peso reciben el nombre de variables independientes o explicativas.
En la prctica deberemos de elegir cuidadosamente qu variables vamos a considerar como explicativas. Algunos criterios que deben de cumplir sern los siguientes:
Tener sentido numrico.
No deber de haber variables repetidas o redundantes
Las variables introducidas en el modelo debern de tener una cierta justificacin terica.
La relacin entre variables explicativas en el modelo y casos debe de ser como mnimo de 1 a 10.
La relacin de las variables explicativas con la variable dependiente debe de ser lineal, es decir, proporcional.
El Modelo de regresin lineal mltiple
El modelo de regresin lineal mltiple es idntico al modelo de regresin lineal simple, con la nica diferencia de que aparecen ms variables explicativas:
Modelo de regresin simple:
y = b0 + b1 x + u
Modelo de regresin mltiple:
y = b0 + b1 x1 + b2 x2 + b3 x3 + ... + bk xk + u
Siguiendo con nuestro ejemplo, si consideramos el peso como variable dependiente y como posibles variables explicativas:
estaturapiel_brazoa_espaldd_craneo
El modelo que deseamos construir es:
peso = b0 + b1 estatura + b2 pie + b3 l brazo + b4 a espald + b5 d craneo
Al igual que en regresin lineal simple, los coeficientes b van a indicar el incremento en el peso por el incremento unitario de la correspondiente variable explicativa. Por lo tanto, estos coeficientes van a tener las correspondientes unidades de medida.
Hiptesis
Para realizar un anlisis de regresin lineal mltiple se hacen las siguientes consideraciones sobre los datos:
Linealidad: los valores de la variable dependiente estn generados por el siguiente modelo lineal:
Y = X * B + U
Homocedasticidad: todas las perturbaciones tienen las misma varianza:
iV (u ) = 2
Independencia: las perturbaciones aleatorias son independientes entre s:
E(ui u j ) = 0, i j
Normalidad: la distribucin de la perturbacin aleatoria tiene distribucin normal:
U N (0, 2 )
Las variables explicativas Xk se obtienen sin errores de medida.
Si admitimos que los datos presentan estas hiptesis entonces el teorema de Gauss-Markov establece que el mtodo de estimacin de mnimos cuadrados va a producir estimadores ptimos, en el sentido que los parmetros estimados van a estar centrados y van a ser de mnima varianza.
Estimacin de los parmetros por mnimos cuadrados
Vamos a calcular un hiperplano de regresin de forma que se minimice la varianza residual:
)jMin( y j y 2
Donde:
y j = b0 + b1 * x1,1 + b2 * x2, j + ...bk * xk , j
Utilizando notacin matricial:
u1 y1 y1 u2 y2 y2 u = . = . = y y . .un yn yn
Y teniendo en cuenta la definicin de y :
u1 y1 b0 b1 * x1,1 b2 * x2,1 b3 * x3,1 ... bk * xk ,1 u2 y2 b0 b1 * x1,2 b2 * x2,2 b3 * x3,2 ... bk * xk ,2 u = . = . = y y . .un yn b0 b1 * x1,n b2 * x2,n b3 * x3,n ... bk * xk ,n
Por lo tanto:
y1 1 x1,1 ..xk ,1 b0 y2 1 x1,2 ..xk ,2 b1 u = . * . = y X *b . . 1 yn x1,n xk ,n bk
Por lo tanto la varianza residual se puede expresar de la siguiente forma:
n * 2 = u * u = ( y X * b) * ( y X * b)
Es decir:
2(b) = ( y j y j ) = u * u
Por tanto, la varianza residual es una funcin del vector de parmetros b y la condicin para que tenga un mnimo ser:
(b) = 0b
Antes de derivar vamos a simplificar la expresin de la varianza residual:
n * 2 = u * u = ( y x * b) * ( y x * b) = y * y y * x * b b * x * y + b * x * x * b
Por lo tanto:
= 2 = = + (b) ( y j y j ) u * u y * y y * x * b b * x * y b * x * x * b
(b) = ( y X * b) * ( y X * b) = 2 * X *Y + 2 * X * X * Bbb
Igualando a cero y despejando:
X *Y = X * X * B
y si X * X es matriz no singular y por lo tanto tiene inversa, tenemos:
X *Y = X * X * B
Multiplicando por ( X * X )1
( X * X )1 X *Y = ( X * X )1 X * X * B
( X * X )1 X *Y = I * B
B = ( X * X )1 * X *Y
sta es la expresin del estimador de parmetros B .
AdemsX *Y = X * X * B
X *Y X * X * B = 0
X * (Y X * B) = 0
X *U = 0
Es decir, los residuos obtenidos del modelo estimado por mnimos cuadrados no van a estar correlacionados con las variables explicativas.
Nota
Es importante observar que si las variables explicativas X estn muy
correlacionadas entre si, la matriz muy cercano a cero. ( X * X ) va a tener el determinante con valor cero oSi hay al menos una variable que puede ser expresada como combinacin lineal del resto (ingresos mensuales, ingresos anuales) el determinante de esta matriz es cero y dicha matriz ser singular y por lo tanto no tendr inversa.
Si no hay variables que sean combinacin lineal de las dems, pero estn fuertemente correlacionadas, el determinante no ser cero pero tendr un valor muy prximo a cero; este caso va a producir una inestabilidad en la solucin del estimador, en general, se va a producir un aumento en su varianza.
En estos casos se impone la utilizacin de un mtodo de seleccin de variables explicativas.
A los problemas provocados por la fuerte correlacin entre las variables explicativas se les llama multicolinealidad.
Varianza residual
Al igual que en el caso de regresin lineal simple, vamos a descomponer la variabilidad de la variable dependiente Y en dos componentes o fuentes de variabilidad: una componente va a representar la variabilidad explicada por el modelo de regresin y la otra componente va a representar la variabilidad no explicada por el modelo y, por tanto, atribuida a factores aleatorios.
Consideramos la variabilidad de la variable dependiente como:
in * 2 = ( y Y )2
Es decir, la variabilidad de Y es la suma cuadrtica de los valores que toma la variable respecto a la media de la variable.
Sumando y restando el valor pronosticado por el modelo de regresin obtenemos la siguiente expresin:
( yi y)2 = ( y) y)2 + ( y y) )2
iiiEs decir, que la suma de cuadrados de la variable Y respecto a su media se puede descomponer en trminos de la varianza residual. De esta expresin se deduce que la distancia de Y a su media se descompone como la distancia de Y a su estimacin ms la distancia de su estimacin a la media.
Teniendo en cuenta que el ltimo trmino representa la varianza no explicada, tenemos:
VT = VE +VNE
Grficamente es fcil ver la relacin:
Dividiendo la variabilidad total entre sus grados de libertad obtenemos la varianza de la variable dependiente Y :
S 2 = VT Yn 1
Dividiendo la variabilidad no explicada entre sus grados de libertad obtenemos la varianza residual de la variable dependiente Y :
S 2 = VNE Rn (k + 1)
Tabla resumen
Suma de cuadrados
Grados de libertad
VT( y y)2
n-1S 2 = VTYn 1VE( y y)2k-1
VNE ( y y))2
n-k-1S 2 =VNERn k 1
Contraste de regresin
Como estamos sacando conclusiones de una muestra de un conjunto mucho ms amplio de datos, a veces este conjunto ser infinito, es obvio que distintas muestras van a dar distintos valores de los parmetros.
Un caso de especial inters es asignar una medida de probabilidad a la siguiente afirmacin o hiptesis:
H0 b1 = b2 = ... = bk = 0
La afirmacin contraria sera:
H1 bj 0
Nota
La hiptesis nula es que todos los coeficientes menos b0
son nulos y la hiptesis
alternativa o complementaria es que existe al menos uno que es distinto de 0, puede haber varios que sean nulos, pero al menos existe uno distinto de cero.
Se denomina contraste de regresin al estudio de la posibilidad de que el modelo de regresin sea nulo, es decir, los valores de las variables explicativas X no van a influir en la variable Peso.
Construccin del contraste
que: Si los residuos siguen una distribucin normal y b1 = b2 = ... = bk = 0 , tenemos
VT 22 n1
1VE 22
VNE 2 2 n (k +1)
Por tanto:
VNE VE=1VES2n (k + 1)R F1,n (k +1)
Es decir, el cociente entre la varianza explicada y la varianza no explicada ser aproximadamente 1. Adems, al seguir una distribucin F, podemos asignar una medida de probabilidad (p-value) a la hiptesis de que la varianza explicada es igual a la varianza no explicada.
En caso contrario la varianza no explicada ser muy inferior a la varianza explicada y, por lo tanto, este cociente tendr un valor muy superior a 1.
Nota
En general si el p-value es menor de 0.05 se acepta que el modelo de regresin es significativo; en caso contrario no podemos hablar de regresin, pues el modelo sera nulo.
Si aceptamos que el modelo de regresin es significativo, es habitual mostrar el p-value; por ejemplo:
Encontramos que este modelo de regresin es estadsticamente significativo con un p-value de 0.0003
Coeficiente de determinacin R2
RVamos a construir un coeficiente (estadstico) que mida la bondad del ajuste del modelo. Si bien la varianza residual ( S 2 ) nos indica cmo estn de cerca las estimaciones respecto de los puntos, esta varianza est influida por la varianza de la variable dependiente, la cual, a su vez, est influida por su unidad de medida. Por lo tanto, una medida adecuada es la proporcin de la varianza explicada (VE) entre lavarianza total (VT); de este modo, definimos el coeficiente de determinacin R2 :
R2 = VE = VT VNE = 1 VNEVTVTVT
Por ser cociente de sumas de cuadrados, este coeficiente ser siempre positivo.
Si todos los puntos estn sobre la recta de regresin, la varianza no explicada ser 0, y por lo tanto:
R2 = VE = 1 0 = 1VTVT
Este coeficiente es muy importante pues determina qu porcentaje (en tantos por uno) de la varianza de la variable dependiente es explicado por el modelo de regresin.
En general, se pueden clasificar los valores de R2 de la siguiente manera:
Menor de 0.30.3 a 0.40.4 a 0.50.5 a 0.85Mayor de 0.85Muy maloMaloRegularBuenoSospechoso
Adems, a diferencia de la varianza residual, este coeficiente es adimensional; esto quiere decir que no est afectado por transformaciones lineales de las variables; por ello, si cambiamos las unidades de medida, el coeficiente de determinacin permanecer invariante.
Diagnosis y validacin de un modelo de regresin lineal mltiple
Multicolinealidad
Si las variables explicativas se pueden expresar como una combinacin lineal:
1x1 + 2 x2 + ... + k xk + 0 = 0
Se dice que tenemos un problema de multicolinealidad.
En general, este problema va a afectar incrementando la varianza de los estimadores.
Este problema se detecta fcilmente:Solicitando el determinante de la matriz de varianzas-covarianzas, que estar cercano a cero.
Calculando el cociente entre el primer y ltimo autovalor de la matriz de varianzas-covarianzas que ser mayor de 50.
Calculando para cada variable el coeficiente de determinacin ( R2 ) de dicha variable con el resto.
La solucin es eliminar del modelo aquellas variables explicativas que dependen unas de otras. En general, los mtodos de seleccin de variables solucionan automticamente este problema.
ANOVAb
Mode
lSum of Squares
df
Mean Square
F
Sig.1Regression3485,4016580,90014,986,000a
Residual775,2652038,763
Total4260,66726
Predictors: (Constant), l_roxto Longitud de rodilla a tobillo, d_crneo, a_espald, l_ brazo, pie, estaturaDependent Variable: peso
Coefficientsa
Mode
lUnstandardized CoefficientsStandardized Coefficients
t
Sig.
Collinearity Statistics
BStd. ErrorBeta
ToleranceVIF1(Constant)-133,26143,985
-,283-3,030,007
,072
13,882
estatura-,354,445
-,796,435
pie2,1871,248,4891,752,095,1178,574
l_brazo,821,621,3171,323,201,1596,307
a_espald1,067,660,3351,616,122,2124,724
d_crneo1,093,922,1571,186,250,5171,933
l_roxto Longitud de rodilla a tobillo-,003,841-,001-,004,997,2124,724Dependent Variable: peso
En esta tabla se muestra el valor de los estimadores del hiperplano de regresin. La columna denominada tolerancia es:1 R2
Donde la variable correspondiente entra como variable dependiente y el resto de las variables explicativas actan como regresoras.
A la vista de estos resultados, la variable estatura esta provocando problemas de multicolinealidad.
Es interesante observar que si bien el contraste de regresin es significativo, ninguna de las variables explicativas lo es.
Anlisis de residuos
Definimos como residuo del i-esimo caso a:
ui = yi yi
Los residuos son variables aleatorias que siguen (?) una distribucin normal. Los residuos tienen unidades de medida y, por tanto no se puede determinar si es grande o pequeo a simple vista.Jos Manuel Rojo
Para solventar este problema se define el residuo estandarizado como:
Zui = ui *SR 11 hii
Se considera que un residuo tiene un valor alto, y por lo tanto puede influir negativamente en el anlisis, si su residuo estandarizado es mayor de 3 en valor absoluto.
Zui 3
Para evitar la dependencia entre numerador y denominador de la expresin anterior, tambin se utilizan los residuos estudentizados.
SZui =ui*RS(i) 11 hii
RDonde S(i) es la varianza residual calculada sin considerar el i-esimo caso.
El anlisis descriptivo y el histograma de los residuos nos indicarn si existen casos que no se adapten bien al modelo lineal.
Residuals Statisticsa
MinimumMaximumMeanStd. DeviationNPredicted Value23,9527138,150971,296325,4484827Residual-31,69022117,84905,0000029,6033927Std. Predicted Value-1,8602,627,0001,00027Std. Residual-,9393,492,000,87727Dependent Variable: peso
Podemos observar que hay un caso que tiene un residuo anormal, pues su valor tipificado es 3.49.
Valores de influencia (leverage)
Se considera que una observacin es influyente a priori si su inclusin en el anlisis modifica sustancialmente el sentido del mismo.
Una observacin puede ser influyente si es un outlayer respecto a alguna de las variables explicativas:
Jos Manuel Rojo
Para detectar estos problemas se utiliza la medida de Leverage:
2l(i) = 1 (1 + (xi x) )sn2x
Este estadstico mide la distancia de un punto a la media de la distribucin.
Valores cercanos a 2/n indican casos que pueden influir negativamente en la estimacin del modelo introduciendo un fuerte sesgo en el valor de los estimadores.
Contrastando las hiptesis bsicas Normalidad de los residuos.
Para verificar esta hiptesis se suele utilizar el histograma de los residuos y en caso necesario el test de Kolgomorov Smirnov.
One-Sample Kolmogorov-Smirnov Test
ZRE_1Standardized ResidualN
27Normal Parametersa,bMean,0000000
Std. Deviation,87705802Most ExtremeAbsolute,117DifferencesPositive,117
Negative-,105Kolmogorov-Smirnov Z
,609Asymp. Sig. (2-tailed)
,852Test distribution is Normal.Calculated from data.
En este caso no se detecta falta de normalidad, el pvalue del test KS es de 0.852, por lo tanto se concluye que:
No se encuentran diferencias estadsticamente significativas para rechazar la hiptesis de normalidad.
Homocedasticidad
La hiptesis de homocedasticidad establece que la variabilidad de los residuos es independiente de las variables explicativas.
En general, la variabilidad de los residuos estar en funcin de las variables explicativas, pero como las variables explicativas estn fuertemente correlacionadas con la variable dependiente, bastara con examinar el grfico de valores pronosticados versus residuos al cuadrado.
Este es un claro ejemplo de falta de homocedasticidad.
Existe una familia de transformaciones denominada Box-CCOS que se realizan sobre la variable dependiente encaminadas a conseguir homocedasticidad. La transformacin ms habitual para conseguir homocedasticidad es:
Y = log(Y )
En cualquier caso, es conveniente examinar detenidamente las implicaciones de realizar este tipo de transformaciones, pues en muchas ocasiones es peor el remedio que la enfermedad, ya que la variable dependiente puede llegar a perder el sentido.
Errores que deben de evitarse
Errores que son fciles pasar por alto al realizar un modelo de regresin lineal mltiple son los siguientes:
No controlar el factor tamao.
Si hay un factor de ponderacin, no tenerlo en cuenta.
Al calcular los grados de libertad en los contrastes de hiptesis.
No incluir una variable relevante en el modelo.
Incluir una variable irrelevante.
Especificar una relacin lineal que no lo es.
Seleccin de las variables regresoras
Los procedimientos para seleccionar las variables regresoras son los siguientes:
Eliminacin progresiva.Introduccin progresiva.Regresin paso a paso (Stepwise Regression).
Este ltimo mtodo es una combinacin de los procedimientos anteriores. Parte del modelo sin ninguna variable regresora y en cada etapa se introduce la ms significativa, pero en cada etapa examina si todas las variables introducidas en el modelo deben de permanecer. Termina el algoritmo cuando ninguna variable entra o sale del modelo.
Ejemplo 1
Statistics
estatura
peso
pie
l_brazo
a_espald
d_crneol_roxto Longitud de rodilla a tobilloNValid27272727272727
Missing0000000Mean
168,796363,888938,981573,481545,851957,240743,0926Median
168,000065,000039,000073,000046,000057,000043,0000Std. Deviation
10,2208912,801242,863844,937074,021131,841673,15630Skewness
,173,187,303,427-,249,178,632Std. Error of Skewness
,448,448,448,448,448,448,448Kurtosis
-1,016-,658-,855-,605,075-,7401,044Std. Error of Kurtosis
,872,872,872,872,872,872,872Minimum
152,0043,0034,0066,0036,0054,0038,00Maximum
189,0091,0045,0083,0053,0061,0052,00
Model Summaryb
Model
R
R SquareAdjusted R SquareStd. Error of the EstimateDurbin- Watson1,904a,818,7636,226022,274Predictors: (Constant), l_roxto Longitud de rodilla a tobillo, d_crneo, a_ espald, l_brazo, pie, estaturaDependent Variable: peso
ANOVAb
ModelSum of Squares
df
Mean Square
F
Sig.1Regression3485,4016580,90014,986,000a
Residual775,2652038,763
Total4260,66726
Predictors: (Constant), l_roxto Longitud de rodilla a tobillo, d_crneo, a_espald, l_ brazo, pie, estaturaDependent Variable: peso
Coefficientsa
Mode
lUnstandardized CoefficientsStandardized Coefficients
t
Sig.
Collinearity Statistics
BStd. ErrorBeta
ToleranceVIF1(Constant)-133,26143,985
-,283-3,030,007
,072
13,882
estatura-,354,445
-,796,435
pie2,1871,248,4891,752,095,1178,574
l_brazo,821,621,3171,323,201,1596,307
a_espald1,067,660,3351,616,122,2124,724
d_crneo1,093,922,1571,186,250,5171,933
l_roxto Longitud de rodilla a tobillo
-,003
,841
-,001
-,004
,997
,212
4,724Dependent Variable: peso
Residuals Statisticsa
MinimumMaximumMeanStd. DeviationNPredicted Value44,123088,597563,888911,5781627Residual-8,2120311,34415,000005,4605827Std. Predicted Value-1,7072,134,0001,00027Std. Residual-1,3191,822,000,87727Dependent Variable: peso
El mismo anlisis pero utilizando un algoritmo de seleccin de variables.
Model Summaryc
Model
R
R SquareAdjusted R SquareStd. Error of the EstimateDurbin- Watson12,850a,891b,722,794,711,7776,882696,05049
2,120Predictors: (Constant), piePredictors: (Constant), pie, a_espaldDependent Variable: peso
ANOVAc
ModelSum of Squares
df
Mean Square
F
Sig.1Regression3076,38213076,38264,942,000a
Residual1184,2852547,371
Total4260,66726
2Regression3382,06521691,03246,192,000b
Residual878,6022436,608
Total4260,66726
Predictors: (Constant), piePredictors: (Constant), pie, a_espaldDependent Variable: peso
Coefficientsa
Mode
lUnstandardized CoefficientsStandardized Coefficients
t
Sig.
Collinearity Statistics
BStd. ErrorBeta
ToleranceVIF1(Constant)-84,17318,421
,850-4,569,000
1,000
1,000
pie3,798,471
8,059,000
2(Constant)-87,25016,228
,495-5,376,000
,363
2,753
pie2,213,687
3,219,004
a_espald1,415,490,4442,890,008,3632,753Dependent Variable: peso
Collinearity Diagnosticsa
ModelDimensionEigenvalueIndex(Constant)piea_espald 111,9971,000,00,002,00327,7781,001,00212,9951,000,00,00,002,00427,747,83,02,223,00150,270,17,98,78a. Dependent Variable: pesoConditionVariance Proportions
Residuals Statisticsa
MinimumMaximumMeanStd. DeviationN
Predicted Value43,352087,321463,888911,40524
27Residual-10,2559512,53056,000005,81312
27Std. Predicted Value-1,8012,055,0001,000
27Std. Residual-1,6952,071,000,961
27Dependent Variable: peso
Jos Manuel Rojo
30
Histogram
Dependent Variable: peso
8
Frequency6
4
2
Mean = 1,99E-15 Std. Dev. = 0,961Jos Manuel Rojo31
Top Related