Regresión lineal simple -...
-
Upload
truongtuong -
Category
Documents
-
view
216 -
download
0
Transcript of Regresión lineal simple -...
Regresión lineal simple
Tema 6
Estadística 2
Curso 08/09
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 1 / 73
Introducción
Introducción
El análisis de regresión se ocupa del análisis de relaciones entre variables:
Regresión: relación entre dos o más variables (1889, Francis Galton,Natural inheritance).
Correlación: grado/fuerza (y dirección) de la relación.
NOTA: relación no implica en principio causalidad.
Notación:
Variable de interés o respuesta (o dependiente): YVariables explicativas (independientes o regresoras): Xj , j = 1, ..., k.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 2 / 73
Introducción
Posibles situaciones:
Relación exacta o funcional: las variable explicativas determinantotalmente el valor de la respuesta:
Y = m(X1, � � � ,Xk )
Independencia: las variable explicativas no aportan ningunainformación sobre la la respuesta.
Relación estadística o estocástica: las variables explicativaspermiten predecir en mayor o menor grado el valor de la respuesta:
Y = m(X1, � � � ,Xk ) + ε
Se puede explicar la respuesta mediante una función ("efecto") de lasvariables explicativas, más un término de error o perturbaciónaleatoria, ε, que recoge el efecto conjunto de otras variables (nodirectamente explicitadas en el modelo) cuyo efecto individual no resultarelevante.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 3 / 73
Introducción Objetivos
Objetivos
A partir de una muestra:
f(X1i , � � � ,Xki ,Yi ) : i = 1, � � � , ng
Estimar la función de regresión: m
Realizar inferencias sobre la distribución del error: ε
Predecir el valor de la respuesta (conociendo las variables explicativas)
Deteterminar la importancia de las variables explicativas para explicar larespuesta
Detectar valores atípicos
...
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 4 / 73
Introducción Ejemplos
Ejemplo
Una empresa de reparación de cierto tipo de componentes electrónicospretende estudiar la relación entre el número de unidades defectuosas(variable explicativa, X) y el tiempo de reparación en minutos (variablede interés, Y).
X Y1 232 293 494 644 745 876 966 977 109
X Y7 1098 1199 1499 14510 15411 16211 17412 18012 176
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 5 / 73
Introducción Ejemplos
Grá�co descriptivo: Diagrama de dispersión
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 6 / 73
Introducción Ejemplos
EjemploProblema 4.3
Se pretende estudiar la relación entre el número de páginas de undocumento (variable explicativa, X) y el tiempo de impresión ensegundos (variable de interés, Y).
x y x y x y x y x y
1
24.56 17.33
28.07 23.16
22.53 14.70
17.81 19.41
2
29.92 17.14
37.25 31.90
31.80 41.72
24.59
3
28.86 30.01
44.73 44.43
41.32 34.16
28.79
4
29.03 45.00
54.38 47.63
44.34 48.95
53.52 30.11
5
52.55 69.50
55.61 52.98
65.70 40.11
45.21 46.63
6
65.39 57.48
62.85 69.09
71.44 57.29
50.42
7
85.33 66.73
78.94 61.07
78.34 88.25
68.17 76.71
64.84
8
83.82 75.38
69.40 84.42
80.68 60.79
100.08 74.79
9
82.90 105.73
102.13 119.82
93.93 102.30
10
79.82 90.83
83.81 71.79
76.30 89.00
76.20
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 7 / 73
Introducción Ejemplos
Grá�co descriptivo: Diagrama de dispersión
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 8 / 73
Introducción Clasi�cación de los modelos de regresión
Clasi�cación de los modelos de regresión
Según el muestreo/recogida de datos:Diseño �jo: el experimentador controla el valor de las variablesexplicativasDiseño aleatorio: las variables explicativas toman valores de formaaleatoria (el experimentador es un observador pasivo).
Según la metodología:Paramétricos: se supone que la función (y la distribución del error)sólo depende de unos parámetros (habrá que veri�car si estasuposición es adecuada para los datos).No paramétricos: no se hace �ninguna�suposición sobre la funciónque relaciona las variables.
Nos centraremos en el caso de regresión (paramétrica) lineal dediseño �jo:
Y = β0 + β1X1 + β2X2 + � � �+ βkXk + ε
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 9 / 73
El modelo de regresión lineal simple Modelo
Modelo
Consideramos el caso más simple: una variable respuesta Y y unavariable explicativa X relacionadas linealmente:
Y = β0 + β1X + ε
El objetivo principal es, a partir de una muestra:
f(xi ,Yi ) : i = 1, � � � , ng,
Yi = β0 + β1xi + εi ,
estimar la recta de regresión teórica:
y = β0 + β1x
(es decir, estimar los parámetros β0 y β1 ) y la distribución del error.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 10 / 73
El modelo de regresión lineal simple Modelo
Establecemos (además de la relación lineal) las siguientes hipótesisacerca del modelo:
La variable explicativa se supone no aleatoria.
El término de error o perturbación aleatoria tiene media nula yvarianza constante (desconocida):
E (εi ) = 0, Var(εi ) = σ2
El error tiene distribución normal:
εi � N(0, σ2)
Los errores son independientes, i.e. no existe correlación entre errores:
Cov(εi , εj ) = 0, si i 6= j .
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 11 / 73
El modelo de regresión lineal simple Modelo
Por tanto:
Yi � N�
β0 + β1xi , σ2�
Independientes
linealidad
normalidad
homocedasticidad
independencia
NOTA: E (Y jX = x) = β0 + β1x
β0 = valor medio de Y cuando X es nula
β1 = �incremento medio�de Y cuando X aumenta una unidad
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 12 / 73
El modelo de regresión lineal simple Modelo
Yi � N�
β0 + β1xi , σ2�
Generacion datos (Click!)
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 13 / 73
Estimación de los parámetros
Estimación de los parámetros
Para la estimación de los parámetros del modelo:
los coe�cientes de la recta de regresión, β0 y β1,
la varianza de la distribución del error, σ2
se suele utilizar el método de mínimos cuadrados (o el de de máximaverosimilitud).
Como resultado obtendremos la recta de regresión mínimo cuadrática:
y = β0 + β1x
que estima el valor medio de Y , E (Yi ) = β0 + β1xi , para cada valor de X(estima la recta de regresión teórica).
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 14 / 73
Estimación de los parámetros Estimación por mínimos cuadrados
Estimación por mínimos cuadrados
Los estimadores mínimo cuadráticos son los que minimizan la suma delos cuadrados de las diferencias entre los valores reales y laspredicciones de la respuesta:
β = (β0, β1) = argminβ0β1
n
∑i=1(Yi � β0 � β1xi )
2.
Este problema de minimización se soluciona derivando e igualando acero:8><>:
n∑i=1
2(y i�(β0+β1xi ))(�1) = 0n∑i=1
2(y i�(β0+β1xi )(�x i ) = 0)
8><>:n∑i=1
yi�nβ0�β1n∑i=1
xi= 0
n∑i=1
xi yi�β0n∑i=1
xi�β1n∑i=1
x2i = 0
y resolviendo el sistema obtenido: ecuaciones canónicas de la regresión.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 15 / 73
Estimación de los parámetros Estimación por mínimos cuadrados
Obteniéndose:
β1 =SXYS2X
β0 = y � β1x
donde:
x =1n
n
∑i=1xi , y =
1n
n
∑i=1yi ,
S2x =1n
n
∑i=1(xi � x)2 =
1n
n
∑i=1x2i � x2
SXY =1n
n
∑i=1(xi � x) (yi � y) =
1n
n
∑i=1xiyi � x y
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 16 / 73
Estimación de los parámetros Estimación por mínimos cuadrados
Entonces la ecuación de la recta de regresión mínimo cuadrática de Ysobre X puede expresarse como:
y = y +SXYS2X
(x � x)
NOTAS:
La recta de regresión mínimo cuadrática siempre pasa por el punto(x , y) .
La recta de regresión de Y sobre X , Y /X , no coincide con la rectade regresión de X sobre Y (salvo relación lineal perfecta).
Haciendo uso de la hipótesis de normalidad,se llega a las mismasexpresiones al maximizar la función logarítmica de verosimilitud, porlo que estos estimadores coinciden con los estimadoresmáximo-verosímiles.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 17 / 73
Estimación de los parámetros Ejemplo
EjemploTiempo de impresión
n = 75
∑ni=1 xi = 408 x = 5.44
∑ni=1 x
2i = 2818 s2x =
281875 � 5.442 = 7.98
∑ni=1 yi = 4321.7 y = 57.623
∑ni=1 y
2i = 296397 s2y =
29639775 � 57.6232 = 631.586
∑ni=1 xiyi = 28362.5 sxy = 28362.5
75 � 5.44 � 57.623 = 64.698
y = y +SXYS2X
(x � x) = 57.623+ 64.6987.98
(x � 5.44) = 13.515+ 8.108x
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 18 / 73
Estimación de los parámetros Ejemplo
β1 =SXYS2X
= 8.108
β0 = y � β1x = 57.623� 8.108 � 5.44 = 13.515
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 19 / 73
Estimación de los parámetros Varianza residual
Varianza residual
Sustituyendo x en la recta ajustada por el correspondiente valor de lavariable explicativa se obtienen las predicciones; para la muestraobservada:
yi = β0 + β1xi
Las diferencias entre valores observados y predicciones:
yi � (β0 + β1xi ) = yi � yi = ei
se denominan residuos (de media 0), a partir de los cuales podemosde�nir una medida de la variabilidad de los datos respecto a la recta:
S2R =1n
n
∑i=1(yi � yi )2 =
1n
n
∑i=1ei 2
que es un estimador sesgado de la varianza del error σ2 (estimador demáxima verosimilitud).
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 20 / 73
Estimación de los parámetros Varianza residual
Un estimador insesgado de la varianza es:
S2R =1
n� 2n
∑i=1(yi � yi )2 =
SSRn� 2
que denominaremos varianza residual.
NOTAS:
De las ecuaciones canónicas se deduce que los residuos veri�can dosrestricciones ( ∑ ei = 0 y ∑ eixi = 0).Para el cálculo en la práctica, se puede emplear:
SSR =n
∑i=1e2i =
n
∑i=1y2i �
β0
n
∑i=1yi + β1
n
∑i=1xiyi
!
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 21 / 73
Estimación de los parámetros Varianza residual
EjemploTiempo de impresión
yi = 13.515+ 8.108xixi yi xi yi xi yi xi yi xi yi1 21.623 3 37.839 5 54.055 7 70.271 9 86.4872 29.731 4 45.947 6 62.163 8 78.379 10 94.595
SSR =75
∑i=1e2i =
75
∑i=1(yi � yi )2 =
75
∑i=1(yi � (13.515+ 8.108xi ))2 = 8025.61
SSR =75
∑i=1y2i �
β0
75
∑i=1yi + β1
75
∑i=1xiyi
!=
= 296397� 13.515 � 4321.7� 8.108 � 28362.5 ' 8026
s2R =SSRn� 2 =
8025.6173
= 109.94
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 22 / 73
Estimación de los parámetros Distribución los estimadores
Distribución los estimadores de los parámetros
Los estimadores de los coe�cientes se pueden expresar como unacombinación lineal de los valores de la variable respuesta:
β1 =
n∑i=1(xi � x)
n∑i=1(xi � x)2
yi =n
∑i=1aiyi
β0 = y � x β1 =n
∑i=1
�1n� xai
�yi =
n
∑i=1biyi
a partir de las cuales se pueden deducir fácilmente sus propiedadesprincipales:
Normalidad: Tienen una distribución normal por ser combinaciónlineal de variables aleatorias normales (independientes).
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 23 / 73
Estimación de los parámetros Distribución los estimadores
Insesgadez:
E�
β1�=
n
∑i=1aiE (yi ) = β1
E�
β0�=
n
∑i=1biE (yi ) = β0
Varianzas:
Var�
β1�=
n
∑i=1a2i Var (yi ) =
σ2
nS2X
Var�
β0�=
n
∑i=1b2i Var (yi ) = σ2
�1n+x2
nS2X
�Cov
�β0, β1
�=
n
∑i=1aibiVar (yi ) = �
xσ2
nS2x
E�ciencia (Teorema de Gauss-Markov): βj , j = 1, 2, tiene la mínimavarianza entre los estimadores lineales insesgados.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 24 / 73
Estimación de los parámetros Distribución los estimadores
Generacion datos (Click!)
β0 � N�
β0, σ2�1n+x2
nS2X
��β1 � N
�β1,
σ2
nS2X
�Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 25 / 73
Estimación de los parámetros Distribución los estimadores
Equivalentemente:
β1 � β1
σ1
SXpn
� N(0, 1)
β0 � β0
σ
s1n+x2
nS2X
� N(0, 1)
Además se puede ver que:
(n� 2)S2Rσ2
=SSRσ2
� χ2n�2
(independiente de los estimadores de los coe�cientes).
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 26 / 73
Estimación de los parámetros Distribución los estimadores
Estos resultados permiten obtener estimaciones por intervalo de con�anzay realizar contrastes de hipótesis para los distintos parámetros.
Teniendo en cuenta que:
β1 � β1
SR1
SXpn
� tn�2
β0 � β0
SR
s1n+x2
nS2X
� tn�2
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 27 / 73
Estimación de los parámetros Intervalos de con�anza para los parámetros
Intervalos de con�anza para los parámetros
A partir de los estadísticos anteriores:
βi � βiσ�
βi� � tn�2, i = 0, 1
donde:
σ2�
β0�= S2R
�1n+x2
nS2X
�σ2�
β1�=
S2RnS2X
Se obtienen los intervalos de con�anza de nivel 1� α para los coe�cientesde la recta de regresión:
IC(1�α) (βi ) =�
βi � tn�2,1� α2σ�
βi��, i = 0, 1.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 28 / 73
Estimación de los parámetros Intervalos de con�anza para los parámetros
A partir del estadístico:
(n� 2)S2Rσ2
=SSRσ2
� χ2n�2
se obtiene el correspondiente intervalo de con�anza para la varianza:
IC(1�α)
�σ2�=
(n� 2)S2Rχ2n�2,1� α
2
,(n� 2)S2R
χ2n�2, α2
!
=
SSR
χ2n�2,1� α2
,SSR
χ2n�2, α2
!.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 29 / 73
Estimación de los parámetros Intervalos de con�anza para los parámetros
EjemploTiempo de impresión
Intervalo de con�anza para β1 al 90%:
β1 � β1σ�
β1� � tn�2
) 0.9 = P
t73,0.05 = �t73,0.95 �
β1 � β1σ�
β1� � t73,0.95!
= P�
β1 � t73,0.95σ�
β1�� β1 � β1 + t73,0.95σ
�β1��
σ2(β1) =s2Rns2x
=109.94
75 � 7.9797 = 0.1837) σ(β1) = 0.4286
IC90% (β1) = (8.108� 1.6664 � 0.4286) = (8.108� 0.7142)= (7.3938, 8.8222)
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 30 / 73
Estimación de los parámetros Intervalos de con�anza para los parámetros
Intervalo de con�anza para β0 al 90%:
σ2(β0) =s2Rn
�1+
x2
s2x
�=109.9475
�1+
5.442
7.9797
�= 6.9022
) σ(β0) = 2.6272
IC90% (β1) = (13.515� 1.6664 � 2.6272) = (13.515� 4.378)= (9.137, 17.893)
Intervalo de con�anza para σ2 al 90%:
SSRσ2
� χ2n�2 ) 0.9 = P�
χ273,0.05 �SSRσ2
� χ273,0.95
�= P
SSR
χ273,0.95� σ2 � SSR
χ273,0.05
!
IC90%�σ2�=
�8025.6194.059
,8025.6154.325
�= (85.325, 147.735)
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 31 / 73
Estimación de los parámetros Contrastes de hipótesis sobre los parámetros
Contrastes de hipótesis sobre los parámetros
Procediendo de la forma habitual se pueden realizar contrastes de hipótesissobre los parámetros.
Por ejemplo, al contrastar si uno de los coe�cientes es nulo:(H (i )0 : βi = 0
H (i )1 : βi 6= 0aceptaríamos la hipótesis nula si el valor observado del estadístico:
T i0 =βi
σ�
βi� � tn�2, si H0 cierta,
pertenece a la región de aceptación:
R.A. =��tn�2,1� α
2, tn�2,1� α
2
�.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 32 / 73
Estimación de los parámetros Contrastes de hipótesis sobre los parámetros
El nivel crítico del test o p-valor sería:
p = 2P�tn�2 �
��t i0��� .(probabilidad de obtener un resultado tan extraño o más que el observadobajo H0).Cuanto mayor sea este nivel crítico (comparado con α) más segurosestaremos en la aceptación de la hipótesis nula y viceversa.
El contraste: �H0 : β0 = 0H1 : β0 6= 0
podría �permitir�simpli�car el modelo si aceptamos que la recta deregresión pasa por el origen.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 33 / 73
Estimación de los parámetros Contrastes de hipótesis sobre los parámetros
Es de especial interés el contraste:�H0 : β1 = 0H1 : β1 6= 0
que equivaldría a contrastar la existencia de relación lineal entre lasvariables X e Y (contraste de regresión).
Otra forma más natural de realizar este contraste es el análisis de lavarianza en regresión lineal simple.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 34 / 73
Estimación de los parámetros Contrastes de hipótesis sobre los parámetros
EjemploTiempo de impresión
(H (1)0 : β1 = 0
H (1)1 : β1 6= 0
T 10 =β1 � β1σ�
β1� jH0 = β1
σ�
β1� �Sup. H0 cierta
tn�2
t10 =8.1080.4286
= 18.917
) p � valor = P (jt73j > 18.917) < 0.001) Se acepta β1 6= 0
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 35 / 73
Estimación de los parámetros Contrastes de hipótesis sobre los parámetros
(H (0)0 : β0 = 0
H (0)1 : β0 6= 0
T 00 =β0
σ�
β0� �Sup. H0 cierta
tn�2
t00 =13.5152.6272
= 5.144
) p � valor = P (jt73j > 5.144) < 0.001) Se acepta β0 6= 0
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 36 / 73
Bondad del ajuste El contraste de regresión
Bondad del ajuste: El contraste de regresión
A partir de la descomposición
(yi � y) = (yi � yi ) + (yi � y) ,
se obtiene la identidad de la suma de cuadrados de la regresión linealsimple:
n
∑i=1(yi � y)2 =
n
∑i=1(yi � y)2 +
n
∑i=1(yi � yi )2
SST = SSE + SSRVT = VE + VR
variabilidadtotal
=variabilidad explicadapor la regresión
+variabilidadresidual
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 37 / 73
Bondad del ajuste El contraste de regresión
VE = VT (VR = 0)) Ajuste perfectoVE = 0 (VR = VT )) No explica nada
�y = β0 = y
�Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 38 / 73
Bondad del ajuste El contraste de regresión
Los valores esperados de las sumas de cuadrados dependen del número desumandos, es preferible utilizar otras medidas de variabilidad: varianzas.
Dividiendo las sumas de cuadrados por los correspondientes grados delibertad (numero - restricciones que veri�can los sumandos) se obtienen lasvarianzas o cuadrados medios:
S2Y = MST =SSTn� 1 =
1n� 1
n
∑i=1(yi � y)2
S2E = MSE =SSE1=
n
∑i=1(yi � y)2
S2R = MSR =SSRn� 2 =
1n� 2
n
∑i=1(yi � yi )2
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 39 / 73
Bondad del ajuste El contraste de regresión
Para contrastar la hipótesis nula de que no hay una relación lineal entre lasdos variables se puede utilizar también el cociente:
F0 =MSEMSR
=S2ES2R� F1,n�2, si H0 cierta,
que tiende a tomar valores grandes cuando la hipótesis nula es falsa.
Se rechaza H0 al nivel de signi�cación α si:
F0 =msEmsR
> F1,n�2,1�α.
El nivel crítico del test o p-valor será:
p = P�F1,n�2 � F0
�.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 40 / 73
Bondad del ajuste El contraste de regresión
Los resultados normalmente se presentan en la tabla ANOVA de regresiónlineal simple:
Fuente de
variaciónSS gl MS F p-valor
Regresión ssE 1 msE =ssE1 F0=
msEmsR
pResidual ssR n� 2 msR =
ssRn�2
Total ssT n� 1 msT =ssTn�1
Este procedimiento resulta ser equivalente al test t descrito anteriormente.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 41 / 73
Bondad del ajuste El contraste de regresión
NOTAS:
Si aceptamos la hipótesis nula del contraste de regresión, aceptamosque no hay relación lineal entre las variables, lo cual podría serdebido a que las variables son independientes o que la relación no eslineal.
Si para cada valor xi de la variable explicativa X se dispone de variosvalores de la respuesta se puede contrastar si las medias en cada unode estos niveles siguen una relación lineal (ver también el contraste delinealidad de los efectos descrito en el capítulo 3).Otra alternativa (que no requiere multiples observaciones) seríaemplear técnicas de inferencia estadística no paramétrica.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 42 / 73
Bondad del ajuste El contraste de regresión
EjemploTiempo de impresión
SSR =75
∑i=1e2i =
75
∑i=1(yi � yi )2 =
75
∑i=1y2i �
β0
75
∑i=1yi + β1
75
∑i=1xiyi
!= 8025.61
SST =75
∑i=1(yi � y)2 =
75
∑i=1y2i � 75 � y2
= 296397� 75 � 57.6232 = 47368.95
SSE =75
∑i=1(yi � y)2 = SST � SSR
= 47368.95� 8025.61 = 39343.34
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 43 / 73
Bondad del ajuste El contraste de regresión
F. var. SS gl MS F p-valorExplicado 39343.34 1 39343.34 357.86 p < 0.001Residual 8025.61 73 109.94
Total 47368.95 74 640.12
F1,73,0.95 ' 3.98� 357.86
p = P (F1,73 > 357.86) < 0.001
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 44 / 73
Bondad del ajuste Los coe�cientes de determinación y correlación
El coe�ciente de determinación
Una medida de la bondad del ajuste (evaluación global de la recta deregresión) es el coe�ciente de determinación:
R2 =VEVT
=
n∑i=1(yi � y)2
n∑i=1(yi � y)2
= 1� VRVT
= 1� (n� 2)S2R(n� 1)S2Y
que es la proporción de variación (en la respuesta) explicada por laregresión.Se veri�ca que 0 � R2 � 1 :
Si R2 = 1 todas las observaciones están en la recta de regresión (loexplica todo)Si R2 = 0 la recta de regresión no explica nada
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 45 / 73
Bondad del ajuste Los coe�cientes de determinación y correlación
El coe�ciente de correlación
Otra interpretación del coe�ciente de determinación se puede dar a partirdel conocido coe�ciente de correlación lineal de Pearson.Teniendo en cuenta que
yi = y + β1(xi � x),
se puede expresar el coe�ciente de determinación como:
R2 = β21S2XS2Y
=S2XYS2X S
2Y,
que resulta ser el cuadrado del coe�ciente de correlación lineal dePearson:
r =SXYSX SY
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 46 / 73
Bondad del ajuste Los coe�cientes de determinación y correlación
r = �1 r = 1
relación lineal negativa relación lineal positivaY disminuye cuando X aumenta Y aumenta cuando X aumenta
�1 < r < 0 0 < r < 1
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 47 / 73
Bondad del ajuste Los coe�cientes de determinación y correlación
r = 0
poca/ninguna relación lineal relación no lineal
NOTA:r = 0, SXY = 0, β1 = 0
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 48 / 73
Bondad del ajuste Los coe�cientes de determinación y correlación
El coe�ciente de correlación lineal r es el estimador muestral delcoe�ciente de correlación lineal poblacional:
ρ =σXY
σX σY.
Sería interesante contrastar: �H0 : ρ = 0H1 : ρ 6= 0
Para ello se podría emplear el siguiente estadístico:
rpn� 2p1� r2
� tn�2,
aunque para tamaños muestrales relativamente grandes (n > 30),σ (r) ' 1/
pn, por lo que podemos rechazar H0 si:
jr j > 2pn.
Este contraste sería equivalente al contraste de regresión H0 : β1 = 0.Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 49 / 73
Bondad del ajuste Los coe�cientes de determinación y correlación
EjemploTiempo de impresión
R2 =ssEssT
=39343.3447368.95
= 0.83
La recta ajustada explica un 83% de la variabilidad de la respuesta )buen ajuste
r =sxysx sy
=64.6995
2.82484 � 25.1313 = 0.9113 =p0.83
jr j > 2pn=
2p75= 0.231) correlación signi�cativa
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 50 / 73
Predicción
Predicción
Entre los objetivos de un análisis de regresión pueden estar:Estimar la media de la distribución de la respuesta para un ciertovalor x0 de X ,i.e. estimar m0 = E (Y jX = x0) ( = β0 + β1x0).Predecir futuros valores de la respuesta en x0,i.e. predecir Y0 = Y jX = x0
Se puede pensar que en el primer caso se intenta estimar el valor medioa largo plazo (de un gran número de experimentos realizados con el valorx0), mientras que en el segundo caso se intenta predecir el resultado deun solo experimento.
La estimación puntual de la media y la predicción de la respuesta seobtienen sustituyendo en la recta de regresión el valor de x por x0:
m0 = by0 = β0 + β1x0
Sin embargo, la precisión es distinta.Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 51 / 73
Predicción
Ejemplo
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 52 / 73
Predicción Estimación de la media condicionada
Estimación de la media condicionada
El estimador m0 = by0 = β0 + β1x0 = y + β1 (x0 � x) ,sigue unadistribución normal de parámetros:
E (m0) = β0 + β1x0 = m0
Var (m0) = σ2�1n+(x0 � x)2nS2X
�=
σ2
n0
donde:n0 =
n
1+�x0 � xSX
�2n0 es un coe�ciente positivo que depende únicamente de la distanciaestandarizada del punto x0 a la media x , denominado número equivalentede observaciones, h00 = 1/n0 valor de in�uencia o leverage.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 53 / 73
Predicción Estimación de la media condicionada
Observaciones:
Los datos proporcionan la misma información para estimar m0 queuna muestra de tamaño n0 univariante para estimar su media.
Cuando se realiza una interpolación (estimación dentro del rango devalores observados de X ): 1 � n0 � n (= n si x0 = x).Cuando se extrapola: n0 ! 0 ( no hay información sobre larespuesta).
Se veri�ca que:m0 �m0
σpn0
� N (0, 1) .
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 54 / 73
Predicción Estimación de la media condicionada
Sustituyendo la varianza desconocida por su estimador insesgado,obtenemos el estadístico pivote:
m0 �m0SRpn0
=m0 �m0SRph00
� tn�2,
a partir del cual podríamos construir intervalos de con�anza:
IC(1�α) (m0) =�m0 �
SRpn0tn�2,1� α
2
�o realizar contrastes.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 55 / 73
Predicción Predicción de una nueva observación
Predicción de una nueva observación
El predictor by0 = β0 + β1x0, sigue una distribución normal y tiene comomedia y varianza de predicción (error cuadrático medio de predicción):
E (by0) = β0 + β1x0= E (y0)
E�(y � by0)2� = Var (y) + Var (by0)
= σ2�1+
1n0
�= σ2 (1+ h00)
De donde se deduce que:
by0 � y0σ
r�1+ 1
n0
� � N (0, 1)
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 56 / 73
Predicción Predicción de una nueva observación
Sustituyendo la varianza desconocida por su estimador insesgado,obtenemos: by0 � y0
SR
r�1+ 1
n0
� = by0 � y0SRp1+ h00
� tn�2,
a partir del cual podríamos construir intervalos de predicción:
IP(1�α) (y0) =
by0 � SRs�
1+1n0
�tn�2,1� α
2
!.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 57 / 73
Predicción Predicción de una nueva observación
Cuidado con extrapolaciones
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 58 / 73
Predicción Predicción de una nueva observación
EjemploTiempo de impresión
Intervalos de con�anza al 90% para el tiempo medio de impresión de lostrabajos de 6 hojas mt = E (Y /X = 6)
mt = 13.515+ 8.108xt = 13.515+ 8.108 � 6 = 62.163
htt =1n
1+
�xt � xsX
�2!=175
1+
�6� 5.442.82484
�2!=
175
�1+ 0.19822
�= 0.013857
) nt =1htt
= 72.1651 (número de observaciones equivalente)
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 59 / 73
Predicción Predicción de una nueva observación
dVar (mt ) =s2Rnt=109.9472.1651
= 1.5235
) σ (mt ) = 1.2343
mt � mtσ (mt )
� t73 )
IC90% (mt ) = (62.163� t73,0.95 � 1.2343)= (62.163� 1.6664 � 1.2343)= (62.163� 2.0568) = (60.106, 64.219)
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 60 / 73
Predicción Predicción de una nueva observación
Intervalo de predicción al 90% para el tiempo de impresión de un trabajoque tiene 6 hojas Y /X = 6
yt = 13.515+ 8.108xt = 13.515+ 8.108 � 6 = 62.163
dVar (yt ) =s2Rnt+ s2R =
109.9472.1651
+ 109.94 = 111.4635
) σ (yt ) = 10.5576
IP90% (yt ) = (62.163� 1.6664 � 10.5576)= (62.163� 17.593) = (44.569, 79.756)
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 61 / 73
Diagnosis del modelo
Diagnosis del modelo
Es importante recordar que las conclusiones obtenidas con este métodose basan en las hipótesis básicas del modelo:
Linealidad
Normalidad (homogeneidad)
Homocedasticidad
Independencia
Si alguna de estas hipótesis no es cierta, las conclusiones obtenidaspueden no ser �ables, o incluso totalmente erroneas. Es importanteveri�car si las hipótesis básicas del modelo son adecuadas para los datos:Diagnosis del modelo.
Para ello se pueden emplear desde métodos descriptivos (p.e. el grá�co dedispersión simple) hasta contrastes de hipótesis, como por ejemplo losdescritos en el capítulo 1 (aplicados sobre los residuos).DE FORMA ANÁLOGA A LOS MÉTODOS ANOVA.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 62 / 73
Diagnosis del modelo Observaciones
Observaciones
La falta de linealidad "invalida" las conclusiones obtenidas(cuidado con las extrapolaciones).La falta de normalidad tiene poca in�uencia si el número dedatos es su�cientemente grande (TCL). Los estimadores de losparámetros no son óptimos pero sí insesgados (blue). Si el número deobservaciones es pequeño, y la distribución de los residuos distamucho de la normalidad (p.e. muy asimétrica), la estimación de lavarianza, los intervalos de con�anza y los contrastes pueden verseseriamente afectados.Si no hay igualdad de varianzas los estimadores de los parámetrostampoco son e�cientes pero sí insesgados (no blue), in�uye sobretodo en las varianzas (y por tanto en los intervalos de con�anza ycontrastes).La dependencia entre observaciones puede tener un efectomucho más grave.Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 63 / 73
Diagnosis del modelo Observaciones
En regresión lineal simple se pueden detectar fácilmente si hay algúnproblema en el grá�co de dispersión:
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 64 / 73
Diagnosis del modelo Observaciones
Dos conjuntos de datos con la misma correlación de 0.81.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 65 / 73
Diagnosis del modelo Residuos, datos atípicos e in�uyentes
Residuos, datos atípicos e in�uyentes
Se puede pensar en chequear hipótesis sobre la distribución de loserrores teóricos a partir de la de los residuos ei = yi � yi .Como Var(ei ) = Var(yi )� Var(yi ) = σ2 (1� hii ), los residuos noson homocedásticos (tampoco independientes).Los residuos estandarizados:
ri =ei
sRp1� hii
,
deberían seguir una distribución próxima a la normal estandar (aprox.tn�2).Como s2R depende de ei , los residuos estudentizados:
ri =ei
sR (i )p1� hii
� tn�3,
(tienen una distribución exacta conocida), donde s2R (i ) es la varianzaresidual obtenida eliminando el dato i de la muestra.Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 66 / 73
Diagnosis del modelo Residuos, datos atípicos e in�uyentes
Un dato atípico (outlier) es una observación "rara" comparada conel resto de observaciones (anormalmente más grande o más pequeñade lo esperado).
En regresión lineal simple se detectan fácilmente en el grá�co dedispersión.
Se detectan también cuando el correspondiente residuo es un valor�inusual� (poco probable) en relación a la distribución asociada. Uncriterio general es considerar un valor atípico cuando:
jri j > 2 ó 3.
(o preferiblemente utilizar jri j > tn�3,1�γ).
Si las conclusiones obtenidas dependen en gran medida de unaobservación (normalmente atípica), esta se denomina in�uyente (aposteriori) y debe ser examinada con cuidado por elexperimentador.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 67 / 73
Diagnosis del modelo Residuos, datos atípicos e in�uyentes
Las observaciones candidatas a ser observaciones in�uyentes aposteriori, son las que tienen un valor xi muy alejado del resto (i.e. dex), estas se denominan in�uyentes a priori. Deben chequearse por sison in�uyentes a posteriori.
Para detectar datos in�uyentes puede se pueden utilizar los residuoseliminados:
e(i ) = yi � y(i ) =ei
1� hii,
donde y(i ) es la predicción obtenida eliminando el dato i de lamuestra, que distarán notablemente de ei en la observacionesin�uyentes a posteriori.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 68 / 73
Diagnosis del modelo Residuos, datos atípicos e in�uyentes
Dos conjuntos de datos con la misma correlación de 0.81.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 69 / 73
Diagnosis del modelo Residuos, datos atípicos e in�uyentes
Es recomendable generar un grá�co de residuos tipi�cados oestudentizados frente a predicciones, para detectar falta delinealidad, heterocedasticidad, valores atípicos (falta denormalidad) e in�uyentes, o el efecto de un factor omitido: malaespeci�cación del modelo.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 70 / 73
Diagnosis del modelo Alternativas
Alternativas
Cuando no se satisfacen los supuestos básicos puede llevarse a cabouna transformación de los datos para corregir falta de linealidad, laheterocedasticidad y/o falta de normalidad (normalmente estasúltimas "suelen ocurrir en la misma escala").Un grá�co dispersión-nivel puede ayudar a seleccionar latransformación en el caso de heterocedasticidad (p.e. crear un factorque de�na grupos según percentiles de las predicciones y proceder demodo similar al ANOVA I).
Si no se logra corregir la heterocedasticidad, puede ser adecuadoutilizar mínimos cuadrados ponderados (habría que modelar lavarianza).
Si no se cumple la hipótesis de independencia, se puede intentarmodelar la dependencia y utilizar mínimos cuadrados generalizados.
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 71 / 73
Diagnosis del modelo Alternativas
Ejemplo: transformaciones para linearizar
.
Resumen del modelo y estimaciones de los parámetros
Variable dependiente: Tiempo de reparación (minutos)
,907 204,976 1 21 ,000 36,075 9,956,940 330,557 1 21 ,000 19,339 73,938,967 611,537 1 21 ,000 22,204 ,801,753 64,121 1 21 ,000 44,986 ,097
EcuaciónLinealLogarítmicaPotenciaExponencial
R cuadrado F gl1 gl2 Sig.Resumen del modelo
Constante b1
Estimaciones de losparámetros
La variable independiente esUnidades defectuosas.
Logaritmico y = β0 + β1 ln x
Potencialy = β0x
β1
ln y = ln β0 + β1 ln x
Exponencialy = β0e
β1x
ln y = ln β0 + β1x
Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 72 / 73
Diagnosis del modelo Alternativas
Otra alternativa sería ajustar un modelo polinómico (regresión múltiple):
y = β0 + β1x + β2x2
o la regresión no paramétrica.Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 73 / 73