Regresión lineal simple -...

Regresión lineal simple

Tema 6

Estadística 2

Curso 08/09

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 1 / 73

Introducción

Introducción

El análisis de regresión se ocupa del análisis de relaciones entre variables:

Regresión: relación entre dos o más variables (1889, Francis Galton,Natural inheritance).

Correlación: grado/fuerza (y dirección) de la relación.

NOTA: relación no implica en principio causalidad.

Notación:

Variable de interés o respuesta (o dependiente): YVariables explicativas (independientes o regresoras): Xj , j = 1, ..., k.


Introducción

Posibles situaciones:

Relación exacta o funcional: las variable explicativas determinantotalmente el valor de la respuesta:

Y = m(X1, � � � ,Xk )

Independencia: las variable explicativas no aportan ningunainformación sobre la la respuesta.

Relación estadística o estocástica: las variables explicativaspermiten predecir en mayor o menor grado el valor de la respuesta:

Y = m(X1, � � � ,Xk ) + ε

Se puede explicar la respuesta mediante una función ("efecto") de lasvariables explicativas, más un término de error o perturbaciónaleatoria, ε, que recoge el efecto conjunto de otras variables (nodirectamente explicitadas en el modelo) cuyo efecto individual no resultarelevante.


Introducción Objetivos

Objetivos

A partir de una muestra:

f(X1i , � � � ,Xki ,Yi ) : i = 1, � � � , ng

Estimar la función de regresión: m

Realizar inferencias sobre la distribución del error: ε

Predecir el valor de la respuesta (conociendo las variables explicativas)

Deteterminar la importancia de las variables explicativas para explicar larespuesta

Detectar valores atípicos

...


Introducción Ejemplos

Ejemplo

Una empresa de reparación de cierto tipo de componentes electrónicospretende estudiar la relación entre el número de unidades defectuosas(variable explicativa, X) y el tiempo de reparación en minutos (variablede interés, Y).

X Y1 232 293 494 644 745 876 966 977 109

X Y7 1098 1199 1499 14510 15411 16211 17412 18012 176



Grá�co descriptivo: Diagrama de dispersión



EjemploProblema 4.3

Se pretende estudiar la relación entre el número de páginas de undocumento (variable explicativa, X) y el tiempo de impresión ensegundos (variable de interés, Y).

x y x y x y x y x y

1

24.56 17.33

28.07 23.16

22.53 14.70

17.81 19.41

2

29.92 17.14

37.25 31.90

31.80 41.72

24.59

3

28.86 30.01

44.73 44.43

41.32 34.16

28.79

4

29.03 45.00

54.38 47.63

44.34 48.95

53.52 30.11

5

52.55 69.50

55.61 52.98

65.70 40.11

45.21 46.63

6

65.39 57.48

62.85 69.09

71.44 57.29

50.42

7

85.33 66.73

78.94 61.07

78.34 88.25

68.17 76.71

64.84

8

83.82 75.38

69.40 84.42

80.68 60.79

100.08 74.79

9

82.90 105.73

102.13 119.82

93.93 102.30

10

79.82 90.83

83.81 71.79

76.30 89.00

76.20



Grá�co descriptivo: Diagrama de dispersión


Introducción Clasi�cación de los modelos de regresión

Clasi�cación de los modelos de regresión

Según el muestreo/recogida de datos:Diseño �jo: el experimentador controla el valor de las variablesexplicativasDiseño aleatorio: las variables explicativas toman valores de formaaleatoria (el experimentador es un observador pasivo).

Según la metodología:Paramétricos: se supone que la función (y la distribución del error)sólo depende de unos parámetros (habrá que veri�car si estasuposición es adecuada para los datos).No paramétricos: no se hace �ninguna�suposición sobre la funciónque relaciona las variables.

Nos centraremos en el caso de regresión (paramétrica) lineal dediseño �jo:

Y = β0 + β1X1 + β2X2 + � � �+ βkXk + ε


El modelo de regresión lineal simple Modelo

Modelo

Consideramos el caso más simple: una variable respuesta Y y unavariable explicativa X relacionadas linealmente:

Y = β0 + β1X + ε

El objetivo principal es, a partir de una muestra:

f(xi ,Yi ) : i = 1, � � � , ng,

Yi = β0 + β1xi + εi ,

estimar la recta de regresión teórica:

y = β0 + β1x

(es decir, estimar los parámetros β0 y β1 ) y la distribución del error.



Establecemos (además de la relación lineal) las siguientes hipótesisacerca del modelo:

La variable explicativa se supone no aleatoria.

El término de error o perturbación aleatoria tiene media nula yvarianza constante (desconocida):

E (εi ) = 0, Var(εi ) = σ2

El error tiene distribución normal:

εi � N(0, σ2)

Los errores son independientes, i.e. no existe correlación entre errores:

Cov(εi , εj ) = 0, si i 6= j .



Por tanto:

Yi � N�

β0 + β1xi , σ2�

Independientes

linealidad

normalidad

homocedasticidad

independencia

NOTA: E (Y jX = x) = β0 + β1x

β0 = valor medio de Y cuando X es nula

β1 = �incremento medio�de Y cuando X aumenta una unidad



Yi � N�

β0 + β1xi , σ2�

Generacion datos (Click!)


Estimación de los parámetros

Estimación de los parámetros

Para la estimación de los parámetros del modelo:

los coe�cientes de la recta de regresión, β0 y β1,

la varianza de la distribución del error, σ2

se suele utilizar el método de mínimos cuadrados (o el de de máximaverosimilitud).

Como resultado obtendremos la recta de regresión mínimo cuadrática:

y = β0 + β1x

que estima el valor medio de Y , E (Yi ) = β0 + β1xi , para cada valor de X(estima la recta de regresión teórica).


Estimación de los parámetros Estimación por mínimos cuadrados

Estimación por mínimos cuadrados

Los estimadores mínimo cuadráticos son los que minimizan la suma delos cuadrados de las diferencias entre los valores reales y laspredicciones de la respuesta:

β = (β0, β1) = argminβ0β1

n

∑i=1(Yi � β0 � β1xi )

2.

Este problema de minimización se soluciona derivando e igualando acero:8><>:

n∑i=1

2(y i�(β0+β1xi ))(�1) = 0n∑i=1

2(y i�(β0+β1xi )(�x i ) = 0)

8><>:n∑i=1

yi�nβ0�β1n∑i=1

xi= 0

n∑i=1

xi yi�β0n∑i=1

xi�β1n∑i=1

x2i = 0

y resolviendo el sistema obtenido: ecuaciones canónicas de la regresión.



Obteniéndose:

β1 =SXYS2X

β0 = y � β1x

donde:

x =1n

n

∑i=1xi , y =

1n

n

∑i=1yi ,

S2x =1n

n

∑i=1(xi � x)2 =

1n

n

∑i=1x2i � x2

SXY =1n

n

∑i=1(xi � x) (yi � y) =

1n

n

∑i=1xiyi � x y



Entonces la ecuación de la recta de regresión mínimo cuadrática de Ysobre X puede expresarse como:

y = y +SXYS2X

(x � x)

NOTAS:

La recta de regresión mínimo cuadrática siempre pasa por el punto(x , y) .

La recta de regresión de Y sobre X , Y /X , no coincide con la rectade regresión de X sobre Y (salvo relación lineal perfecta).

Haciendo uso de la hipótesis de normalidad,se llega a las mismasexpresiones al maximizar la función logarítmica de verosimilitud, porlo que estos estimadores coinciden con los estimadoresmáximo-verosímiles.


Estimación de los parámetros Ejemplo

EjemploTiempo de impresión

n = 75

∑ni=1 xi = 408 x = 5.44

∑ni=1 x

2i = 2818 s2x =

281875 � 5.442 = 7.98

∑ni=1 yi = 4321.7 y = 57.623

∑ni=1 y

2i = 296397 s2y =

29639775 � 57.6232 = 631.586

∑ni=1 xiyi = 28362.5 sxy = 28362.5

75 � 5.44 � 57.623 = 64.698

y = y +SXYS2X

(x � x) = 57.623+ 64.6987.98

(x � 5.44) = 13.515+ 8.108x


Estimación de los parámetros Ejemplo

β1 =SXYS2X

= 8.108

β0 = y � β1x = 57.623� 8.108 � 5.44 = 13.515


Estimación de los parámetros Varianza residual

Varianza residual

Sustituyendo x en la recta ajustada por el correspondiente valor de lavariable explicativa se obtienen las predicciones; para la muestraobservada:

yi = β0 + β1xi

Las diferencias entre valores observados y predicciones:

yi � (β0 + β1xi ) = yi � yi = ei

se denominan residuos (de media 0), a partir de los cuales podemosde�nir una medida de la variabilidad de los datos respecto a la recta:

S2R =1n

n

∑i=1(yi � yi )2 =

1n

n

∑i=1ei 2

que es un estimador sesgado de la varianza del error σ2 (estimador demáxima verosimilitud).



Un estimador insesgado de la varianza es:

S2R =1

n� 2n

∑i=1(yi � yi )2 =

SSRn� 2

que denominaremos varianza residual.

NOTAS:

De las ecuaciones canónicas se deduce que los residuos veri�can dosrestricciones ( ∑ ei = 0 y ∑ eixi = 0).Para el cálculo en la práctica, se puede emplear:

SSR =n

∑i=1e2i =

n

∑i=1y2i �

β0

n

∑i=1yi + β1

n

∑i=1xiyi

!




yi = 13.515+ 8.108xixi yi xi yi xi yi xi yi xi yi1 21.623 3 37.839 5 54.055 7 70.271 9 86.4872 29.731 4 45.947 6 62.163 8 78.379 10 94.595

SSR =75

∑i=1e2i =

75

∑i=1(yi � yi )2 =

75

∑i=1(yi � (13.515+ 8.108xi ))2 = 8025.61

SSR =75

∑i=1y2i �

β0

75

∑i=1yi + β1

75

∑i=1xiyi

!=

= 296397� 13.515 � 4321.7� 8.108 � 28362.5 ' 8026

s2R =SSRn� 2 =

8025.6173

= 109.94


Estimación de los parámetros Distribución los estimadores

Distribución los estimadores de los parámetros

Los estimadores de los coe�cientes se pueden expresar como unacombinación lineal de los valores de la variable respuesta:

β1 =

n∑i=1(xi � x)

n∑i=1(xi � x)2

yi =n

∑i=1aiyi

β0 = y � x β1 =n

∑i=1

�1n� xai

�yi =

n

∑i=1biyi

a partir de las cuales se pueden deducir fácilmente sus propiedadesprincipales:

Normalidad: Tienen una distribución normal por ser combinaciónlineal de variables aleatorias normales (independientes).



Insesgadez:

E�

β1�=

n

∑i=1aiE (yi ) = β1

E�

β0�=

n

∑i=1biE (yi ) = β0

Varianzas:

Var�

β1�=

n

∑i=1a2i Var (yi ) =

σ2

nS2X

Var�

β0�=

n

∑i=1b2i Var (yi ) = σ2

�1n+x2

nS2X

�Cov

�β0, β1

�=

n

∑i=1aibiVar (yi ) = �

xσ2

nS2x

E�ciencia (Teorema de Gauss-Markov): βj , j = 1, 2, tiene la mínimavarianza entre los estimadores lineales insesgados.



Generacion datos (Click!)

β0 � N�

β0, σ2�1n+x2

nS2X

��β1 � N

�β1,

σ2

nS2X

�Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 25 / 73


Equivalentemente:

β1 � β1

σ1

SXpn

� N(0, 1)

β0 � β0

σ

s1n+x2

nS2X

� N(0, 1)

Además se puede ver que:

(n� 2)S2Rσ2

=SSRσ2

� χ2n�2

(independiente de los estimadores de los coe�cientes).



Estos resultados permiten obtener estimaciones por intervalo de con�anzay realizar contrastes de hipótesis para los distintos parámetros.

Teniendo en cuenta que:

β1 � β1

SR1

SXpn

� tn�2

β0 � β0

SR

s1n+x2

nS2X

� tn�2


Estimación de los parámetros Intervalos de con�anza para los parámetros

Intervalos de con�anza para los parámetros

A partir de los estadísticos anteriores:

βi � βiσ�

βi� � tn�2, i = 0, 1

donde:

σ2�

β0�= S2R

�1n+x2

nS2X

�σ2�

β1�=

S2RnS2X

Se obtienen los intervalos de con�anza de nivel 1� α para los coe�cientesde la recta de regresión:

IC(1�α) (βi ) =�

βi � tn�2,1� α2σ�

βi��, i = 0, 1.



A partir del estadístico:

(n� 2)S2Rσ2

=SSRσ2

� χ2n�2

se obtiene el correspondiente intervalo de con�anza para la varianza:

IC(1�α)

�σ2�=

(n� 2)S2Rχ2n�2,1� α

2

,(n� 2)S2R

χ2n�2, α2

!

=

SSR

χ2n�2,1� α2

,SSR

χ2n�2, α2

!.




Intervalo de con�anza para β1 al 90%:

β1 � β1σ�

β1� � tn�2

) 0.9 = P

t73,0.05 = �t73,0.95 �

β1 � β1σ�

β1� � t73,0.95!

= P�

β1 � t73,0.95σ�

β1�� β1 � β1 + t73,0.95σ

�β1��

σ2(β1) =s2Rns2x

=109.94

75 � 7.9797 = 0.1837) σ(β1) = 0.4286

IC90% (β1) = (8.108� 1.6664 � 0.4286) = (8.108� 0.7142)= (7.3938, 8.8222)



Intervalo de con�anza para β0 al 90%:

σ2(β0) =s2Rn

�1+

x2

s2x

�=109.9475

�1+

5.442

7.9797

�= 6.9022

) σ(β0) = 2.6272

IC90% (β1) = (13.515� 1.6664 � 2.6272) = (13.515� 4.378)= (9.137, 17.893)

Intervalo de con�anza para σ2 al 90%:

SSRσ2

� χ2n�2 ) 0.9 = P�

χ273,0.05 �SSRσ2

� χ273,0.95

�= P

SSR

χ273,0.95� σ2 � SSR

χ273,0.05

!

IC90%�σ2�=

�8025.6194.059

,8025.6154.325

�= (85.325, 147.735)


Estimación de los parámetros Contrastes de hipótesis sobre los parámetros

Contrastes de hipótesis sobre los parámetros

Procediendo de la forma habitual se pueden realizar contrastes de hipótesissobre los parámetros.

Por ejemplo, al contrastar si uno de los coe�cientes es nulo:(H (i )0 : βi = 0

H (i )1 : βi 6= 0aceptaríamos la hipótesis nula si el valor observado del estadístico:

T i0 =βi

σ�

βi� � tn�2, si H0 cierta,

pertenece a la región de aceptación:

R.A. =��tn�2,1� α

2, tn�2,1� α

2

�.



El nivel crítico del test o p-valor sería:

p = 2P�tn�2 �

��t i0�� .(probabilidad de obtener un resultado tan extraño o más que el observadobajo H0).Cuanto mayor sea este nivel crítico (comparado con α) más segurosestaremos en la aceptación de la hipótesis nula y viceversa.

El contraste: �H0 : β0 = 0H1 : β0 6= 0

podría �permitir�simpli�car el modelo si aceptamos que la recta deregresión pasa por el origen.



Es de especial interés el contraste:�H0 : β1 = 0H1 : β1 6= 0

que equivaldría a contrastar la existencia de relación lineal entre lasvariables X e Y (contraste de regresión).

Otra forma más natural de realizar este contraste es el análisis de lavarianza en regresión lineal simple.




(H (1)0 : β1 = 0

H (1)1 : β1 6= 0

T 10 =β1 � β1σ�

β1� jH0 = β1

σ�

β1� �Sup. H0 cierta

tn�2

t10 =8.1080.4286

= 18.917

) p � valor = P (jt73j > 18.917) < 0.001) Se acepta β1 6= 0



(H (0)0 : β0 = 0

H (0)1 : β0 6= 0

T 00 =β0

σ�

β0� �Sup. H0 cierta

tn�2

t00 =13.5152.6272

= 5.144

) p � valor = P (jt73j > 5.144) < 0.001) Se acepta β0 6= 0


Bondad del ajuste El contraste de regresión

Bondad del ajuste: El contraste de regresión

A partir de la descomposición

(yi � y) = (yi � yi ) + (yi � y) ,

se obtiene la identidad de la suma de cuadrados de la regresión linealsimple:

n

∑i=1(yi � y)2 =

n

∑i=1(yi � y)2 +

n

∑i=1(yi � yi )2

SST = SSE + SSRVT = VE + VR

variabilidadtotal

=variabilidad explicadapor la regresión

+variabilidadresidual



VE = VT (VR = 0)) Ajuste perfectoVE = 0 (VR = VT )) No explica nada

�y = β0 = y

�Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 38 / 73


Los valores esperados de las sumas de cuadrados dependen del número desumandos, es preferible utilizar otras medidas de variabilidad: varianzas.

Dividiendo las sumas de cuadrados por los correspondientes grados delibertad (numero - restricciones que veri�can los sumandos) se obtienen lasvarianzas o cuadrados medios:

S2Y = MST =SSTn� 1 =

1n� 1

n

∑i=1(yi � y)2

S2E = MSE =SSE1=

n

∑i=1(yi � y)2

S2R = MSR =SSRn� 2 =

1n� 2

n

∑i=1(yi � yi )2



Para contrastar la hipótesis nula de que no hay una relación lineal entre lasdos variables se puede utilizar también el cociente:

F0 =MSEMSR

=S2ES2R� F1,n�2, si H0 cierta,

que tiende a tomar valores grandes cuando la hipótesis nula es falsa.

Se rechaza H0 al nivel de signi�cación α si:

F0 =msEmsR

> F1,n�2,1�α.

El nivel crítico del test o p-valor será:

p = P�F1,n�2 � F0

�.



Los resultados normalmente se presentan en la tabla ANOVA de regresiónlineal simple:

Fuente de

variaciónSS gl MS F p-valor

Regresión ssE 1 msE =ssE1 F0=

msEmsR

pResidual ssR n� 2 msR =

ssRn�2

Total ssT n� 1 msT =ssTn�1

Este procedimiento resulta ser equivalente al test t descrito anteriormente.



NOTAS:

Si aceptamos la hipótesis nula del contraste de regresión, aceptamosque no hay relación lineal entre las variables, lo cual podría serdebido a que las variables son independientes o que la relación no eslineal.

Si para cada valor xi de la variable explicativa X se dispone de variosvalores de la respuesta se puede contrastar si las medias en cada unode estos niveles siguen una relación lineal (ver también el contraste delinealidad de los efectos descrito en el capítulo 3).Otra alternativa (que no requiere multiples observaciones) seríaemplear técnicas de inferencia estadística no paramétrica.




SSR =75

∑i=1e2i =

75

∑i=1(yi � yi )2 =

75

∑i=1y2i �

β0

75

∑i=1yi + β1

75

∑i=1xiyi

!= 8025.61

SST =75

∑i=1(yi � y)2 =

75

∑i=1y2i � 75 � y2

= 296397� 75 � 57.6232 = 47368.95

SSE =75

∑i=1(yi � y)2 = SST � SSR

= 47368.95� 8025.61 = 39343.34



F. var. SS gl MS F p-valorExplicado 39343.34 1 39343.34 357.86 p < 0.001Residual 8025.61 73 109.94

Total 47368.95 74 640.12

F1,73,0.95 ' 3.98� 357.86

p = P (F1,73 > 357.86) < 0.001


Bondad del ajuste Los coe�cientes de determinación y correlación

El coe�ciente de determinación

Una medida de la bondad del ajuste (evaluación global de la recta deregresión) es el coe�ciente de determinación:

R2 =VEVT

=

n∑i=1(yi � y)2

n∑i=1(yi � y)2

= 1� VRVT

= 1� (n� 2)S2R(n� 1)S2Y

que es la proporción de variación (en la respuesta) explicada por laregresión.Se veri�ca que 0 � R2 � 1 :

Si R2 = 1 todas las observaciones están en la recta de regresión (loexplica todo)Si R2 = 0 la recta de regresión no explica nada



El coe�ciente de correlación

Otra interpretación del coe�ciente de determinación se puede dar a partirdel conocido coe�ciente de correlación lineal de Pearson.Teniendo en cuenta que

yi = y + β1(xi � x),

se puede expresar el coe�ciente de determinación como:

R2 = β21S2XS2Y

=S2XYS2X S

2Y,

que resulta ser el cuadrado del coe�ciente de correlación lineal dePearson:

r =SXYSX SY



r = �1 r = 1

relación lineal negativa relación lineal positivaY disminuye cuando X aumenta Y aumenta cuando X aumenta

�1 < r < 0 0 < r < 1



r = 0

poca/ninguna relación lineal relación no lineal

NOTA:r = 0, SXY = 0, β1 = 0



El coe�ciente de correlación lineal r es el estimador muestral delcoe�ciente de correlación lineal poblacional:

ρ =σXY

σX σY.

Sería interesante contrastar: �H0 : ρ = 0H1 : ρ 6= 0

Para ello se podría emplear el siguiente estadístico:

rpn� 2p1� r2

� tn�2,

aunque para tamaños muestrales relativamente grandes (n > 30),σ (r) ' 1/

pn, por lo que podemos rechazar H0 si:

jr j > 2pn.

Este contraste sería equivalente al contraste de regresión H0 : β1 = 0.Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 49 / 73



R2 =ssEssT

=39343.3447368.95

= 0.83

La recta ajustada explica un 83% de la variabilidad de la respuesta )buen ajuste

r =sxysx sy

=64.6995

2.82484 � 25.1313 = 0.9113 =p0.83

jr j > 2pn=

2p75= 0.231) correlación signi�cativa


Predicción

Predicción

Entre los objetivos de un análisis de regresión pueden estar:Estimar la media de la distribución de la respuesta para un ciertovalor x0 de X ,i.e. estimar m0 = E (Y jX = x0) ( = β0 + β1x0).Predecir futuros valores de la respuesta en x0,i.e. predecir Y0 = Y jX = x0

Se puede pensar que en el primer caso se intenta estimar el valor medioa largo plazo (de un gran número de experimentos realizados con el valorx0), mientras que en el segundo caso se intenta predecir el resultado deun solo experimento.

La estimación puntual de la media y la predicción de la respuesta seobtienen sustituyendo en la recta de regresión el valor de x por x0:

m0 = by0 = β0 + β1x0

Sin embargo, la precisión es distinta.Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 51 / 73

Predicción

Ejemplo


Predicción Estimación de la media condicionada

Estimación de la media condicionada

El estimador m0 = by0 = β0 + β1x0 = y + β1 (x0 � x) ,sigue unadistribución normal de parámetros:

E (m0) = β0 + β1x0 = m0

Var (m0) = σ2�1n+(x0 � x)2nS2X

�=

σ2

n0

donde:n0 =

n

1+�x0 � xSX

�2n0 es un coe�ciente positivo que depende únicamente de la distanciaestandarizada del punto x0 a la media x , denominado número equivalentede observaciones, h00 = 1/n0 valor de in�uencia o leverage.



Observaciones:

Los datos proporcionan la misma información para estimar m0 queuna muestra de tamaño n0 univariante para estimar su media.

Cuando se realiza una interpolación (estimación dentro del rango devalores observados de X ): 1 � n0 � n (= n si x0 = x).Cuando se extrapola: n0 ! 0 ( no hay información sobre larespuesta).

Se veri�ca que:m0 �m0

σpn0

� N (0, 1) .



Sustituyendo la varianza desconocida por su estimador insesgado,obtenemos el estadístico pivote:

m0 �m0SRpn0

=m0 �m0SRph00

� tn�2,

a partir del cual podríamos construir intervalos de con�anza:

IC(1�α) (m0) =�m0 �

SRpn0tn�2,1� α

2

�o realizar contrastes.


Predicción Predicción de una nueva observación

Predicción de una nueva observación

El predictor by0 = β0 + β1x0, sigue una distribución normal y tiene comomedia y varianza de predicción (error cuadrático medio de predicción):

E (by0) = β0 + β1x0= E (y0)

E�(y � by0)2� = Var (y) + Var (by0)

= σ2�1+

1n0

�= σ2 (1+ h00)

De donde se deduce que:

by0 � y0σ

r�1+ 1

n0

� � N (0, 1)



Sustituyendo la varianza desconocida por su estimador insesgado,obtenemos: by0 � y0

SR

r�1+ 1

n0

� = by0 � y0SRp1+ h00

� tn�2,

a partir del cual podríamos construir intervalos de predicción:

IP(1�α) (y0) =

by0 � SRs�

1+1n0

�tn�2,1� α

2

!.



Cuidado con extrapolaciones




Intervalos de con�anza al 90% para el tiempo medio de impresión de lostrabajos de 6 hojas mt = E (Y /X = 6)

mt = 13.515+ 8.108xt = 13.515+ 8.108 � 6 = 62.163

htt =1n

1+

�xt � xsX

�2!=175

1+

�6� 5.442.82484

�2!=

175

�1+ 0.19822

�= 0.013857

) nt =1htt

= 72.1651 (número de observaciones equivalente)



dVar (mt ) =s2Rnt=109.9472.1651

= 1.5235

) σ (mt ) = 1.2343

mt � mtσ (mt )

� t73 )

IC90% (mt ) = (62.163� t73,0.95 � 1.2343)= (62.163� 1.6664 � 1.2343)= (62.163� 2.0568) = (60.106, 64.219)



Intervalo de predicción al 90% para el tiempo de impresión de un trabajoque tiene 6 hojas Y /X = 6

yt = 13.515+ 8.108xt = 13.515+ 8.108 � 6 = 62.163

dVar (yt ) =s2Rnt+ s2R =

109.9472.1651

+ 109.94 = 111.4635

) σ (yt ) = 10.5576

IP90% (yt ) = (62.163� 1.6664 � 10.5576)= (62.163� 17.593) = (44.569, 79.756)


Diagnosis del modelo

Diagnosis del modelo

Es importante recordar que las conclusiones obtenidas con este métodose basan en las hipótesis básicas del modelo:

Linealidad

Normalidad (homogeneidad)

Homocedasticidad

Independencia

Si alguna de estas hipótesis no es cierta, las conclusiones obtenidaspueden no ser �ables, o incluso totalmente erroneas. Es importanteveri�car si las hipótesis básicas del modelo son adecuadas para los datos:Diagnosis del modelo.

Para ello se pueden emplear desde métodos descriptivos (p.e. el grá�co dedispersión simple) hasta contrastes de hipótesis, como por ejemplo losdescritos en el capítulo 1 (aplicados sobre los residuos).DE FORMA ANÁLOGA A LOS MÉTODOS ANOVA.


Diagnosis del modelo Observaciones

Observaciones

La falta de linealidad "invalida" las conclusiones obtenidas(cuidado con las extrapolaciones).La falta de normalidad tiene poca in�uencia si el número dedatos es su�cientemente grande (TCL). Los estimadores de losparámetros no son óptimos pero sí insesgados (blue). Si el número deobservaciones es pequeño, y la distribución de los residuos distamucho de la normalidad (p.e. muy asimétrica), la estimación de lavarianza, los intervalos de con�anza y los contrastes pueden verseseriamente afectados.Si no hay igualdad de varianzas los estimadores de los parámetrostampoco son e�cientes pero sí insesgados (no blue), in�uye sobretodo en las varianzas (y por tanto en los intervalos de con�anza ycontrastes).La dependencia entre observaciones puede tener un efectomucho más grave.Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 63 / 73


En regresión lineal simple se pueden detectar fácilmente si hay algúnproblema en el grá�co de dispersión:



Dos conjuntos de datos con la misma correlación de 0.81.


Diagnosis del modelo Residuos, datos atípicos e in�uyentes

Residuos, datos atípicos e in�uyentes

Se puede pensar en chequear hipótesis sobre la distribución de loserrores teóricos a partir de la de los residuos ei = yi � yi .Como Var(ei ) = Var(yi )� Var(yi ) = σ2 (1� hii ), los residuos noson homocedásticos (tampoco independientes).Los residuos estandarizados:

ri =ei

sRp1� hii

,

deberían seguir una distribución próxima a la normal estandar (aprox.tn�2).Como s2R depende de ei , los residuos estudentizados:

ri =ei

sR (i )p1� hii

� tn�3,

(tienen una distribución exacta conocida), donde s2R (i ) es la varianzaresidual obtenida eliminando el dato i de la muestra.Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 66 / 73


Un dato atípico (outlier) es una observación "rara" comparada conel resto de observaciones (anormalmente más grande o más pequeñade lo esperado).

En regresión lineal simple se detectan fácilmente en el grá�co dedispersión.

Se detectan también cuando el correspondiente residuo es un valor�inusual� (poco probable) en relación a la distribución asociada. Uncriterio general es considerar un valor atípico cuando:

jri j > 2 ó 3.

(o preferiblemente utilizar jri j > tn�3,1�γ).

Si las conclusiones obtenidas dependen en gran medida de unaobservación (normalmente atípica), esta se denomina in�uyente (aposteriori) y debe ser examinada con cuidado por elexperimentador.



Las observaciones candidatas a ser observaciones in�uyentes aposteriori, son las que tienen un valor xi muy alejado del resto (i.e. dex), estas se denominan in�uyentes a priori. Deben chequearse por sison in�uyentes a posteriori.

Para detectar datos in�uyentes puede se pueden utilizar los residuoseliminados:

e(i ) = yi � y(i ) =ei

1� hii,

donde y(i ) es la predicción obtenida eliminando el dato i de lamuestra, que distarán notablemente de ei en la observacionesin�uyentes a posteriori.



Dos conjuntos de datos con la misma correlación de 0.81.



Es recomendable generar un grá�co de residuos tipi�cados oestudentizados frente a predicciones, para detectar falta delinealidad, heterocedasticidad, valores atípicos (falta denormalidad) e in�uyentes, o el efecto de un factor omitido: malaespeci�cación del modelo.


Diagnosis del modelo Alternativas

Alternativas

Cuando no se satisfacen los supuestos básicos puede llevarse a cabouna transformación de los datos para corregir falta de linealidad, laheterocedasticidad y/o falta de normalidad (normalmente estasúltimas "suelen ocurrir en la misma escala").Un grá�co dispersión-nivel puede ayudar a seleccionar latransformación en el caso de heterocedasticidad (p.e. crear un factorque de�na grupos según percentiles de las predicciones y proceder demodo similar al ANOVA I).

Si no se logra corregir la heterocedasticidad, puede ser adecuadoutilizar mínimos cuadrados ponderados (habría que modelar lavarianza).

Si no se cumple la hipótesis de independencia, se puede intentarmodelar la dependencia y utilizar mínimos cuadrados generalizados.



Ejemplo: transformaciones para linearizar

.

Resumen del modelo y estimaciones de los parámetros

Variable dependiente: Tiempo de reparación (minutos)

,907 204,976 1 21 ,000 36,075 9,956,940 330,557 1 21 ,000 19,339 73,938,967 611,537 1 21 ,000 22,204 ,801,753 64,121 1 21 ,000 44,986 ,097

EcuaciónLinealLogarítmicaPotenciaExponencial

R cuadrado F gl1 gl2 Sig.Resumen del modelo

Constante b1

Estimaciones de losparámetros

La variable independiente esUnidades defectuosas.

Logaritmico y = β0 + β1 ln x

Potencialy = β0x

β1

ln y = ln β0 + β1 ln x

Exponencialy = β0e

β1x

ln y = ln β0 + β1x



Otra alternativa sería ajustar un modelo polinómico (regresión múltiple):

y = β0 + β1x + β2x2

o la regresión no paramétrica.Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 73 / 73

Regresión lineal simple -...

Documents

Transcript of Regresión lineal simple -...