Regresión lineal simple -...

73
Regresin lineal simple Tema 6 Estadstica 2 Curso 08/09 Tema 6 (Estadstica 2) Regresin lineal simple Curso 08/09 1 / 73

Transcript of Regresión lineal simple -...

Page 1: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Regresión lineal simple

Tema 6

Estadística 2

Curso 08/09

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 1 / 73

Page 2: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Introducción

Introducción

El análisis de regresión se ocupa del análisis de relaciones entre variables:

Regresión: relación entre dos o más variables (1889, Francis Galton,Natural inheritance).

Correlación: grado/fuerza (y dirección) de la relación.

NOTA: relación no implica en principio causalidad.

Notación:

Variable de interés o respuesta (o dependiente): YVariables explicativas (independientes o regresoras): Xj , j = 1, ..., k.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 2 / 73

Page 3: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Introducción

Posibles situaciones:

Relación exacta o funcional: las variable explicativas determinantotalmente el valor de la respuesta:

Y = m(X1, � � � ,Xk )

Independencia: las variable explicativas no aportan ningunainformación sobre la la respuesta.

Relación estadística o estocástica: las variables explicativaspermiten predecir en mayor o menor grado el valor de la respuesta:

Y = m(X1, � � � ,Xk ) + ε

Se puede explicar la respuesta mediante una función ("efecto") de lasvariables explicativas, más un término de error o perturbaciónaleatoria, ε, que recoge el efecto conjunto de otras variables (nodirectamente explicitadas en el modelo) cuyo efecto individual no resultarelevante.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 3 / 73

Page 4: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Introducción Objetivos

Objetivos

A partir de una muestra:

f(X1i , � � � ,Xki ,Yi ) : i = 1, � � � , ng

Estimar la función de regresión: m

Realizar inferencias sobre la distribución del error: ε

Predecir el valor de la respuesta (conociendo las variables explicativas)

Deteterminar la importancia de las variables explicativas para explicar larespuesta

Detectar valores atípicos

...

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 4 / 73

Page 5: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Introducción Ejemplos

Ejemplo

Una empresa de reparación de cierto tipo de componentes electrónicospretende estudiar la relación entre el número de unidades defectuosas(variable explicativa, X) y el tiempo de reparación en minutos (variablede interés, Y).

X Y1 232 293 494 644 745 876 966 977 109

X Y7 1098 1199 1499 14510 15411 16211 17412 18012 176

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 5 / 73

Page 6: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Introducción Ejemplos

Grá�co descriptivo: Diagrama de dispersión

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 6 / 73

Page 7: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Introducción Ejemplos

EjemploProblema 4.3

Se pretende estudiar la relación entre el número de páginas de undocumento (variable explicativa, X) y el tiempo de impresión ensegundos (variable de interés, Y).

x y x y x y x y x y

1

24.56 17.33

28.07 23.16

22.53 14.70

17.81 19.41

2

29.92 17.14

37.25 31.90

31.80 41.72

24.59

3

28.86 30.01

44.73 44.43

41.32 34.16

28.79

4

29.03 45.00

54.38 47.63

44.34 48.95

53.52 30.11

5

52.55 69.50

55.61 52.98

65.70 40.11

45.21 46.63

6

65.39 57.48

62.85 69.09

71.44 57.29

50.42

7

85.33 66.73

78.94 61.07

78.34 88.25

68.17 76.71

64.84

8

83.82 75.38

69.40 84.42

80.68 60.79

100.08 74.79

9

82.90 105.73

102.13 119.82

93.93 102.30

10

79.82 90.83

83.81 71.79

76.30 89.00

76.20

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 7 / 73

Page 8: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Introducción Ejemplos

Grá�co descriptivo: Diagrama de dispersión

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 8 / 73

Page 9: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Introducción Clasi�cación de los modelos de regresión

Clasi�cación de los modelos de regresión

Según el muestreo/recogida de datos:Diseño �jo: el experimentador controla el valor de las variablesexplicativasDiseño aleatorio: las variables explicativas toman valores de formaaleatoria (el experimentador es un observador pasivo).

Según la metodología:Paramétricos: se supone que la función (y la distribución del error)sólo depende de unos parámetros (habrá que veri�car si estasuposición es adecuada para los datos).No paramétricos: no se hace �ninguna�suposición sobre la funciónque relaciona las variables.

Nos centraremos en el caso de regresión (paramétrica) lineal dediseño �jo:

Y = β0 + β1X1 + β2X2 + � � �+ βkXk + ε

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 9 / 73

Page 10: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

El modelo de regresión lineal simple Modelo

Modelo

Consideramos el caso más simple: una variable respuesta Y y unavariable explicativa X relacionadas linealmente:

Y = β0 + β1X + ε

El objetivo principal es, a partir de una muestra:

f(xi ,Yi ) : i = 1, � � � , ng,

Yi = β0 + β1xi + εi ,

estimar la recta de regresión teórica:

y = β0 + β1x

(es decir, estimar los parámetros β0 y β1 ) y la distribución del error.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 10 / 73

Page 11: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

El modelo de regresión lineal simple Modelo

Establecemos (además de la relación lineal) las siguientes hipótesisacerca del modelo:

La variable explicativa se supone no aleatoria.

El término de error o perturbación aleatoria tiene media nula yvarianza constante (desconocida):

E (εi ) = 0, Var(εi ) = σ2

El error tiene distribución normal:

εi � N(0, σ2)

Los errores son independientes, i.e. no existe correlación entre errores:

Cov(εi , εj ) = 0, si i 6= j .

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 11 / 73

Page 12: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

El modelo de regresión lineal simple Modelo

Por tanto:

Yi � N�

β0 + β1xi , σ2�

Independientes

linealidad

normalidad

homocedasticidad

independencia

NOTA: E (Y jX = x) = β0 + β1x

β0 = valor medio de Y cuando X es nula

β1 = �incremento medio�de Y cuando X aumenta una unidad

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 12 / 73

Page 13: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

El modelo de regresión lineal simple Modelo

Yi � N�

β0 + β1xi , σ2�

Generacion datos (Click!)

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 13 / 73

Page 14: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros

Estimación de los parámetros

Para la estimación de los parámetros del modelo:

los coe�cientes de la recta de regresión, β0 y β1,

la varianza de la distribución del error, σ2

se suele utilizar el método de mínimos cuadrados (o el de de máximaverosimilitud).

Como resultado obtendremos la recta de regresión mínimo cuadrática:

y = β0 + β1x

que estima el valor medio de Y , E (Yi ) = β0 + β1xi , para cada valor de X(estima la recta de regresión teórica).

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 14 / 73

Page 15: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Estimación por mínimos cuadrados

Estimación por mínimos cuadrados

Los estimadores mínimo cuadráticos son los que minimizan la suma delos cuadrados de las diferencias entre los valores reales y laspredicciones de la respuesta:

β = (β0, β1) = argminβ0β1

n

∑i=1(Yi � β0 � β1xi )

2.

Este problema de minimización se soluciona derivando e igualando acero:8><>:

n∑i=1

2(y i�(β0+β1xi ))(�1) = 0n∑i=1

2(y i�(β0+β1xi )(�x i ) = 0)

8><>:n∑i=1

yi�nβ0�β1n∑i=1

xi= 0

n∑i=1

xi yi�β0n∑i=1

xi�β1n∑i=1

x2i = 0

y resolviendo el sistema obtenido: ecuaciones canónicas de la regresión.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 15 / 73

Page 16: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Estimación por mínimos cuadrados

Obteniéndose:

β1 =SXYS2X

β0 = y � β1x

donde:

x =1n

n

∑i=1xi , y =

1n

n

∑i=1yi ,

S2x =1n

n

∑i=1(xi � x)2 =

1n

n

∑i=1x2i � x2

SXY =1n

n

∑i=1(xi � x) (yi � y) =

1n

n

∑i=1xiyi � x y

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 16 / 73

Page 17: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Estimación por mínimos cuadrados

Entonces la ecuación de la recta de regresión mínimo cuadrática de Ysobre X puede expresarse como:

y = y +SXYS2X

(x � x)

NOTAS:

La recta de regresión mínimo cuadrática siempre pasa por el punto(x , y) .

La recta de regresión de Y sobre X , Y /X , no coincide con la rectade regresión de X sobre Y (salvo relación lineal perfecta).

Haciendo uso de la hipótesis de normalidad,se llega a las mismasexpresiones al maximizar la función logarítmica de verosimilitud, porlo que estos estimadores coinciden con los estimadoresmáximo-verosímiles.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 17 / 73

Page 18: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Ejemplo

EjemploTiempo de impresión

n = 75

∑ni=1 xi = 408 x = 5.44

∑ni=1 x

2i = 2818 s2x =

281875 � 5.442 = 7.98

∑ni=1 yi = 4321.7 y = 57.623

∑ni=1 y

2i = 296397 s2y =

29639775 � 57.6232 = 631.586

∑ni=1 xiyi = 28362.5 sxy = 28362.5

75 � 5.44 � 57.623 = 64.698

y = y +SXYS2X

(x � x) = 57.623+ 64.6987.98

(x � 5.44) = 13.515+ 8.108x

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 18 / 73

Page 19: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Ejemplo

β1 =SXYS2X

= 8.108

β0 = y � β1x = 57.623� 8.108 � 5.44 = 13.515

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 19 / 73

Page 20: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Varianza residual

Varianza residual

Sustituyendo x en la recta ajustada por el correspondiente valor de lavariable explicativa se obtienen las predicciones; para la muestraobservada:

yi = β0 + β1xi

Las diferencias entre valores observados y predicciones:

yi � (β0 + β1xi ) = yi � yi = ei

se denominan residuos (de media 0), a partir de los cuales podemosde�nir una medida de la variabilidad de los datos respecto a la recta:

S2R =1n

n

∑i=1(yi � yi )2 =

1n

n

∑i=1ei 2

que es un estimador sesgado de la varianza del error σ2 (estimador demáxima verosimilitud).

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 20 / 73

Page 21: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Varianza residual

Un estimador insesgado de la varianza es:

S2R =1

n� 2n

∑i=1(yi � yi )2 =

SSRn� 2

que denominaremos varianza residual.

NOTAS:

De las ecuaciones canónicas se deduce que los residuos veri�can dosrestricciones ( ∑ ei = 0 y ∑ eixi = 0).Para el cálculo en la práctica, se puede emplear:

SSR =n

∑i=1e2i =

n

∑i=1y2i �

β0

n

∑i=1yi + β1

n

∑i=1xiyi

!

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 21 / 73

Page 22: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Varianza residual

EjemploTiempo de impresión

yi = 13.515+ 8.108xixi yi xi yi xi yi xi yi xi yi1 21.623 3 37.839 5 54.055 7 70.271 9 86.4872 29.731 4 45.947 6 62.163 8 78.379 10 94.595

SSR =75

∑i=1e2i =

75

∑i=1(yi � yi )2 =

75

∑i=1(yi � (13.515+ 8.108xi ))2 = 8025.61

SSR =75

∑i=1y2i �

β0

75

∑i=1yi + β1

75

∑i=1xiyi

!=

= 296397� 13.515 � 4321.7� 8.108 � 28362.5 ' 8026

s2R =SSRn� 2 =

8025.6173

= 109.94

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 22 / 73

Page 23: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Distribución los estimadores

Distribución los estimadores de los parámetros

Los estimadores de los coe�cientes se pueden expresar como unacombinación lineal de los valores de la variable respuesta:

β1 =

n∑i=1(xi � x)

n∑i=1(xi � x)2

yi =n

∑i=1aiyi

β0 = y � x β1 =n

∑i=1

�1n� xai

�yi =

n

∑i=1biyi

a partir de las cuales se pueden deducir fácilmente sus propiedadesprincipales:

Normalidad: Tienen una distribución normal por ser combinaciónlineal de variables aleatorias normales (independientes).

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 23 / 73

Page 24: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Distribución los estimadores

Insesgadez:

E�

β1�=

n

∑i=1aiE (yi ) = β1

E�

β0�=

n

∑i=1biE (yi ) = β0

Varianzas:

Var�

β1�=

n

∑i=1a2i Var (yi ) =

σ2

nS2X

Var�

β0�=

n

∑i=1b2i Var (yi ) = σ2

�1n+x2

nS2X

�Cov

�β0, β1

�=

n

∑i=1aibiVar (yi ) = �

xσ2

nS2x

E�ciencia (Teorema de Gauss-Markov): βj , j = 1, 2, tiene la mínimavarianza entre los estimadores lineales insesgados.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 24 / 73

Page 25: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Distribución los estimadores

Generacion datos (Click!)

β0 � N�

β0, σ2�1n+x2

nS2X

��β1 � N

�β1,

σ2

nS2X

�Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 25 / 73

Page 26: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Distribución los estimadores

Equivalentemente:

β1 � β1

σ1

SXpn

� N(0, 1)

β0 � β0

σ

s1n+x2

nS2X

� N(0, 1)

Además se puede ver que:

(n� 2)S2Rσ2

=SSRσ2

� χ2n�2

(independiente de los estimadores de los coe�cientes).

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 26 / 73

Page 27: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Distribución los estimadores

Estos resultados permiten obtener estimaciones por intervalo de con�anzay realizar contrastes de hipótesis para los distintos parámetros.

Teniendo en cuenta que:

β1 � β1

SR1

SXpn

� tn�2

β0 � β0

SR

s1n+x2

nS2X

� tn�2

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 27 / 73

Page 28: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Intervalos de con�anza para los parámetros

Intervalos de con�anza para los parámetros

A partir de los estadísticos anteriores:

βi � βiσ�

βi� � tn�2, i = 0, 1

donde:

σ2�

β0�= S2R

�1n+x2

nS2X

�σ2�

β1�=

S2RnS2X

Se obtienen los intervalos de con�anza de nivel 1� α para los coe�cientesde la recta de regresión:

IC(1�α) (βi ) =�

βi � tn�2,1� α2σ�

βi��, i = 0, 1.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 28 / 73

Page 29: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Intervalos de con�anza para los parámetros

A partir del estadístico:

(n� 2)S2Rσ2

=SSRσ2

� χ2n�2

se obtiene el correspondiente intervalo de con�anza para la varianza:

IC(1�α)

�σ2�=

(n� 2)S2Rχ2n�2,1� α

2

,(n� 2)S2R

χ2n�2, α2

!

=

SSR

χ2n�2,1� α2

,SSR

χ2n�2, α2

!.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 29 / 73

Page 30: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Intervalos de con�anza para los parámetros

EjemploTiempo de impresión

Intervalo de con�anza para β1 al 90%:

β1 � β1σ�

β1� � tn�2

) 0.9 = P

t73,0.05 = �t73,0.95 �

β1 � β1σ�

β1� � t73,0.95!

= P�

β1 � t73,0.95σ�

β1�� β1 � β1 + t73,0.95σ

�β1��

σ2(β1) =s2Rns2x

=109.94

75 � 7.9797 = 0.1837) σ(β1) = 0.4286

IC90% (β1) = (8.108� 1.6664 � 0.4286) = (8.108� 0.7142)= (7.3938, 8.8222)

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 30 / 73

Page 31: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Intervalos de con�anza para los parámetros

Intervalo de con�anza para β0 al 90%:

σ2(β0) =s2Rn

�1+

x2

s2x

�=109.9475

�1+

5.442

7.9797

�= 6.9022

) σ(β0) = 2.6272

IC90% (β1) = (13.515� 1.6664 � 2.6272) = (13.515� 4.378)= (9.137, 17.893)

Intervalo de con�anza para σ2 al 90%:

SSRσ2

� χ2n�2 ) 0.9 = P�

χ273,0.05 �SSRσ2

� χ273,0.95

�= P

SSR

χ273,0.95� σ2 � SSR

χ273,0.05

!

IC90%�σ2�=

�8025.6194.059

,8025.6154.325

�= (85.325, 147.735)

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 31 / 73

Page 32: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Contrastes de hipótesis sobre los parámetros

Contrastes de hipótesis sobre los parámetros

Procediendo de la forma habitual se pueden realizar contrastes de hipótesissobre los parámetros.

Por ejemplo, al contrastar si uno de los coe�cientes es nulo:(H (i )0 : βi = 0

H (i )1 : βi 6= 0aceptaríamos la hipótesis nula si el valor observado del estadístico:

T i0 =βi

σ�

βi� � tn�2, si H0 cierta,

pertenece a la región de aceptación:

R.A. =��tn�2,1� α

2, tn�2,1� α

2

�.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 32 / 73

Page 33: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Contrastes de hipótesis sobre los parámetros

El nivel crítico del test o p-valor sería:

p = 2P�tn�2 �

��t i0��� .(probabilidad de obtener un resultado tan extraño o más que el observadobajo H0).Cuanto mayor sea este nivel crítico (comparado con α) más segurosestaremos en la aceptación de la hipótesis nula y viceversa.

El contraste: �H0 : β0 = 0H1 : β0 6= 0

podría �permitir�simpli�car el modelo si aceptamos que la recta deregresión pasa por el origen.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 33 / 73

Page 34: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Contrastes de hipótesis sobre los parámetros

Es de especial interés el contraste:�H0 : β1 = 0H1 : β1 6= 0

que equivaldría a contrastar la existencia de relación lineal entre lasvariables X e Y (contraste de regresión).

Otra forma más natural de realizar este contraste es el análisis de lavarianza en regresión lineal simple.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 34 / 73

Page 35: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Contrastes de hipótesis sobre los parámetros

EjemploTiempo de impresión

(H (1)0 : β1 = 0

H (1)1 : β1 6= 0

T 10 =β1 � β1σ�

β1� jH0 = β1

σ�

β1� �Sup. H0 cierta

tn�2

t10 =8.1080.4286

= 18.917

) p � valor = P (jt73j > 18.917) < 0.001) Se acepta β1 6= 0

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 35 / 73

Page 36: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Estimación de los parámetros Contrastes de hipótesis sobre los parámetros

(H (0)0 : β0 = 0

H (0)1 : β0 6= 0

T 00 =β0

σ�

β0� �Sup. H0 cierta

tn�2

t00 =13.5152.6272

= 5.144

) p � valor = P (jt73j > 5.144) < 0.001) Se acepta β0 6= 0

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 36 / 73

Page 37: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Bondad del ajuste El contraste de regresión

Bondad del ajuste: El contraste de regresión

A partir de la descomposición

(yi � y) = (yi � yi ) + (yi � y) ,

se obtiene la identidad de la suma de cuadrados de la regresión linealsimple:

n

∑i=1(yi � y)2 =

n

∑i=1(yi � y)2 +

n

∑i=1(yi � yi )2

SST = SSE + SSRVT = VE + VR

variabilidadtotal

=variabilidad explicadapor la regresión

+variabilidadresidual

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 37 / 73

Page 38: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Bondad del ajuste El contraste de regresión

VE = VT (VR = 0)) Ajuste perfectoVE = 0 (VR = VT )) No explica nada

�y = β0 = y

�Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 38 / 73

Page 39: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Bondad del ajuste El contraste de regresión

Los valores esperados de las sumas de cuadrados dependen del número desumandos, es preferible utilizar otras medidas de variabilidad: varianzas.

Dividiendo las sumas de cuadrados por los correspondientes grados delibertad (numero - restricciones que veri�can los sumandos) se obtienen lasvarianzas o cuadrados medios:

S2Y = MST =SSTn� 1 =

1n� 1

n

∑i=1(yi � y)2

S2E = MSE =SSE1=

n

∑i=1(yi � y)2

S2R = MSR =SSRn� 2 =

1n� 2

n

∑i=1(yi � yi )2

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 39 / 73

Page 40: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Bondad del ajuste El contraste de regresión

Para contrastar la hipótesis nula de que no hay una relación lineal entre lasdos variables se puede utilizar también el cociente:

F0 =MSEMSR

=S2ES2R� F1,n�2, si H0 cierta,

que tiende a tomar valores grandes cuando la hipótesis nula es falsa.

Se rechaza H0 al nivel de signi�cación α si:

F0 =msEmsR

> F1,n�2,1�α.

El nivel crítico del test o p-valor será:

p = P�F1,n�2 � F0

�.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 40 / 73

Page 41: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Bondad del ajuste El contraste de regresión

Los resultados normalmente se presentan en la tabla ANOVA de regresiónlineal simple:

Fuente de

variaciónSS gl MS F p-valor

Regresión ssE 1 msE =ssE1 F0=

msEmsR

pResidual ssR n� 2 msR =

ssRn�2

Total ssT n� 1 msT =ssTn�1

Este procedimiento resulta ser equivalente al test t descrito anteriormente.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 41 / 73

Page 42: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Bondad del ajuste El contraste de regresión

NOTAS:

Si aceptamos la hipótesis nula del contraste de regresión, aceptamosque no hay relación lineal entre las variables, lo cual podría serdebido a que las variables son independientes o que la relación no eslineal.

Si para cada valor xi de la variable explicativa X se dispone de variosvalores de la respuesta se puede contrastar si las medias en cada unode estos niveles siguen una relación lineal (ver también el contraste delinealidad de los efectos descrito en el capítulo 3).Otra alternativa (que no requiere multiples observaciones) seríaemplear técnicas de inferencia estadística no paramétrica.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 42 / 73

Page 43: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Bondad del ajuste El contraste de regresión

EjemploTiempo de impresión

SSR =75

∑i=1e2i =

75

∑i=1(yi � yi )2 =

75

∑i=1y2i �

β0

75

∑i=1yi + β1

75

∑i=1xiyi

!= 8025.61

SST =75

∑i=1(yi � y)2 =

75

∑i=1y2i � 75 � y2

= 296397� 75 � 57.6232 = 47368.95

SSE =75

∑i=1(yi � y)2 = SST � SSR

= 47368.95� 8025.61 = 39343.34

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 43 / 73

Page 44: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Bondad del ajuste El contraste de regresión

F. var. SS gl MS F p-valorExplicado 39343.34 1 39343.34 357.86 p < 0.001Residual 8025.61 73 109.94

Total 47368.95 74 640.12

F1,73,0.95 ' 3.98� 357.86

p = P (F1,73 > 357.86) < 0.001

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 44 / 73

Page 45: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Bondad del ajuste Los coe�cientes de determinación y correlación

El coe�ciente de determinación

Una medida de la bondad del ajuste (evaluación global de la recta deregresión) es el coe�ciente de determinación:

R2 =VEVT

=

n∑i=1(yi � y)2

n∑i=1(yi � y)2

= 1� VRVT

= 1� (n� 2)S2R(n� 1)S2Y

que es la proporción de variación (en la respuesta) explicada por laregresión.Se veri�ca que 0 � R2 � 1 :

Si R2 = 1 todas las observaciones están en la recta de regresión (loexplica todo)Si R2 = 0 la recta de regresión no explica nada

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 45 / 73

Page 46: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Bondad del ajuste Los coe�cientes de determinación y correlación

El coe�ciente de correlación

Otra interpretación del coe�ciente de determinación se puede dar a partirdel conocido coe�ciente de correlación lineal de Pearson.Teniendo en cuenta que

yi = y + β1(xi � x),

se puede expresar el coe�ciente de determinación como:

R2 = β21S2XS2Y

=S2XYS2X S

2Y,

que resulta ser el cuadrado del coe�ciente de correlación lineal dePearson:

r =SXYSX SY

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 46 / 73

Page 47: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Bondad del ajuste Los coe�cientes de determinación y correlación

r = �1 r = 1

relación lineal negativa relación lineal positivaY disminuye cuando X aumenta Y aumenta cuando X aumenta

�1 < r < 0 0 < r < 1

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 47 / 73

Page 48: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Bondad del ajuste Los coe�cientes de determinación y correlación

r = 0

poca/ninguna relación lineal relación no lineal

NOTA:r = 0, SXY = 0, β1 = 0

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 48 / 73

Page 49: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Bondad del ajuste Los coe�cientes de determinación y correlación

El coe�ciente de correlación lineal r es el estimador muestral delcoe�ciente de correlación lineal poblacional:

ρ =σXY

σX σY.

Sería interesante contrastar: �H0 : ρ = 0H1 : ρ 6= 0

Para ello se podría emplear el siguiente estadístico:

rpn� 2p1� r2

� tn�2,

aunque para tamaños muestrales relativamente grandes (n > 30),σ (r) ' 1/

pn, por lo que podemos rechazar H0 si:

jr j > 2pn.

Este contraste sería equivalente al contraste de regresión H0 : β1 = 0.Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 49 / 73

Page 50: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Bondad del ajuste Los coe�cientes de determinación y correlación

EjemploTiempo de impresión

R2 =ssEssT

=39343.3447368.95

= 0.83

La recta ajustada explica un 83% de la variabilidad de la respuesta )buen ajuste

r =sxysx sy

=64.6995

2.82484 � 25.1313 = 0.9113 =p0.83

jr j > 2pn=

2p75= 0.231) correlación signi�cativa

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 50 / 73

Page 51: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Predicción

Predicción

Entre los objetivos de un análisis de regresión pueden estar:Estimar la media de la distribución de la respuesta para un ciertovalor x0 de X ,i.e. estimar m0 = E (Y jX = x0) ( = β0 + β1x0).Predecir futuros valores de la respuesta en x0,i.e. predecir Y0 = Y jX = x0

Se puede pensar que en el primer caso se intenta estimar el valor medioa largo plazo (de un gran número de experimentos realizados con el valorx0), mientras que en el segundo caso se intenta predecir el resultado deun solo experimento.

La estimación puntual de la media y la predicción de la respuesta seobtienen sustituyendo en la recta de regresión el valor de x por x0:

m0 = by0 = β0 + β1x0

Sin embargo, la precisión es distinta.Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 51 / 73

Page 52: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Predicción

Ejemplo

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 52 / 73

Page 53: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Predicción Estimación de la media condicionada

Estimación de la media condicionada

El estimador m0 = by0 = β0 + β1x0 = y + β1 (x0 � x) ,sigue unadistribución normal de parámetros:

E (m0) = β0 + β1x0 = m0

Var (m0) = σ2�1n+(x0 � x)2nS2X

�=

σ2

n0

donde:n0 =

n

1+�x0 � xSX

�2n0 es un coe�ciente positivo que depende únicamente de la distanciaestandarizada del punto x0 a la media x , denominado número equivalentede observaciones, h00 = 1/n0 valor de in�uencia o leverage.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 53 / 73

Page 54: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Predicción Estimación de la media condicionada

Observaciones:

Los datos proporcionan la misma información para estimar m0 queuna muestra de tamaño n0 univariante para estimar su media.

Cuando se realiza una interpolación (estimación dentro del rango devalores observados de X ): 1 � n0 � n (= n si x0 = x).Cuando se extrapola: n0 ! 0 ( no hay información sobre larespuesta).

Se veri�ca que:m0 �m0

σpn0

� N (0, 1) .

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 54 / 73

Page 55: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Predicción Estimación de la media condicionada

Sustituyendo la varianza desconocida por su estimador insesgado,obtenemos el estadístico pivote:

m0 �m0SRpn0

=m0 �m0SRph00

� tn�2,

a partir del cual podríamos construir intervalos de con�anza:

IC(1�α) (m0) =�m0 �

SRpn0tn�2,1� α

2

�o realizar contrastes.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 55 / 73

Page 56: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Predicción Predicción de una nueva observación

Predicción de una nueva observación

El predictor by0 = β0 + β1x0, sigue una distribución normal y tiene comomedia y varianza de predicción (error cuadrático medio de predicción):

E (by0) = β0 + β1x0= E (y0)

E�(y � by0)2� = Var (y) + Var (by0)

= σ2�1+

1n0

�= σ2 (1+ h00)

De donde se deduce que:

by0 � y0σ

r�1+ 1

n0

� � N (0, 1)

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 56 / 73

Page 57: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Predicción Predicción de una nueva observación

Sustituyendo la varianza desconocida por su estimador insesgado,obtenemos: by0 � y0

SR

r�1+ 1

n0

� = by0 � y0SRp1+ h00

� tn�2,

a partir del cual podríamos construir intervalos de predicción:

IP(1�α) (y0) =

by0 � SRs�

1+1n0

�tn�2,1� α

2

!.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 57 / 73

Page 58: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Predicción Predicción de una nueva observación

Cuidado con extrapolaciones

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 58 / 73

Page 59: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Predicción Predicción de una nueva observación

EjemploTiempo de impresión

Intervalos de con�anza al 90% para el tiempo medio de impresión de lostrabajos de 6 hojas mt = E (Y /X = 6)

mt = 13.515+ 8.108xt = 13.515+ 8.108 � 6 = 62.163

htt =1n

1+

�xt � xsX

�2!=175

1+

�6� 5.442.82484

�2!=

175

�1+ 0.19822

�= 0.013857

) nt =1htt

= 72.1651 (número de observaciones equivalente)

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 59 / 73

Page 60: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Predicción Predicción de una nueva observación

dVar (mt ) =s2Rnt=109.9472.1651

= 1.5235

) σ (mt ) = 1.2343

mt � mtσ (mt )

� t73 )

IC90% (mt ) = (62.163� t73,0.95 � 1.2343)= (62.163� 1.6664 � 1.2343)= (62.163� 2.0568) = (60.106, 64.219)

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 60 / 73

Page 61: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Predicción Predicción de una nueva observación

Intervalo de predicción al 90% para el tiempo de impresión de un trabajoque tiene 6 hojas Y /X = 6

yt = 13.515+ 8.108xt = 13.515+ 8.108 � 6 = 62.163

dVar (yt ) =s2Rnt+ s2R =

109.9472.1651

+ 109.94 = 111.4635

) σ (yt ) = 10.5576

IP90% (yt ) = (62.163� 1.6664 � 10.5576)= (62.163� 17.593) = (44.569, 79.756)

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 61 / 73

Page 62: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Diagnosis del modelo

Diagnosis del modelo

Es importante recordar que las conclusiones obtenidas con este métodose basan en las hipótesis básicas del modelo:

Linealidad

Normalidad (homogeneidad)

Homocedasticidad

Independencia

Si alguna de estas hipótesis no es cierta, las conclusiones obtenidaspueden no ser �ables, o incluso totalmente erroneas. Es importanteveri�car si las hipótesis básicas del modelo son adecuadas para los datos:Diagnosis del modelo.

Para ello se pueden emplear desde métodos descriptivos (p.e. el grá�co dedispersión simple) hasta contrastes de hipótesis, como por ejemplo losdescritos en el capítulo 1 (aplicados sobre los residuos).DE FORMA ANÁLOGA A LOS MÉTODOS ANOVA.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 62 / 73

Page 63: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Diagnosis del modelo Observaciones

Observaciones

La falta de linealidad "invalida" las conclusiones obtenidas(cuidado con las extrapolaciones).La falta de normalidad tiene poca in�uencia si el número dedatos es su�cientemente grande (TCL). Los estimadores de losparámetros no son óptimos pero sí insesgados (blue). Si el número deobservaciones es pequeño, y la distribución de los residuos distamucho de la normalidad (p.e. muy asimétrica), la estimación de lavarianza, los intervalos de con�anza y los contrastes pueden verseseriamente afectados.Si no hay igualdad de varianzas los estimadores de los parámetrostampoco son e�cientes pero sí insesgados (no blue), in�uye sobretodo en las varianzas (y por tanto en los intervalos de con�anza ycontrastes).La dependencia entre observaciones puede tener un efectomucho más grave.Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 63 / 73

Page 64: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Diagnosis del modelo Observaciones

En regresión lineal simple se pueden detectar fácilmente si hay algúnproblema en el grá�co de dispersión:

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 64 / 73

Page 65: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Diagnosis del modelo Observaciones

Dos conjuntos de datos con la misma correlación de 0.81.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 65 / 73

Page 66: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Diagnosis del modelo Residuos, datos atípicos e in�uyentes

Residuos, datos atípicos e in�uyentes

Se puede pensar en chequear hipótesis sobre la distribución de loserrores teóricos a partir de la de los residuos ei = yi � yi .Como Var(ei ) = Var(yi )� Var(yi ) = σ2 (1� hii ), los residuos noson homocedásticos (tampoco independientes).Los residuos estandarizados:

ri =ei

sRp1� hii

,

deberían seguir una distribución próxima a la normal estandar (aprox.tn�2).Como s2R depende de ei , los residuos estudentizados:

ri =ei

sR (i )p1� hii

� tn�3,

(tienen una distribución exacta conocida), donde s2R (i ) es la varianzaresidual obtenida eliminando el dato i de la muestra.Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 66 / 73

Page 67: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Diagnosis del modelo Residuos, datos atípicos e in�uyentes

Un dato atípico (outlier) es una observación "rara" comparada conel resto de observaciones (anormalmente más grande o más pequeñade lo esperado).

En regresión lineal simple se detectan fácilmente en el grá�co dedispersión.

Se detectan también cuando el correspondiente residuo es un valor�inusual� (poco probable) en relación a la distribución asociada. Uncriterio general es considerar un valor atípico cuando:

jri j > 2 ó 3.

(o preferiblemente utilizar jri j > tn�3,1�γ).

Si las conclusiones obtenidas dependen en gran medida de unaobservación (normalmente atípica), esta se denomina in�uyente (aposteriori) y debe ser examinada con cuidado por elexperimentador.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 67 / 73

Page 68: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Diagnosis del modelo Residuos, datos atípicos e in�uyentes

Las observaciones candidatas a ser observaciones in�uyentes aposteriori, son las que tienen un valor xi muy alejado del resto (i.e. dex), estas se denominan in�uyentes a priori. Deben chequearse por sison in�uyentes a posteriori.

Para detectar datos in�uyentes puede se pueden utilizar los residuoseliminados:

e(i ) = yi � y(i ) =ei

1� hii,

donde y(i ) es la predicción obtenida eliminando el dato i de lamuestra, que distarán notablemente de ei en la observacionesin�uyentes a posteriori.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 68 / 73

Page 69: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Diagnosis del modelo Residuos, datos atípicos e in�uyentes

Dos conjuntos de datos con la misma correlación de 0.81.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 69 / 73

Page 70: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Diagnosis del modelo Residuos, datos atípicos e in�uyentes

Es recomendable generar un grá�co de residuos tipi�cados oestudentizados frente a predicciones, para detectar falta delinealidad, heterocedasticidad, valores atípicos (falta denormalidad) e in�uyentes, o el efecto de un factor omitido: malaespeci�cación del modelo.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 70 / 73

Page 71: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Diagnosis del modelo Alternativas

Alternativas

Cuando no se satisfacen los supuestos básicos puede llevarse a cabouna transformación de los datos para corregir falta de linealidad, laheterocedasticidad y/o falta de normalidad (normalmente estasúltimas "suelen ocurrir en la misma escala").Un grá�co dispersión-nivel puede ayudar a seleccionar latransformación en el caso de heterocedasticidad (p.e. crear un factorque de�na grupos según percentiles de las predicciones y proceder demodo similar al ANOVA I).

Si no se logra corregir la heterocedasticidad, puede ser adecuadoutilizar mínimos cuadrados ponderados (habría que modelar lavarianza).

Si no se cumple la hipótesis de independencia, se puede intentarmodelar la dependencia y utilizar mínimos cuadrados generalizados.

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 71 / 73

Page 72: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Diagnosis del modelo Alternativas

Ejemplo: transformaciones para linearizar

.

Resumen del modelo y estimaciones de los parámetros

Variable dependiente: Tiempo de reparación (minutos)

,907 204,976 1 21 ,000 36,075 9,956,940 330,557 1 21 ,000 ­19,339 73,938,967 611,537 1 21 ,000 22,204 ,801,753 64,121 1 21 ,000 44,986 ,097

EcuaciónLinealLogarítmicaPotenciaExponencial

R cuadrado F gl1 gl2 Sig.Resumen del modelo

Constante b1

Estimaciones de losparámetros

La variable independiente esUnidades defectuosas.

Logaritmico y = β0 + β1 ln x

Potencialy = β0x

β1

ln y = ln β0 + β1 ln x

Exponencialy = β0e

β1x

ln y = ln β0 + β1x

Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 72 / 73

Page 73: Regresión lineal simple - dm.udc.esdm.udc.es/.../transparencias0910/Tema_5_Regresion_lineal_simple.pdf · Consideramos el caso mÆs simple: una variable respuesta Y y una variable

Diagnosis del modelo Alternativas

Otra alternativa sería ajustar un modelo polinómico (regresión múltiple):

y = β0 + β1x + β2x2

o la regresión no paramétrica.Tema 6 (Estadística 2) Regresión lineal simple Curso 08/09 73 / 73