Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la...

Post on 24-Jan-2016

222 views 0 download

Transcript of Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la...

Maestría en TransporteEstadística

Concepto

• Se busca establecer una relación que indique que la media de una población dada depende de una variable X (o varias...), y que la relación es lineal...

0 1 1, , ,[ | ] ...i i i p i p iE Y X X X

Suposiciones

• Variable Y (dependiente) continua.• Relación lineal en los parámetros.• Observaciones independientes y muestreadas aleatoriamente.

• Existencia de incertidumbre en la relación Y -> X (existencia de errores).

• Errores de esperanza nula y varianza constante.

• Errores no correlacionados.• Errores no correlacionados con X.• Errores aproximadamente normales.

Suposiciones II

0 ,1

2

, ,

2

1.

2. 0

3.

4. , 0

5. , 0;

6. ~ (0, )

p

i j j i ij

i

i

i j

i j i

i

Y X

E

V

Cov

Cov X j

N

Violaciones a los supuestos

• Fallas a la Normalidad• Existencia de correlación en las regresoras

• Heterocedasticidad• Existencia de correlación• Errores en la especificación de modelos.

Mas sobre Regresiones

• Bondad de Ajuste, un poco mas allá...• ¿Que son “outliers”? ¿Como detectarlos? ¿Como actuar?

• Fallas a la homocedasticidad• Fallas a la falta de correlación serial• Fallas a la falta de normalidad

Un poco mas de bondad (de ajuste)...

Prueba F

• Se trata probar acerca de la bondad de modelos competidores

• Primero se estima el modelo completo – El mejor modelo que se disponga– Todas las regresoras

• Luego se estima un modelo restringido– es un modelo al que se han quitado variables– Puede ser un modelo en el que, incluso se han quitado TODAS las regresoras y se deja sólo el término constante...

Prueba F (II)

• La lógica de la prueba es comparar la variablidad de los errores en el modelo completo vs la variabilidad en el modelo reducido.

• Se comparan las sumas de cuadrados de los errores de ambos modelos SSEfull y SSEred

0 1 2

1

: ... 0

: 0;

k k p

i

H

H al menosun k i p

Prueba F

• EL estadístico calculado tiene distribución F con– dfr-dff grados de libertad en el numerador

– dff grados de libertad en el denominador

• Donde• dfr = n-pr

• dff = n-pf

• n es el número de observaciones• pf es número de parámetros en el modelo completo (full)• pr es el número de parámetros en el modelo restringido

*

r f

r f

f

f

SSE SSE

df dfF

SSE

df

(1 ; ; )r f fF df df df

Prueba F

• ¿y si se excluyen todas los parámetros beta?

• SSEr=2(n-1)

• dfr=n-1

• La prueba F sólo es válida para modelos “anidados”, esto es donde en uno de ellos se excluye una o mas regresoras respecto al otro.

Criterios de Información

• Para comparar entre modelos en general (con distintas regresoras) se usan los Criterios de información.

• Conceptualmente los CI (o IC en inglés):– dan cuenta de la variabilidad de los errores, cuanto menos variabilidad mejor,

– dan cuenta de la cantidad de variables regresoras incluidas, cuanto menos mejor (criterio de parsimonia). De manera que penalízan cuando se incluyen mas regresoras...

Criterios de Información

• Los criterios se comparan seleccionando el modelo que resulte en un valor menor (menor variabilidad de los errores)

• k número de parámetros estimados• n número de observaciones• l log de la verosimilitud

Criterios de Información

• Ejemplo: definición alternativa de AIC• (bajo normalidad)

• Ejercicio: mostrar que las expresiones son iguales

2( ) 2 /AIC Ln k n

¿Quién no quiere ser singular? ¿quién no quiere ser tratado especialmente? ¿quién no quiere que su participación tenga real

influencia?Todos somos...

Outliers

Outliers

• Conocidas como Observaciones Aberrantes• Son observaciones atípicas de mucha influencia en la pendiente de la recta.

y = 0.709x + 1.8163

0

5

10

15

20

0 5 10 15

y = 0.4395x + 3.3436

0

5

10

15

20

0 5 10 15

Outliers

• Influencia a causa de alejamiento en el eje de las y

• A causa de alejamiento en el eje (los ejes) de las x

• A causa de alejamiento en ambos sentidos

• La influencia en los parámetros es el cuadrado de la distancia.

Outliers

• Matriz “Hat” sombrero• (notación maticial)• Parámetros estimados

• Valores Ajustados

• (proyección)

• H es la matriz “hat”

1' 'B X X X Y

1ˆ ; ' 'Y HY H X X X X

1ˆ 'Y XB X X X XY

Outliers

• Entonces, los valores ajustados son combinación lineal de la muestra (los observados)

• Además

• donde e son residuos e I es la matriz identidad

• (ejercicio, mostrar esto)

2( ) ( )Var e I H

Outliers

• donde hii es el i-ésimo elemento de la matriz diagonal de H.

• Se puede demostrar que

2( ) (1 )i iiVar e h

1

0 1;jj

n

jjj

h j

h p

Outliers

• Cuando mas grande es hii, mas pequeño es Var(ei), mas influencia tiene en determinar la recta. Valores de alto hii tienen menores residuos.

• El “leverage” hii es grande cuando supera el doble del promedio de todos los leverage.

• Ejercicio ¿cuál es este promedio?

Outliers

• Distancia de Cook• Cuantifica el impacto de remover una observación de la estimación sobre los parámetros.

2 2( )

2 2

ˆ1

1(1 )

j j ij i ii

iiiii

y ye h

Dh ppS S h

2

2 21

i iii

ii

e hD

pS h

Outliers

• La distancia depende del residuo en “i” y del leverage en “i”. Si cualquiera es elevado Di será grande respecto al resto de las observaciones.

Outliers

• Acciones• Revisar el modelo

– (¿variables indicadoras? ¿otras variables regresoras?)

• Revisar las observaciones – ¿no corresponde a errores o diferente metodología de recolección?

• Revisar los instrumentos de medida• Revisar manipulación previa de los datos

Outliers

• Acciones (II)• Es recomendable identificar y explicar las observaciones aberrantes.

• Quitarlas puede llevar a críticas por “tratar de ajustar los datos al modelo y no a la inversa”

• Si se comprueba un error justificable, quitarlas.

HeterocedasticidadLos mínimos cuadrados son

un poco pesados...

OLS Ordinary Least Squareso MCO

• Notación matricial: minúsculas indican vectores, mayúsculas indican matrices (incluso en letras griegas). Los escalares se denotan igual que vectores

y X

1 11 21 10

2 12 22 21

21 2

1

1

... ... ... ... ...

1n n n n

y x x

y x x

y x x

2

( ) 0

( ')

E

E I

OLS

• Adicionalmente, normalidad de los errores

2(0, )nN I

1

0

00

...

0n

2

22

2

0 ... 0

0 ... 0

... ... ... ...

0 0 ...

I

OLS

• Ecuaciones normales (p ecuaciones para p incognitas)

• (hemos cambiado la notación para los estimadores de B a “Beta Sombrero”

'q

1

2ˆ0 ( ' ) '

...

n

q

qq

X X X y

q

OLS

• Si (X’X) no es singular...

• Y asumiendo normalidad de los errores se puede obtener la distribución de los beta^ que resultan se normales. Se aplican pruebas t, etc...

1ˆ ( ' ) 'X X X y

Generalized Least Squares GLS

• También conocidos como estimadores de Aitken.

Generalized Least Squares GLS

• También conocidos como estimadores de Aitken.

y X

1 11 21 10

2 12 22 21

21 2

1

1

... ... ... ... ...

1n n n n

y x x

y x x

y x x

2

( ) 0

( ')

E

E V

GLS

• siempre que V sea simétrica y definida positiva |V|>0.

2 2 211 12 1

2 2 22 21 22 2

2 2 21 2

...

...

... ... ... ...

...

n

n

n n nn

v v v

v v vV

v v v

GLS

• Si se usa una matriz triangular tal P’P=V-1 (la matriz V-1 ha sido descompuesta. Se denomina descomposición de Choleki). Resulta que...

1 1

1 1

'

' ' '

' ' ' ' '

'

'

P PV I

P PVP P P P

P P PVP P P P P P

PVP P P P P I

PVP I

GLS

• Supóngase la siguiente transformación

• Ejercicio, hallar la distribución de eta

• Ejercicio, hallar la expresión de beta^ en función de las variables originales

* *

Py PX P

y X

* * 1 * *ˆ ( ' ) 'X X X y

GLS

• Inconveniente, necesitamos conocer V!!• Las aplicaciones de GLS son diversas entre ellas los WLS Weighted Least Squares o Mínimos Cuadrados Pesados, una de las posibles soluciones para la heterocedasticidad, cuando existen réplicas o cuasi réplicas...

Mínimos Cuadrados Pesados

• Se pueden construir mejores estimadores si se acepta que existe heterocedasticidad.

• Si se sabe que cada observación tiene una varianza distinta...

• Nótese que aún existe no correlación entre errores de observaciones distintas

21

22

2

0 0

0 0( ')

0

0 0 0 n

E

( ) 0i jE

Mínimos Cuadrados Pesados

• Para algún valor arbitrario de 2 se puede escribir...

• Voila!! Todo está solucionado (si conociéramos las varianzas de cada observación!!!)

• Entonces – (a) puede hacerse una suposición “de fé” sobre la variación de la varianza, algo similar a decir “los errores son normales” es una suposición previa.

– (b) si existen réplicas se pueden calcular las varianzas para cada observación i

2( ')E V

Mínimos Cuadrados Pesados

• Existe tres réplicas X1, tres réplicas X2 y cuatro réplicas X3

21

21

21

22

22

22

23

23

23

23

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

V

Mínimos Cuadrados Pesados

1

1

1

2

2

2

3

3

3

3

P

Mínimos Cuadrados Pesados

• En una regresión simple, todo resulta en que

• regresión OLS con dos variables y sin ordenada al origen

• A los efectos del cálculo

* * *0 1 0 0, 1 1,

1;i i i

i i i ii i i i

y xy x x

0 1

1ˆ ˆ ˆ ˆi i i

i i i i

y x

Mínimos Cuadrados Pesados

• Las ecuaciones normales implican que se debe aplicar pesos 1/2.

• Ejercicio mostrar las validez de las siguientes expresiones

2

0 1

20 1

1

ˆ ˆ

ˆ ˆ

ii

i i i i i

i i i i i i i

w

w y w w x

w x y w x w x

Mínimos Cuadrados Pesados

• Dado que las varianzas son estimadas algunos autores (Ej:Kmenta) proponen calcular iterativamente.– Se calcula una regresión OLS y se estiman los residuos de las réplicas. Se determinan las varianzas de.

– Se calcula una regresión WLS y se estiman los residuos de las réplicas. Se determinan las varianzas de los errores de las réplicas.

– Se itera hasta obtener convergencia de varianzas (igualdad de varianzas entre réplicas!!)

Mínimos Cuadrados Pesados

• Similares cuestiones surgen cuando la variable respuesta es un promedio de varias observaciones

• yi es promedio de ni observaciones y como tal su varianza es

• Ejercicio, hallar la expresión de V

2

( ) ( )i ii

Var y Varn

Mínimos Cuadrados Pesados

• Es necesario tener consideraciones especiales a la hora de realizar predicciones respecto a bandas de predicción y bandas de predicción individual.

Mínimos Cuadrados Pesados

WLS

0

10

20

30

40

50

60

0 10 20 30 40 50

OLS

0

10

20

30

40

50

60

0 10 20 30 40 50

Autocorrelación(ya no se me ocurre nada

que decir...)

Autocorrelación

• Se aplica cuando las observaciones son obtenidas a través del tiempo.

• Observación de los residuos– agrupamiento de amplitud

• Durbin Watson, modelo

• Ejercicio, verificar que

0 1

1

21( ) 0; ( ) ; ( ) 0; 1

t t t

t t t

t t t t

y x

E V E

1( ) 0t tE

Autocorrelación

• Ejercicio ¿Que efectos tiene sobre los estimadores de una regresión lineal simple, el hecho que no sea nulo?– Verificar si los estimadores son insesgados – Verificar el efecto en la varianza de los estimadores OLS.

• ¿Porqué no ?– Estudio de Series de Tiempo Box y Jenkins– Aproximación AR(1) es buena en muchos casos!!

1 2( , ,..., )t t t t pf

Autocorrelación

• es positivo!

• Residuo

• Región crítica– si d<dl se rechaza H0

– si d>du no se rechaza H0

– si du<d<dl no es concluyente

0 : 0; 1: 0H H

212

2

1

n

t tt

n

tt

e ed

e

ˆt t te y y

Autocorrelación

Autocorrelación

• De igual forma se puede tratar para <0, pero se calcula 4-d con igual región crítica.

• El estadístico d está limitado por 0 y por 4, si es cercano a 2 no se rechaza la hipótesis.

plim 2(1 )

lim 2 1 1n

d

P d

Autocorrelación

• Existen transformaciones para usar OLS. El estudio de series de tiempo es mas general

• Si rho fuese conocido puede aplicarse GLS. Una posibilidad es estimar rho sobre residuos de una primera estimación OLS.

10

21

0

n

t ttn

tt

e er

e

Autocorrelación

• La estimación vía Máxima Verosimilitud• Autocorrelación con datos trimestrales • Autocorrelación con datos mensuales