Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la...

54
Maestría en Transporte Estadística

Transcript of Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la...

Page 1: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Maestría en TransporteEstadística

Page 2: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Concepto

• Se busca establecer una relación que indique que la media de una población dada depende de una variable X (o varias...), y que la relación es lineal...

0 1 1, , ,[ | ] ...i i i p i p iE Y X X X

Page 3: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Suposiciones

• Variable Y (dependiente) continua.• Relación lineal en los parámetros.• Observaciones independientes y muestreadas aleatoriamente.

• Existencia de incertidumbre en la relación Y -> X (existencia de errores).

• Errores de esperanza nula y varianza constante.

• Errores no correlacionados.• Errores no correlacionados con X.• Errores aproximadamente normales.

Page 4: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Suposiciones II

0 ,1

2

, ,

2

1.

2. 0

3.

4. , 0

5. , 0;

6. ~ (0, )

p

i j j i ij

i

i

i j

i j i

i

Y X

E

V

Cov

Cov X j

N

Page 5: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Violaciones a los supuestos

• Fallas a la Normalidad• Existencia de correlación en las regresoras

• Heterocedasticidad• Existencia de correlación• Errores en la especificación de modelos.

Page 6: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Mas sobre Regresiones

• Bondad de Ajuste, un poco mas allá...• ¿Que son “outliers”? ¿Como detectarlos? ¿Como actuar?

• Fallas a la homocedasticidad• Fallas a la falta de correlación serial• Fallas a la falta de normalidad

Page 7: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Un poco mas de bondad (de ajuste)...

Page 8: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Prueba F

• Se trata probar acerca de la bondad de modelos competidores

• Primero se estima el modelo completo – El mejor modelo que se disponga– Todas las regresoras

• Luego se estima un modelo restringido– es un modelo al que se han quitado variables– Puede ser un modelo en el que, incluso se han quitado TODAS las regresoras y se deja sólo el término constante...

Page 9: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Prueba F (II)

• La lógica de la prueba es comparar la variablidad de los errores en el modelo completo vs la variabilidad en el modelo reducido.

• Se comparan las sumas de cuadrados de los errores de ambos modelos SSEfull y SSEred

0 1 2

1

: ... 0

: 0;

k k p

i

H

H al menosun k i p

Page 10: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Prueba F

• EL estadístico calculado tiene distribución F con– dfr-dff grados de libertad en el numerador

– dff grados de libertad en el denominador

• Donde• dfr = n-pr

• dff = n-pf

• n es el número de observaciones• pf es número de parámetros en el modelo completo (full)• pr es el número de parámetros en el modelo restringido

*

r f

r f

f

f

SSE SSE

df dfF

SSE

df

(1 ; ; )r f fF df df df

Page 11: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Prueba F

• ¿y si se excluyen todas los parámetros beta?

• SSEr=2(n-1)

• dfr=n-1

• La prueba F sólo es válida para modelos “anidados”, esto es donde en uno de ellos se excluye una o mas regresoras respecto al otro.

Page 12: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Criterios de Información

• Para comparar entre modelos en general (con distintas regresoras) se usan los Criterios de información.

• Conceptualmente los CI (o IC en inglés):– dan cuenta de la variabilidad de los errores, cuanto menos variabilidad mejor,

– dan cuenta de la cantidad de variables regresoras incluidas, cuanto menos mejor (criterio de parsimonia). De manera que penalízan cuando se incluyen mas regresoras...

Page 13: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Criterios de Información

• Los criterios se comparan seleccionando el modelo que resulte en un valor menor (menor variabilidad de los errores)

• k número de parámetros estimados• n número de observaciones• l log de la verosimilitud

Page 14: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Criterios de Información

• Ejemplo: definición alternativa de AIC• (bajo normalidad)

• Ejercicio: mostrar que las expresiones son iguales

2( ) 2 /AIC Ln k n

Page 15: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

¿Quién no quiere ser singular? ¿quién no quiere ser tratado especialmente? ¿quién no quiere que su participación tenga real

influencia?Todos somos...

Outliers

Page 16: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Outliers

• Conocidas como Observaciones Aberrantes• Son observaciones atípicas de mucha influencia en la pendiente de la recta.

y = 0.709x + 1.8163

0

5

10

15

20

0 5 10 15

y = 0.4395x + 3.3436

0

5

10

15

20

0 5 10 15

Page 17: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Outliers

• Influencia a causa de alejamiento en el eje de las y

• A causa de alejamiento en el eje (los ejes) de las x

• A causa de alejamiento en ambos sentidos

• La influencia en los parámetros es el cuadrado de la distancia.

Page 18: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Outliers

• Matriz “Hat” sombrero• (notación maticial)• Parámetros estimados

• Valores Ajustados

• (proyección)

• H es la matriz “hat”

1' 'B X X X Y

1ˆ ; ' 'Y HY H X X X X

1ˆ 'Y XB X X X XY

Page 19: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Outliers

• Entonces, los valores ajustados son combinación lineal de la muestra (los observados)

• Además

• donde e son residuos e I es la matriz identidad

• (ejercicio, mostrar esto)

2( ) ( )Var e I H

Page 20: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Outliers

• donde hii es el i-ésimo elemento de la matriz diagonal de H.

• Se puede demostrar que

2( ) (1 )i iiVar e h

1

0 1;jj

n

jjj

h j

h p

Page 21: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Outliers

• Cuando mas grande es hii, mas pequeño es Var(ei), mas influencia tiene en determinar la recta. Valores de alto hii tienen menores residuos.

• El “leverage” hii es grande cuando supera el doble del promedio de todos los leverage.

• Ejercicio ¿cuál es este promedio?

Page 22: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Outliers

• Distancia de Cook• Cuantifica el impacto de remover una observación de la estimación sobre los parámetros.

2 2( )

2 2

ˆ1

1(1 )

j j ij i ii

iiiii

y ye h

Dh ppS S h

2

2 21

i iii

ii

e hD

pS h

Page 23: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Outliers

• La distancia depende del residuo en “i” y del leverage en “i”. Si cualquiera es elevado Di será grande respecto al resto de las observaciones.

Page 24: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Outliers

• Acciones• Revisar el modelo

– (¿variables indicadoras? ¿otras variables regresoras?)

• Revisar las observaciones – ¿no corresponde a errores o diferente metodología de recolección?

• Revisar los instrumentos de medida• Revisar manipulación previa de los datos

Page 25: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Outliers

• Acciones (II)• Es recomendable identificar y explicar las observaciones aberrantes.

• Quitarlas puede llevar a críticas por “tratar de ajustar los datos al modelo y no a la inversa”

• Si se comprueba un error justificable, quitarlas.

Page 26: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

HeterocedasticidadLos mínimos cuadrados son

un poco pesados...

Page 27: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

OLS Ordinary Least Squareso MCO

• Notación matricial: minúsculas indican vectores, mayúsculas indican matrices (incluso en letras griegas). Los escalares se denotan igual que vectores

y X

1 11 21 10

2 12 22 21

21 2

1

1

... ... ... ... ...

1n n n n

y x x

y x x

y x x

2

( ) 0

( ')

E

E I

Page 28: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

OLS

• Adicionalmente, normalidad de los errores

2(0, )nN I

1

0

00

...

0n

2

22

2

0 ... 0

0 ... 0

... ... ... ...

0 0 ...

I

Page 29: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

OLS

• Ecuaciones normales (p ecuaciones para p incognitas)

• (hemos cambiado la notación para los estimadores de B a “Beta Sombrero”

'q

1

2ˆ0 ( ' ) '

...

n

q

qq

X X X y

q

Page 30: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

OLS

• Si (X’X) no es singular...

• Y asumiendo normalidad de los errores se puede obtener la distribución de los beta^ que resultan se normales. Se aplican pruebas t, etc...

1ˆ ( ' ) 'X X X y

Page 31: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Generalized Least Squares GLS

• También conocidos como estimadores de Aitken.

Page 32: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Generalized Least Squares GLS

• También conocidos como estimadores de Aitken.

y X

1 11 21 10

2 12 22 21

21 2

1

1

... ... ... ... ...

1n n n n

y x x

y x x

y x x

2

( ) 0

( ')

E

E V

Page 33: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

GLS

• siempre que V sea simétrica y definida positiva |V|>0.

2 2 211 12 1

2 2 22 21 22 2

2 2 21 2

...

...

... ... ... ...

...

n

n

n n nn

v v v

v v vV

v v v

Page 34: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

GLS

• Si se usa una matriz triangular tal P’P=V-1 (la matriz V-1 ha sido descompuesta. Se denomina descomposición de Choleki). Resulta que...

1 1

1 1

'

' ' '

' ' ' ' '

'

'

P PV I

P PVP P P P

P P PVP P P P P P

PVP P P P P I

PVP I

Page 35: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

GLS

• Supóngase la siguiente transformación

• Ejercicio, hallar la distribución de eta

• Ejercicio, hallar la expresión de beta^ en función de las variables originales

* *

Py PX P

y X

* * 1 * *ˆ ( ' ) 'X X X y

Page 36: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

GLS

• Inconveniente, necesitamos conocer V!!• Las aplicaciones de GLS son diversas entre ellas los WLS Weighted Least Squares o Mínimos Cuadrados Pesados, una de las posibles soluciones para la heterocedasticidad, cuando existen réplicas o cuasi réplicas...

Page 37: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Mínimos Cuadrados Pesados

• Se pueden construir mejores estimadores si se acepta que existe heterocedasticidad.

• Si se sabe que cada observación tiene una varianza distinta...

• Nótese que aún existe no correlación entre errores de observaciones distintas

21

22

2

0 0

0 0( ')

0

0 0 0 n

E

( ) 0i jE

Page 38: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Mínimos Cuadrados Pesados

• Para algún valor arbitrario de 2 se puede escribir...

• Voila!! Todo está solucionado (si conociéramos las varianzas de cada observación!!!)

• Entonces – (a) puede hacerse una suposición “de fé” sobre la variación de la varianza, algo similar a decir “los errores son normales” es una suposición previa.

– (b) si existen réplicas se pueden calcular las varianzas para cada observación i

2( ')E V

Page 39: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Mínimos Cuadrados Pesados

• Existe tres réplicas X1, tres réplicas X2 y cuatro réplicas X3

21

21

21

22

22

22

23

23

23

23

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

ˆ

V

Page 40: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Mínimos Cuadrados Pesados

1

1

1

2

2

2

3

3

3

3

P

Page 41: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Mínimos Cuadrados Pesados

• En una regresión simple, todo resulta en que

• regresión OLS con dos variables y sin ordenada al origen

• A los efectos del cálculo

* * *0 1 0 0, 1 1,

1;i i i

i i i ii i i i

y xy x x

0 1

1ˆ ˆ ˆ ˆi i i

i i i i

y x

Page 42: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Mínimos Cuadrados Pesados

• Las ecuaciones normales implican que se debe aplicar pesos 1/2.

• Ejercicio mostrar las validez de las siguientes expresiones

2

0 1

20 1

1

ˆ ˆ

ˆ ˆ

ii

i i i i i

i i i i i i i

w

w y w w x

w x y w x w x

Page 43: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Mínimos Cuadrados Pesados

• Dado que las varianzas son estimadas algunos autores (Ej:Kmenta) proponen calcular iterativamente.– Se calcula una regresión OLS y se estiman los residuos de las réplicas. Se determinan las varianzas de.

– Se calcula una regresión WLS y se estiman los residuos de las réplicas. Se determinan las varianzas de los errores de las réplicas.

– Se itera hasta obtener convergencia de varianzas (igualdad de varianzas entre réplicas!!)

Page 44: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Mínimos Cuadrados Pesados

• Similares cuestiones surgen cuando la variable respuesta es un promedio de varias observaciones

• yi es promedio de ni observaciones y como tal su varianza es

• Ejercicio, hallar la expresión de V

2

( ) ( )i ii

Var y Varn

Page 45: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Mínimos Cuadrados Pesados

• Es necesario tener consideraciones especiales a la hora de realizar predicciones respecto a bandas de predicción y bandas de predicción individual.

Page 46: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Mínimos Cuadrados Pesados

WLS

0

10

20

30

40

50

60

0 10 20 30 40 50

OLS

0

10

20

30

40

50

60

0 10 20 30 40 50

Page 47: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Autocorrelación(ya no se me ocurre nada

que decir...)

Page 48: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Autocorrelación

• Se aplica cuando las observaciones son obtenidas a través del tiempo.

• Observación de los residuos– agrupamiento de amplitud

• Durbin Watson, modelo

• Ejercicio, verificar que

0 1

1

21( ) 0; ( ) ; ( ) 0; 1

t t t

t t t

t t t t

y x

E V E

1( ) 0t tE

Page 49: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Autocorrelación

• Ejercicio ¿Que efectos tiene sobre los estimadores de una regresión lineal simple, el hecho que no sea nulo?– Verificar si los estimadores son insesgados – Verificar el efecto en la varianza de los estimadores OLS.

• ¿Porqué no ?– Estudio de Series de Tiempo Box y Jenkins– Aproximación AR(1) es buena en muchos casos!!

1 2( , ,..., )t t t t pf

Page 50: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Autocorrelación

• es positivo!

• Residuo

• Región crítica– si d<dl se rechaza H0

– si d>du no se rechaza H0

– si du<d<dl no es concluyente

0 : 0; 1: 0H H

212

2

1

n

t tt

n

tt

e ed

e

ˆt t te y y

Page 51: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Autocorrelación

Page 52: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Autocorrelación

• De igual forma se puede tratar para <0, pero se calcula 4-d con igual región crítica.

• El estadístico d está limitado por 0 y por 4, si es cercano a 2 no se rechaza la hipótesis.

plim 2(1 )

lim 2 1 1n

d

P d

Page 53: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Autocorrelación

• Existen transformaciones para usar OLS. El estudio de series de tiempo es mas general

• Si rho fuese conocido puede aplicarse GLS. Una posibilidad es estimar rho sobre residuos de una primera estimación OLS.

10

21

0

n

t ttn

tt

e er

e

Page 54: Maestría en Transporte Estadística. Concepto Se busca establecer una relación que indique que la media de una población dada depende de una variable X.

Autocorrelación

• La estimación vía Máxima Verosimilitud• Autocorrelación con datos trimestrales • Autocorrelación con datos mensuales