Tr1Qua_mlg_1.pdfModel Lineal Generalitzat Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1-2 Curs 2.014-2.015 TABLA DE CONTENIDOS

Transcript

Page 1: MODEL LINEAL APUNTS DE CLASSE: TEMA 1 ...lmontero/lmm_tm/Tr1Qua_mlg_1.pdfModel Lineal Generalitzat Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1-2 Curs 2.014-2.015 TABLA DE CONTENIDOS

Curs 2014-2015

Grau d’Estadística |UB - UPC | Lídia Montero i Josep Anton Sánchez

MODEL LINEAL GENERALITZAT

APUNTS DE CLASSE: TEMA 1

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 2 Curs 2. 01 4- 2. 01 5

TABLA DE CONTENIDOS

1-1. TEMA 1: INTRODUCCIÓN A LOS MODELOS LINEALES GENERALIZADOS __________________________________________________ 3

1-2. COMPONENTES DE LOS MODELOS LINEALES GENERALIZADOS _________________________________________________________ 8

1-3. DISTRIBUCIONES DE LA FAMILIA EXPONENCIAL _______________________________________________________________________ 10

1-4. FUNCIONES DE ENLACE O LINK G(.) ____________________________________________________________________________________ 15

1-4.1 LINKS CANÓNICOS ______________________________________________________________________________________________________ 17

1-5. MEDIDAS DE BONDAD DEL AJUSTE ____________________________________________________________________________________ 18

1-5.1 ANÁLISIS DE LOS RESIDUOS ______________________________________________________________________________________________ 21

1-6. INFERENCIA EN LOS MLGZ ____________________________________________________________________________________________ 22

1-6.1 PROPIEDADES DE LOS ESTIMADORES MV ___________________________________________________________________________________ 22 1-6.2 ESTADÍSTICO DE WALD __________________________________________________________________________________________________ 24

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 3 Curs 2. 01 4- 2. 01 5

1-1. TEMA 1: INTRODUCCIÓN A LOS MODELOS LINEALES GENERALIZADOS

Objetivo: Estudio de los métodos estadísticos implicados en el análisis de las relaciones entre medidas realizadas en grupos de estudio.

En medicina por ejemplo, se requiere del análisis de contajes en forma de proporciones o cocientes para estudiar la incidencia de una determinada enfermedad y específicamente como factores de edad, clase social, etc. y los tratamientos propuestos afectan en la incidencia de la enfermedad. Los modelos lineales generalizados permiten estudiar los patrones de variación sistemática de manera similar a como los modelos de regresión múltiple permiten estudiar los efectos conjuntos e interacciones de tratamientos y covariables.

Notación: Letras griegas para parámetros, mayúsculas para variables aleatorias, minúsculas para observaciones. Vectores un subrayado (o negrita), matrices dos subrayados (mayúsculas y negrita, en texto). Estimadores: letras latinas o letras griegas con ^.

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 4 Curs 2. 01 4- 2. 01 5

TEMA 1: INTRODUCCIÓN A LOS MODELOS LINEALES GENERALIZADOS

Terminología: • Variable explicativa o predictor.

• Variable de respuesta o dependiente.

• Modelos lineales generalizados: término acuñado por Nelder y Wedderburn en 1.972.

Clasificación de las variables: • Variables nominales o categóricas puras: binarias (dicotómicas) si tienen 2 categorías y politómicas si

tienen más de 2 categorías. Las categorías no tienen asociada ninguna semántica de orden. Son variables cualitativas.

• Variables ordinales. Son variables categóricas con noción de orden entre las categorías, habitualmente mas de 2. Suelen proceder de la discretización de variables continuas o son v.a. discretas. Son variables cualitativas.

• Variables continuas o cuantitativas. Asociadas a medidas teóricamente continuas.

• Factor: variable explicativa cualitativa. Las distintas categorías se denominan niveles.

• Covariable: variable explicativa continua.

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 5 Curs 2. 01 4- 2. 01 5

TEMA 1: INTRODUCCIÓN A LOS MODELOS LINEALES GENERALIZADOS

Clasificación de los métodos estadísticos de análisis: Variables Explicativas

Variable de respuesta Binaria Politómica Cuantitativa

Discreta Cuantitativa Continua

Normal Tiempo entre eventos

Binaria Tablas de contingencia

Regresión logística Modelos log-lineales

Tablas de contingencia

* Modelos log-lineales

Modelos log-lineales

Tests en medias de 2

grupos: t.test

Análisis de la Supervivencia

Politómicas Tablas de contingencia

Regresión logística Modelos log-lineales

Tablas de contingencia

Modelos log-lineales

ONEWAY, ANOVA

Análisis de la Supervivencia

Continuas Regresión logística * Modelos log-lineales

Regresión Múltiple

Análisis de la Supervivencia

Factores y covariables

Regresión logística * Modelos log-lineales

ANCOVA Análisis de la Supervivencia

Efectos Aleatorios

Modelos mixtos Modelos mixtos Modelos mixtos

Modelos mixtos Modelos mixtos

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 6 Curs 2. 01 4- 2. 01 5

TEMA 1: INTRODUCCIÓN MLGz. MODEL FITTING

Obtención de un modelo que permita reemplazar los datos y por el conjunto de valores estimados por el modelo µ̂ , de manera que los valores estimados minimicen algún criterio estadístico: norma 1, norma 2 (mínimos cuadrados), máxima verosimilitud, etc.

Los modelos estadísticos a tratar consideran en los datos una componente sistemática y una componente aleatoria.

Consideraciones varias: • Criterio de parsimonia.

• Rango de valores que facilitan buenas predicciones: model scope.

• Sobre la prepotencia del estadístico: Primero, todos los modelos son erróneos, aunque algunos son más útiles que otros.

• Los modelos estimados deben validarse mediante el análisis de los residuos y/o estadísticos de valoración de la calidad del modelo.

Se adoptará el esquema Box-Jenkins (1.986): MLGz incluye selección del link

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 7 Curs 2. 01 4- 2. 01 5

TEMA 1: INTRODUCCIÓN MLGz. MODEL FITTING (CONT.)

Estimación de los parámetros en los MLGz: máxima verosimilitud, en general, se requiere

una estimación de la varianza de los estimadores de los parámetros.

Criterio de bondad del ajuste la función lineal de scaled deviance (devianza escalada), discrepancia (observed data vs fitted data)

( ) ( )y,2y)(y,2y,' µµ −=D

donde ( ) ( )∑=

iiiyf

θ,logy,µ , ( )nT µµ ,,1 =µ y ( )n

T yy ,,y 1= .

Predicción. Puntuales y por intervalo/región de confianza. Debe ir acompañada de

medidas de precisión.

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 8 Curs 2. 01 4- 2. 01 5

1-2. COMPONENTES DE LOS MODELOS LINEALES GENERALIZADOS

Los modelos lineales generalizados, MLGz en adelante, son una extensión de los modelos lineales clásicos.

Las observaciones ( )nT yy ,,y 1= , realización de un vector aleatorio ( )n

T YY ,,Y 1= , cuyas

componentes son estadísticamente independientes y distribuidas con medias ( )nT µµ ,,1 =µ :

• La componente aleatoria asume independencia de las componentes de ( )nT YY ,,Y 1= y

pertenencia a distribuciones de la familia exponencial de 1 parámetro, con [ ] µ=YΕ .

[ ]

[ ]nT

µµ

=Ε μ

Y o

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 9 Curs 2. 01 4- 2. 01 5

1.2 COMPONENTES DE LOS MODELOS LINEALES GENERALIZADOS

• La componente sistemática representada por un vector η , el predictor lineal construido a partir de un número reducido de parámetros a estimar y regresores; parámetros

( )pT ββ ,,1=β y regresores ( )pXX ,,X 1= . Esta especificación responde, en

notación matricial a βη X= donde η es nx1, X es nxp y β es px1.

βXη

pnpn

n xx

1111

• El vector µ está funcionalmente relacionado con el predictor lineal η , a través de la denominada función de enlace o link function, notada como g(. ), de manera ( )ii µη g= .

( ) ( )βxgβxg Ti

1Ti

−=↔= ii µµ

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 0 Curs 2. 01 4- 2. 01 5

1-3. DISTRIBUCIONES DE LA FAMILIA EXPONENCIAL

Sea Y una variable aleatoria y su función de probabilidad, si es discreta o su función de

densidad de probabilidad si es continua; en cualquier caso depende de un único parámetro θ .

La distribución pertenece a la familia exponencial si puede escribirse de la siguiente manera:

( ) ( )( ) ( )

−= φ

φθθφθ ,exp,, yc

abyyfY

Donde a(.), b(.) y c(.) son funciones específicas.

• Si φ es conocido entonces el modelo pertenece a la familia exponencial y se denomina al único parámetro θ : parámetro canónico.

• Si φ no es conocido, el modelo puede pertenecer o no a la familia exponencial (con 2 parámetros).

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 1 Curs 2. 01 4- 2. 01 5

TEMA 1: INTRODUCCIÓN MLGZ. FAMILIA EXPONENCIAL (CONT.)

• La función ( )φa suele ser de la forma: ( ) ℜ∈= ww

a φφ , donde φ se denomina el parámetro de dispersión.

• La función b(.) se denomina función cumulante.

• Sea la función de log-verosimilitud de una observación dada y perteneciente a la familia exponencial y considérese la función dependiente de θ y φ :

( ) ( ) ( )( ) ( )φφθθφθφθ ,,,log,, yc

abyyfy Y +

−==

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 2 Curs 2. 01 4- 2. 01 5

TEMA 1: INTRODUCCIÓN MLGz. FAMILIA EXPONENCIAL (CONT.)

Por ejemplo, sea la distribución normal:

( ) ( ) ( )

+−

−=

−−= 2

22log

212exp

2exp

21,, πσ

σσμμ

σμ

πσφθ 22

yyyyfY

donde ( ) 2σφφ ==a , ( )2µ

2θθ

==b ( es decir, µθ = ) y ( ) ( )

+−= πφ

φφ 2

21 2

log, yyc.

( ) ( ) ( )( ) ( ) ( )

+−

−=+

−== πφ

φφθθφ

φθθφθφθ 2

212 22

log,,,log,, yyyca

byyfy Y

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 3 Curs 2. 01 4- 2. 01 5

TEMA 1: INTRODUCCIÓN MLGz. FAMILIA EXPONENCIAL (CONT.)

• Por ejemplo, sea la distribución de Poisson:

( ) ( ) ( ) ( ) ( )

−

−=

−

−=−= !logexp!loglogexpexp

!,, yeyyy

yyf

Y 1θ

1µµµµφθ

donde ( ) 1=φa , ( ) θθ eb = ( es decir, µθ log= ) y ( ) ( )!log, yyc −=φ .

( ) ( ) ( )( ) ( ) ( )!log,,,log,, yeyyc

abyyfy Y −−=+

−== θθφ

φθθφθφθ

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 4 Curs 2. 01 4- 2. 01 5

TEMA 1: INTRODUCCIÓN MLGz. FAMILIA EXPONENCIAL (CONT.)

• Por ejemplo, sea Y de distribución Binomial ( )π,mB de parámetros m i π , donde la observación es y y [ ] πµ m==YΕ

( ) ( ) ( ) ( ) ( )

( )

++−=

−−

−=

+−−−=−

= −

emyym

myyym

yf ymyY

loglogexplogloglogexp

logloglogexp,,

θθπ1

1π1

π1πππφθ

( ) 1=φa , ( ) ( )θθ emb += 1log , π1ππθ−

== loglogit , ( )

yc log,φ y

( ) θ

πθµe

emm+

==1

( ) ( ) ( )( ) ( ) ( )

++−=+

−==

emyyca

byyfy Y loglog,,,log,, θθφφθθφθφθ 1

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 5 Curs 2. 01 4- 2. 01 5

1-4. FUNCIONES DE ENLACE O LINK G(.)

En la descripción de las componentes de un MLGz, el vector [ ] µ=YΕ , valor esperado de los datos y, está funcionalmente relacionado con el predictor lineal η , a través de la denominada función de link,

notada como g(. ), de manera ( )µη g= , donde η , µ son nx1.

Las funciones de link habitualmente empleadas son:

• En la distribución normal, [ ] µ=YΕ y ( ) iii µµη == g y por tanto el link es la identidad, lo que parece razonable porque el predictor lineal puede tomar cualquier valor real y la media también.

• En la distribución de Poisson, la media tiene que ser positiva [ ] µ=YΕ > 0 y como el predictor lineal puede tomar cualquier valor real, la identidad no parece razonable. Los modelos para contajes llevan de manera natural a efectos multiplicativos de los regresores, lo que puede expresarse como efectos

aditivos en los logaritmos de la media de los datos, ( ) ( )iii μlogg == µη y su inversa, para cada

dato ( ) ( )iii g η=η=μ exp1.

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 6 Curs 2. 01 4- 2. 01 5

TEMA 1: INTRODUCCIÓN MLGz. FUNCIONES DE LINK G(. ) (CONT. )

• En la distribución de binomial ( ) mmB µ, , la media debe tomar valores entre 0 i 1,

[ ] 10 ≤=≤ µYΕ y como el predictor lineal puede tomar cualquier valor real, la identidad otra vez no parece razonable, se requiere mapear el predictor lineal en el intervalo 0,1.

Se suelen considerar principalmente tres funciones:

1. La función de link logit : ( )

iii η

µη+

=→

−

==11

logg μμ

μ.

2. La función de link probit : donde para cada observación se define,

( ) ( )iii μμη 1g −Φ== , la inversa de la probabilidad acumulada de la normal estándar

( ) ( )iii ηημ Φ== −1g .

3. La función de link log-log complementaria : donde para cada observación se define,

( ) ( )( )iii μ1μη −−== loglogg .

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 7 Curs 2. 01 4- 2. 01 5

TEMA 1: INTRODUCCIÓN MLGz. FUNCIONES DE LINK G(. ) (CONT. )

1-4.1 Links canónicos Cada distribución tiene una función de link especial que se denomina link canónico, para la cual existe un

estadístico suficiente YX T de dimensión igual a la dimensión de los parámetros en el predictor lineal

( ) βµη Tiii xg == .

• El link canónico se da cuando ( ) ( )iiiii pero θµθµη 'g b===

Los links canónicos para las distribuciones detalladas en apartados anteriores son pues:

• La identidad para la ley normal: θµη == .

• La función logaritmo para la ley de Poisson: ( )µµθη glog === .

• La función logit para la ley binomial ( ) mmB µ, : ( )µ

µµθη glog =

−

==1 .

El link canónico conlleva propiedades estadísticas deseables, particularmente para muestras pequeñas, sin embargo no hay ninguna razón que fuerce a los efectos sistemáticos de un modelo a ser aditivos en la escala fijada por la función de link canónica.

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 8 Curs 2. 01 4- 2. 01 5

1-5. MEDIDAS DE BONDAD DEL AJUSTE

Los modelos estadísticos permiten reemplazar los valores observados ( )n

T yy ,,y 1= por (fitted values), ( )nT µµ ˆ,,ˆˆ 1=µ .

En general, las iµ̂ s no son idénticas a las iy s y la cuestión fundamental reside en determinar si los valores estimados/ajustados son adecuadamente parecidos a las observaciones, es decir si el modelo estimado es adecuado.

El modelo más sencillo o modelo nulo, glm(Y~1) en R. En el extremo opuesto el modelo completo o modelo maximal con n parámetros,

tantos como valores observados.

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 9 Curs 2. 01 4- 2. 01 5

TEMA 1: INTRODUCCIÓN MLGz. MEDIDAS DE BONDAD DEL AJUSTE

( )µy,'D se define a partir de la función de verosimilitud expresada en términos de los valores medios

( )nT µµ ˆ,,ˆˆ 1=µ en lugar del parámetro canónico ( )n

T θθ ,,1=θ entre el modelo maximal y el modelo a diagnosticar:

( ) ( )y,,ˆy),(y,ˆy,' φφ µµ 22 −=D

• La devianza se define como la devianza escalada por el parámetro de dispersión:

( ) ( )φµµ ˆy,'ˆy, DD =

La expresión de la devianza para las distribuciones habituales de la familia exponencial son:

• Para la ley normal, ( ) ( )∑

−=n

iiiyD

2µ̂ˆy, µ.

• Para la ley de Poisson, ( ) ( ) ( )∑

−−

iii

ii yyyDD

2 µµ

ˆˆ

logˆy,ˆy,' µµ.

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 20 Curs 2. 01 4- 2. 01 5

TEMA 1: INTRODUCCIÓN MLGz. MEDIDAS DE BONDAD DEL AJUSTE

• Se puede observar que para la ley normal, la devianza es la suma de cuadrados de los residuos. Mientras que para ley de Poisson, la devianza coincide con el estadístico G2 de Bishop, Fienberg y Holland.

• Otra medida de discrepancia es el estadístico de Pearson generalizado que se define como:

( )[ ]∑

−=

i i

VyX

µµˆˆ

El estadístico de Pearson generalizado coincide con la devianza escalada para la distribución normal, para las leyes binomial y Poisson coincide con el estadístico original de Pearson.

• La distribución de la devianza y del estadístico de Pearson generalizado es una 2χ para

los modelos lineales normales clásicos, para otras distribuciones se pueden encontrar resultados asintóticos, pero en ese caso suelen ser de mejor calidad los resultados para el estadístico de Pearson.

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 21 Curs 2. 01 4- 2. 01 5

TEMA 1: INTRODUCCIÓN MLGz. MEDIDAS DE BONDAD DEL AJUSTE

1-5.1 Análisis de los Residuos

El análisis de los residuos es otra de las herramientas habituales para la diagnosis de la adecuacidad de un modelo estadístico a un conjunto de datos. El residuo es la diferencia entre el valor observado y el valor

ajustado por el modelo: ( )µµ ˆˆ −+= yy .

• El análisis de los residuos en los modelos normales clásicos es mucho más sencillo que en los modelos MLGz, la dificultad radica en la extensión de la definición de residuo a los modelos MLGz

Se han desarrollado distintas propuestas de definición de los residuos generalizados de un MLGz,

• Los residuos de Pearson, que son los residuos directos escalados con la estimación de la desviación estándar de la Y,

[ ]µµ

VyrP−

= y por tanto, ∑=

iPi

rX1

22.

• Los residuos de la devianza se interpretan como una medida de discrepancia en los ajustes de un modelo lineal generalizado, cada observación contribuye en la devianza, de manera que la suma de

contribuciones de todas las observaciones toma por valor la devianza ( ) ∑ ==

ni DirD

,,ˆy,

12µ ,

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 22 Curs 2. 01 4- 2. 01 5

1-6. INFERENCIA EN LOS MLGZ

1-6.1 Propiedades de los estimadores MV

Las propiedades más representativas de los estimadores máximo verosímiles son:

• Son asintóticamente centrados: [ ] ββ =ˆΕ . Para muestras pequeñas suelen ser sesgados.

• Son asintóticamente normales [ ] ( ) ( ) ( ) ( )I0,NIOV →−=−−MVMVMVMV θθθθθθ 2

121

• Fisher denominó información observada a menos la segunda derivada de ( )y,φθ, en el máximo (menos la hessiana en el caso multivariante) y es la inversa de la varianza asintótica del estimador. La varianza estimada del estimador máximo verosímil es,

[ ] ( )[ ] ( ) ( ) 11

212 −

−−

∂∂∂

−=∇−= MVji

MVMVMV θ

θθθ

θIOy,y,V

θθφ,

φ,

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 23 Curs 2. 01 4- 2. 01 5

TEMA 1: INTRODUCCIÓN MLGZ. INFERENCIA EN LOS MLGZ

• Son asintóticamente eficientes, es decir, de mínima varianza • Fisher denominó información esperada a menos la esperanza de la derivada segunda de

( )y,φθ, en el verdadero valor del estimador. La varianza estimada del estimador máximo verosímil es,

[ ] ( )[ ] ( ) ( ) 12112

−

−−

∂∂∂

−==∇−=ji

VVMV θθ

φ,φ,

y,EIy,V θθθθ

ΕΕ

La matriz de información esperada de Fisher se ha notado por ( ) ℑ=θIE .

• Si existe un estadístico suficiente, entonces el estimador máximo verosímil es suficiente.

• Son invariantes, si ( )θh es una función del estimador, entonces el estimador MV de ( )θh es ( )MVh θ .

Model Lineal Generalitzat

Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 24 Curs 2. 01 4- 2. 01 5

TEMA 1: INTRODUCCIÓN MLGz. INFERENCIA EN LOS MLGZ

1-6.2 Estadístico de Wald

La normalidad de los estimadores MV, ( )( )1−≈ θθθ IEN p ,ˆ , bajo ciertas condiciones de regularidad en muestras grandes ofrece la base para construir test de hipótesis a través del denominado estadístico de Wald:

• 00 θθ =:Η por ( ) [ ] ( ) 20

0 p

TVW χθθθθθ ≈−−=

− ˆˆˆ . Donde [ ] ( ) ( ) ( )θθθθ ˆˆˆ IOIEIEV ≈≈=−1

• Si ( )TTT21 θθθ ,= con dim( 2θ )=q<p i 0: =20 θΗ entonces [ ] 2

22 qTVW χθθθ ≈=

− ˆˆˆ .

• Si dim( 2θ )=1 entonces 020 =θ:Η se toma la raíz cuadrada del estadístico de Wald y se trata

habitualmente el cociente como una normal estándar: [ ] ( )102

2 ,ˆ

ˆN

Vz ≈=