Curs 2014-2015
Grau d’Estadística |UB - UPC | Lídia Montero i Josep Anton Sánchez
MODEL LINEAL GENERALITZAT
APUNTS DE CLASSE: TEMA 1
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 2 Curs 2. 01 4- 2. 01 5
TABLA DE CONTENIDOS
1-1. TEMA 1: INTRODUCCIÓN A LOS MODELOS LINEALES GENERALIZADOS __________________________________________________ 3
1-2. COMPONENTES DE LOS MODELOS LINEALES GENERALIZADOS _________________________________________________________ 8
1-3. DISTRIBUCIONES DE LA FAMILIA EXPONENCIAL _______________________________________________________________________ 10
1-4. FUNCIONES DE ENLACE O LINK G(.) ____________________________________________________________________________________ 15
1-4.1 LINKS CANÓNICOS ______________________________________________________________________________________________________ 17
1-5. MEDIDAS DE BONDAD DEL AJUSTE ____________________________________________________________________________________ 18
1-5.1 ANÁLISIS DE LOS RESIDUOS ______________________________________________________________________________________________ 21
1-6. INFERENCIA EN LOS MLGZ ____________________________________________________________________________________________ 22
1-6.1 PROPIEDADES DE LOS ESTIMADORES MV ___________________________________________________________________________________ 22 1-6.2 ESTADÍSTICO DE WALD __________________________________________________________________________________________________ 24
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 3 Curs 2. 01 4- 2. 01 5
1-1. TEMA 1: INTRODUCCIÓN A LOS MODELOS LINEALES GENERALIZADOS
Objetivo: Estudio de los métodos estadísticos implicados en el análisis de las relaciones entre medidas realizadas en grupos de estudio.
En medicina por ejemplo, se requiere del análisis de contajes en forma de proporciones o cocientes para estudiar la incidencia de una determinada enfermedad y específicamente como factores de edad, clase social, etc. y los tratamientos propuestos afectan en la incidencia de la enfermedad. Los modelos lineales generalizados permiten estudiar los patrones de variación sistemática de manera similar a como los modelos de regresión múltiple permiten estudiar los efectos conjuntos e interacciones de tratamientos y covariables.
Notación: Letras griegas para parámetros, mayúsculas para variables aleatorias, minúsculas para observaciones. Vectores un subrayado (o negrita), matrices dos subrayados (mayúsculas y negrita, en texto). Estimadores: letras latinas o letras griegas con ^.
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 4 Curs 2. 01 4- 2. 01 5
TEMA 1: INTRODUCCIÓN A LOS MODELOS LINEALES GENERALIZADOS
Terminología: • Variable explicativa o predictor.
• Variable de respuesta o dependiente.
• Modelos lineales generalizados: término acuñado por Nelder y Wedderburn en 1.972.
Clasificación de las variables: • Variables nominales o categóricas puras: binarias (dicotómicas) si tienen 2 categorías y politómicas si
tienen más de 2 categorías. Las categorías no tienen asociada ninguna semántica de orden. Son variables cualitativas.
• Variables ordinales. Son variables categóricas con noción de orden entre las categorías, habitualmente mas de 2. Suelen proceder de la discretización de variables continuas o son v.a. discretas. Son variables cualitativas.
• Variables continuas o cuantitativas. Asociadas a medidas teóricamente continuas.
• Factor: variable explicativa cualitativa. Las distintas categorías se denominan niveles.
• Covariable: variable explicativa continua.
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 5 Curs 2. 01 4- 2. 01 5
TEMA 1: INTRODUCCIÓN A LOS MODELOS LINEALES GENERALIZADOS
Clasificación de los métodos estadísticos de análisis: Variables Explicativas
Variable de respuesta Binaria Politómica Cuantitativa
Discreta Cuantitativa Continua
Normal Tiempo entre eventos
Binaria Tablas de contingencia
Regresión logística Modelos log-lineales
Tablas de contingencia
* Modelos log-lineales
Modelos log-lineales
Tests en medias de 2
grupos: t.test
Análisis de la Supervivencia
Politómicas Tablas de contingencia
Regresión logística Modelos log-lineales
Tablas de contingencia
Modelos log-lineales
Modelos log-lineales
ONEWAY, ANOVA
Análisis de la Supervivencia
Continuas Regresión logística * Modelos log-lineales
Regresión Múltiple
Análisis de la Supervivencia
Factores y covariables
Regresión logística * Modelos log-lineales
ANCOVA Análisis de la Supervivencia
Efectos Aleatorios
Modelos mixtos Modelos mixtos Modelos mixtos
Modelos mixtos Modelos mixtos
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 6 Curs 2. 01 4- 2. 01 5
TEMA 1: INTRODUCCIÓN MLGz. MODEL FITTING
Obtención de un modelo que permita reemplazar los datos y por el conjunto de valores estimados por el modelo µ̂ , de manera que los valores estimados minimicen algún criterio estadístico: norma 1, norma 2 (mínimos cuadrados), máxima verosimilitud, etc.
Los modelos estadísticos a tratar consideran en los datos una componente sistemática y una componente aleatoria.
Consideraciones varias: • Criterio de parsimonia.
• Rango de valores que facilitan buenas predicciones: model scope.
• Sobre la prepotencia del estadístico: Primero, todos los modelos son erróneos, aunque algunos son más útiles que otros.
• Los modelos estimados deben validarse mediante el análisis de los residuos y/o estadísticos de valoración de la calidad del modelo.
Se adoptará el esquema Box-Jenkins (1.986): MLGz incluye selección del link
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 7 Curs 2. 01 4- 2. 01 5
TEMA 1: INTRODUCCIÓN MLGz. MODEL FITTING (CONT.)
Estimación de los parámetros en los MLGz: máxima verosimilitud, en general, se requiere
una estimación de la varianza de los estimadores de los parámetros.
Criterio de bondad del ajuste la función lineal de scaled deviance (devianza escalada), discrepancia (observed data vs fitted data)
( ) ( )y,2y)(y,2y,' µµ −=D
donde ( ) ( )∑=
=n
iiiyf
1
θ,logy,µ , ( )nT µµ ,,1 =µ y ( )n
T yy ,,y 1= .
Predicción. Puntuales y por intervalo/región de confianza. Debe ir acompañada de
medidas de precisión.
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 8 Curs 2. 01 4- 2. 01 5
1-2. COMPONENTES DE LOS MODELOS LINEALES GENERALIZADOS
Los modelos lineales generalizados, MLGz en adelante, son una extensión de los modelos lineales clásicos.
Las observaciones ( )nT yy ,,y 1= , realización de un vector aleatorio ( )n
T YY ,,Y 1= , cuyas
componentes son estadísticamente independientes y distribuidas con medias ( )nT µµ ,,1 =µ :
• La componente aleatoria asume independencia de las componentes de ( )nT YY ,,Y 1= y
pertenencia a distribuciones de la familia exponencial de 1 parámetro, con [ ] µ=YΕ .
[ ]
[ ]nT
n
µµ
µ
1=
=Ε μ
μ
Y o
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 9 Curs 2. 01 4- 2. 01 5
1.2 COMPONENTES DE LOS MODELOS LINEALES GENERALIZADOS
• La componente sistemática representada por un vector η , el predictor lineal construido a partir de un número reducido de parámetros a estimar y regresores; parámetros
( )pT ββ ,,1=β y regresores ( )pXX ,,X 1= . Esta especificación responde, en
notación matricial a βη X= donde η es nx1, X es nxp y β es px1.
βXη
=
pnpn
p
n xx
xx
β
β
η
η
1
1
1111
• El vector µ está funcionalmente relacionado con el predictor lineal η , a través de la denominada función de enlace o link function, notada como g(. ), de manera ( )ii µη g= .
( ) ( )βxgβxg Ti
1Ti
−=↔= ii µµ
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 0 Curs 2. 01 4- 2. 01 5
1-3. DISTRIBUCIONES DE LA FAMILIA EXPONENCIAL
Sea Y una variable aleatoria y su función de probabilidad, si es discreta o su función de
densidad de probabilidad si es continua; en cualquier caso depende de un único parámetro θ .
La distribución pertenece a la familia exponencial si puede escribirse de la siguiente manera:
( ) ( )( ) ( )
+
−= φ
φθθφθ ,exp,, yc
abyyfY
Donde a(.), b(.) y c(.) son funciones específicas.
• Si φ es conocido entonces el modelo pertenece a la familia exponencial y se denomina al único parámetro θ : parámetro canónico.
• Si φ no es conocido, el modelo puede pertenecer o no a la familia exponencial (con 2 parámetros).
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 1 Curs 2. 01 4- 2. 01 5
TEMA 1: INTRODUCCIÓN MLGZ. FAMILIA EXPONENCIAL (CONT.)
• La función ( )φa suele ser de la forma: ( ) ℜ∈= ww
a φφ , donde φ se denomina el parámetro de dispersión.
• La función b(.) se denomina función cumulante.
• Sea la función de log-verosimilitud de una observación dada y perteneciente a la familia exponencial y considérese la función dependiente de θ y φ :
( ) ( ) ( )( ) ( )φφθθφθφθ ,,,log,, yc
abyyfy Y +
−==
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 2 Curs 2. 01 4- 2. 01 5
TEMA 1: INTRODUCCIÓN MLGz. FAMILIA EXPONENCIAL (CONT.)
Por ejemplo, sea la distribución normal:
( ) ( ) ( )
+−
−=
−−= 2
22
2
2
22log
212exp
2exp
21,, πσ
σσμμ
σμ
πσφθ 22
yyyyfY
donde ( ) 2σφφ ==a , ( )2µ
2θθ
22
==b ( es decir, µθ = ) y ( ) ( )
+−= πφ
φφ 2
21 2
log, yyc.
( ) ( ) ( )( ) ( ) ( )
+−
−=+
−== πφ
φφθθφ
φθθφθφθ 2
212 22
log,,,log,, yyyca
byyfy Y
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 3 Curs 2. 01 4- 2. 01 5
TEMA 1: INTRODUCCIÓN MLGz. FAMILIA EXPONENCIAL (CONT.)
• Por ejemplo, sea la distribución de Poisson:
( ) ( ) ( ) ( ) ( )
−
−=
−
−=−= !logexp!loglogexpexp
!,, yeyyy
yyf
y
Y 1θ
1µµµµφθ
θ
donde ( ) 1=φa , ( ) θθ eb = ( es decir, µθ log= ) y ( ) ( )!log, yyc −=φ .
( ) ( ) ( )( ) ( ) ( )!log,,,log,, yeyyc
abyyfy Y −−=+
−== θθφ
φθθφθφθ
.
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 4 Curs 2. 01 4- 2. 01 5
TEMA 1: INTRODUCCIÓN MLGz. FAMILIA EXPONENCIAL (CONT.)
• Por ejemplo, sea Y de distribución Binomial ( )π,mB de parámetros m i π , donde la observación es y y [ ] πµ m==YΕ
( ) ( ) ( ) ( ) ( )
( )
++−=
+
−−
−=
=
+−−−=−
= −
ym
emyym
my
ym
myyym
yf ymyY
loglogexplogloglogexp
logloglogexp,,
θθπ1
1π1
π
π1πππφθ
1
1
( ) 1=φa , ( ) ( )θθ emb += 1log , π1ππθ−
== loglogit , ( )
=
ym
yc log,φ y
( ) θ
θ
πθµe
emm+
==1
( ) ( ) ( )( ) ( ) ( )
++−=+
−==
ym
emyyca
byyfy Y loglog,,,log,, θθφφθθφθφθ 1
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 5 Curs 2. 01 4- 2. 01 5
1-4. FUNCIONES DE ENLACE O LINK G(.)
En la descripción de las componentes de un MLGz, el vector [ ] µ=YΕ , valor esperado de los datos y, está funcionalmente relacionado con el predictor lineal η , a través de la denominada función de link,
notada como g(. ), de manera ( )µη g= , donde η , µ son nx1.
Las funciones de link habitualmente empleadas son:
• En la distribución normal, [ ] µ=YΕ y ( ) iii µµη == g y por tanto el link es la identidad, lo que parece razonable porque el predictor lineal puede tomar cualquier valor real y la media también.
• En la distribución de Poisson, la media tiene que ser positiva [ ] µ=YΕ > 0 y como el predictor lineal puede tomar cualquier valor real, la identidad no parece razonable. Los modelos para contajes llevan de manera natural a efectos multiplicativos de los regresores, lo que puede expresarse como efectos
aditivos en los logaritmos de la media de los datos, ( ) ( )iii μlogg == µη y su inversa, para cada
dato ( ) ( )iii g η=η=μ exp1.
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 6 Curs 2. 01 4- 2. 01 5
TEMA 1: INTRODUCCIÓN MLGz. FUNCIONES DE LINK G(. ) (CONT. )
• En la distribución de binomial ( ) mmB µ, , la media debe tomar valores entre 0 i 1,
[ ] 10 ≤=≤ µYΕ y como el predictor lineal puede tomar cualquier valor real, la identidad otra vez no parece razonable, se requiere mapear el predictor lineal en el intervalo 0,1.
Se suelen considerar principalmente tres funciones:
1. La función de link logit : ( )
i
i
e
ei
i
iii η
η
µη+
=→
−
==11
logg μμ
μ.
2. La función de link probit : donde para cada observación se define,
( ) ( )iii μμη 1g −Φ== , la inversa de la probabilidad acumulada de la normal estándar
( ) ( )iii ηημ Φ== −1g .
3. La función de link log-log complementaria : donde para cada observación se define,
( ) ( )( )iii μ1μη −−== loglogg .
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 7 Curs 2. 01 4- 2. 01 5
TEMA 1: INTRODUCCIÓN MLGz. FUNCIONES DE LINK G(. ) (CONT. )
1-4.1 Links canónicos Cada distribución tiene una función de link especial que se denomina link canónico, para la cual existe un
estadístico suficiente YX T de dimensión igual a la dimensión de los parámetros en el predictor lineal
( ) βµη Tiii xg == .
• El link canónico se da cuando ( ) ( )iiiii pero θµθµη 'g b===
Los links canónicos para las distribuciones detalladas en apartados anteriores son pues:
• La identidad para la ley normal: θµη == .
• La función logaritmo para la ley de Poisson: ( )µµθη glog === .
• La función logit para la ley binomial ( ) mmB µ, : ( )µ
µµθη glog =
−
==1 .
El link canónico conlleva propiedades estadísticas deseables, particularmente para muestras pequeñas, sin embargo no hay ninguna razón que fuerce a los efectos sistemáticos de un modelo a ser aditivos en la escala fijada por la función de link canónica.
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 8 Curs 2. 01 4- 2. 01 5
1-5. MEDIDAS DE BONDAD DEL AJUSTE
Los modelos estadísticos permiten reemplazar los valores observados ( )n
T yy ,,y 1= por (fitted values), ( )nT µµ ˆ,,ˆˆ 1=µ .
En general, las iµ̂ s no son idénticas a las iy s y la cuestión fundamental reside en determinar si los valores estimados/ajustados son adecuadamente parecidos a las observaciones, es decir si el modelo estimado es adecuado.
El modelo más sencillo o modelo nulo, glm(Y~1) en R. En el extremo opuesto el modelo completo o modelo maximal con n parámetros,
tantos como valores observados.
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 1 9 Curs 2. 01 4- 2. 01 5
TEMA 1: INTRODUCCIÓN MLGz. MEDIDAS DE BONDAD DEL AJUSTE
( )µy,'D se define a partir de la función de verosimilitud expresada en términos de los valores medios
( )nT µµ ˆ,,ˆˆ 1=µ en lugar del parámetro canónico ( )n
T θθ ,,1=θ entre el modelo maximal y el modelo a diagnosticar:
( ) ( )y,,ˆy),(y,ˆy,' φφ µµ 22 −=D
• La devianza se define como la devianza escalada por el parámetro de dispersión:
( ) ( )φµµ ˆy,'ˆy, DD =
La expresión de la devianza para las distribuciones habituales de la familia exponencial son:
• Para la ley normal, ( ) ( )∑
=
−=n
iiiyD
1
2µ̂ˆy, µ.
• Para la ley de Poisson, ( ) ( ) ( )∑
=
−−
==
n
iii
i
ii yyyDD
1
2 µµ
ˆˆ
logˆy,ˆy,' µµ.
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 20 Curs 2. 01 4- 2. 01 5
TEMA 1: INTRODUCCIÓN MLGz. MEDIDAS DE BONDAD DEL AJUSTE
• Se puede observar que para la ley normal, la devianza es la suma de cuadrados de los residuos. Mientras que para ley de Poisson, la devianza coincide con el estadístico G2 de Bishop, Fienberg y Holland.
• Otra medida de discrepancia es el estadístico de Pearson generalizado que se define como:
( )[ ]∑
=
−=
n
i i
ii
VyX
1
22
µµˆˆ
El estadístico de Pearson generalizado coincide con la devianza escalada para la distribución normal, para las leyes binomial y Poisson coincide con el estadístico original de Pearson.
• La distribución de la devianza y del estadístico de Pearson generalizado es una 2χ para
los modelos lineales normales clásicos, para otras distribuciones se pueden encontrar resultados asintóticos, pero en ese caso suelen ser de mejor calidad los resultados para el estadístico de Pearson.
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 21 Curs 2. 01 4- 2. 01 5
TEMA 1: INTRODUCCIÓN MLGz. MEDIDAS DE BONDAD DEL AJUSTE
1-5.1 Análisis de los Residuos
El análisis de los residuos es otra de las herramientas habituales para la diagnosis de la adecuacidad de un modelo estadístico a un conjunto de datos. El residuo es la diferencia entre el valor observado y el valor
ajustado por el modelo: ( )µµ ˆˆ −+= yy .
• El análisis de los residuos en los modelos normales clásicos es mucho más sencillo que en los modelos MLGz, la dificultad radica en la extensión de la definición de residuo a los modelos MLGz
Se han desarrollado distintas propuestas de definición de los residuos generalizados de un MLGz,
• Los residuos de Pearson, que son los residuos directos escalados con la estimación de la desviación estándar de la Y,
[ ]µµ
VyrP−
= y por tanto, ∑=
=n
iPi
rX1
22.
• Los residuos de la devianza se interpretan como una medida de discrepancia en los ajustes de un modelo lineal generalizado, cada observación contribuye en la devianza, de manera que la suma de
contribuciones de todas las observaciones toma por valor la devianza ( ) ∑ ==
ni DirD
,,ˆy,
12µ ,
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 22 Curs 2. 01 4- 2. 01 5
1-6. INFERENCIA EN LOS MLGZ
1-6.1 Propiedades de los estimadores MV
Las propiedades más representativas de los estimadores máximo verosímiles son:
• Son asintóticamente centrados: [ ] ββ =ˆΕ . Para muestras pequeñas suelen ser sesgados.
• Son asintóticamente normales [ ] ( ) ( ) ( ) ( )I0,NIOV →−=−−MVMVMVMV θθθθθθ 2
121
• Fisher denominó información observada a menos la segunda derivada de ( )y,φθ, en el máximo (menos la hessiana en el caso multivariante) y es la inversa de la varianza asintótica del estimador. La varianza estimada del estimador máximo verosímil es,
[ ] ( )[ ] ( ) ( ) 11
212 −
−−
=
∂∂∂
−=∇−= MVji
MVMVMV θ
θθθ
θIOy,y,V
θθφ,
φ,
.
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 23 Curs 2. 01 4- 2. 01 5
TEMA 1: INTRODUCCIÓN MLGZ. INFERENCIA EN LOS MLGZ
• Son asintóticamente eficientes, es decir, de mínima varianza • Fisher denominó información esperada a menos la esperanza de la derivada segunda de
( )y,φθ, en el verdadero valor del estimador. La varianza estimada del estimador máximo verosímil es,
.
[ ] ( )[ ] ( ) ( ) 12112
−
−−
∂∂∂
−==∇−=ji
VVMV θθ
φ,φ,
y,EIy,V θθθθ
θ
ΕΕ
.
La matriz de información esperada de Fisher se ha notado por ( ) ℑ=θIE .
• Si existe un estadístico suficiente, entonces el estimador máximo verosímil es suficiente.
• Son invariantes, si ( )θh es una función del estimador, entonces el estimador MV de ( )θh es ( )MVh θ .
Model Lineal Generalitzat
Prof. Lídia Montero i Josep Anton Sánchez Pàg. 1 - 24 Curs 2. 01 4- 2. 01 5
TEMA 1: INTRODUCCIÓN MLGz. INFERENCIA EN LOS MLGZ
1-6.2 Estadístico de Wald
La normalidad de los estimadores MV, ( )( )1−≈ θθθ IEN p ,ˆ , bajo ciertas condiciones de regularidad en muestras grandes ofrece la base para construir test de hipótesis a través del denominado estadístico de Wald:
• 00 θθ =:Η por ( ) [ ] ( ) 20
1
0 p
TVW χθθθθθ ≈−−=
− ˆˆˆ . Donde [ ] ( ) ( ) ( )θθθθ ˆˆˆ IOIEIEV ≈≈=−1
.
• Si ( )TTT21 θθθ ,= con dim( 2θ )=q<p i 0: =20 θΗ entonces [ ] 2
2
1
22 qTVW χθθθ ≈=
− ˆˆˆ .
• Si dim( 2θ )=1 entonces 020 =θ:Η se toma la raíz cuadrada del estadístico de Wald y se trata
habitualmente el cociente como una normal estándar: [ ] ( )102
2 ,ˆ
ˆN
Vz ≈=
θ
θ.
Top Related