Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple...

15

Transcript of Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple...

Page 1: Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple Regresión logística múltiple Estrategias en la selección de modelos Introducción

Regresión logística simpleRegresión logística múltiple

Estrategias en la selección de modelos

Análisis de datos Categóricos

Regresión logística

Ms Carlos López de Castilla Vásquez

Universidad Nacional Agraria La Molina

2016-1

Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos

Page 2: Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple Regresión logística múltiple Estrategias en la selección de modelos Introducción

Regresión logística simpleRegresión logística múltiple

Estrategias en la selección de modelos

IntroducciónInterpretación de parámetrosInferencia

Introducción

Para una variable aleatoria respuesta Y y una variableexplicativa X , sea:

π(x) = Pr (Y = 1|X = x) = 1− Pr (Y = 0|X = x)

El modelo de regresión logística es:

π(x) =exp{β0 + β1x}

1+ exp{β0 + β1x}

que es equivalente a:

logπ(x)

1− π(x)= β0 + β1x

Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos

Page 3: Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple Regresión logística múltiple Estrategias en la selección de modelos Introducción

Regresión logística simpleRegresión logística múltiple

Estrategias en la selección de modelos

IntroducciónInterpretación de parámetrosInferencia

Interpretación de parámetros

El signo del coe�ciente β1 determina si π(x) aumenta odisminuye conforme x aumenta.

Si β1 = 0 entonces Y es independiente de X .

El odds se incrementa de forma proporcional a eβ1 por cadaunidad adicional en x .

El parámetro β0 no suele ser de mayor interés.

Si π(x) = 1/2 entonces x = −β0/β1. El valor anterior esllamado LD50 y corresponde a la dosis con un 50% deposibilidades de tener resultados letales.

La tangente en un punto particular de x tiene una pendienteigual a β1π(x)(1− π(x)).

Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos

Page 4: Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple Regresión logística múltiple Estrategias en la selección de modelos Introducción

Regresión logística simpleRegresión logística múltiple

Estrategias en la selección de modelos

IntroducciónInterpretación de parámetrosInferencia

Inferencia

Para el modelo con un solo predictor:

logπ (x)

1− π (x)= β0 + β1x

las pruebas de signi�cancia se enfocan en H0 : β1 = 0, lahipótesis de independencia.

Se pueden utilizar la prueba de Wald, score y razón deverosimilitud.

Para muestras grandes las tres pruebas anteriores danresultados similares, sin embargo se pre�ere usar la prueba derazón de verosimilitud ya que usa mayor información.

Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos

Page 5: Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple Regresión logística múltiple Estrategias en la selección de modelos Introducción

Regresión logística simpleRegresión logística múltiple

Estrategias en la selección de modelos

IntroducciónInterpretación de parámetrosInferencia

Inferencia

Los intervalos de con�anza suelen ser más e�cientes. Elintervalo de Wald es:

β1 ± z1−α/2EE(β1)

Un intervalo de con�anza para logitπ(x0) es:

β0 + β1x0 ± z1−α/2EE(β0 + β1x0)

donde EE es la raíz cuadrada de:

Var(β0 + β1x0) = Var(β0) + x20Var(β1) + 2x0Cov(β0, β1)

Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos

Page 6: Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple Regresión logística múltiple Estrategias en la selección de modelos Introducción

Regresión logística simpleRegresión logística múltiple

Estrategias en la selección de modelos

IntroducciónInterpretación de parámetrosInferencia

Ejemplo

Ejemplo: Pulso

Suponga que se desea determinar el efecto del peso (en libras)de un grupo de pacientes sobre su tasa de pulso en reposo.

La variable respuesta es Y = 1 si la tasa de pulso es alta yY = 0 si la tasa de pulso es baja.

Estimar el modelo de regresión logística simple y probar si latasa de pulso es independiente del peso del paciente.

Hallar un intervalo de con�anza del 95% para el coe�ciente deregresión asociado al peso del paciente.

Hallar un intervalo de con�anza del 98% para la probabilidadque tiene un paciente de 140 libras de tener una tasa de pulsoalta.

Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos

Page 7: Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple Regresión logística múltiple Estrategias en la selección de modelos Introducción

Regresión logística simpleRegresión logística múltiple

Estrategias en la selección de modelos

IntroducciónPruebas y medidas de bondad de ajusteResiduales

Introducción

El modelo de regresión logística simple se puede extender haciaun modelo que permita incluir múltiples variables explicativas.

Suponga que el modelo para π (x) = Pr(Y = 1), dondex = (x1, x2, · · · , xp), es:

log

(π (x)

1− π (x)

)= β0 + β1x1 + β2x2 + . . .+ βpxp

El parámetro βi representa el efecto de xi en el logaritmo del

odds para Y = 1 controlando las otras xj .

El efecto multiplicativo sobre el odds por cada unidad adicionalen xi es exp{βi}, manteniendo �jas las otras xj .

Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos

Page 8: Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple Regresión logística múltiple Estrategias en la selección de modelos Introducción

Regresión logística simpleRegresión logística múltiple

Estrategias en la selección de modelos

IntroducciónPruebas y medidas de bondad de ajusteResiduales

Ejemplo

Ejemplo: Diabetes

Se tiene información proveniente de un estudio con 768pacientes mujeres del Instituto Nacional de enfermedadesDigestivas, Diabetes y de Riñón.

Las variables independientes involucradas son: número deembarazos, concentración de glucosa en plasma en una pruebade tolerancia oral (mmol/L), presión arterial diastólica(mmHg), grosor del pliegue del tríceps (mm), suero de insulinaen dos horas (muU/ml), índice de masa corporal, funciónpedigrí de diabetes, edad (años).

La variable respuesta diabetes cuyo valor 1 es interpretadocomo prueba de diabetes positiva.

Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos

Page 9: Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple Regresión logística múltiple Estrategias en la selección de modelos Introducción

Regresión logística simpleRegresión logística múltiple

Estrategias en la selección de modelos

IntroducciónPruebas y medidas de bondad de ajusteResiduales

Prueba de Hosmer y Lemeshow

La idea es agrupar las observaciones en categorías de acuerdoa las probabilidades estimadas usando g grupos cada uno conaproximadamente la misma cantidad de observaciones.

Con 10 grupos, el primer grupo de conteos observados y suscorrespondientes conteos estimados esta formado con las n/10observaciones con las probabilidades más altas y asísucesivamente.

El valor estimado es la suma de las probabilidades estimadasen cada grupo.

Sea yij la observación j en el grupo de�nido por la partición i ,i = 1, 2, · · · , g y j = 1, 2, · · · , ni .

Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos

Page 10: Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple Regresión logística múltiple Estrategias en la selección de modelos Introducción

Regresión logística simpleRegresión logística múltiple

Estrategias en la selección de modelos

IntroducciónPruebas y medidas de bondad de ajusteResiduales

Prueba de Hosmer y Lemeshow

Sea πij las probabilidades estimadas con la data no agrupada.

El estadístico de Hosmer y Lemeshow es:

X 2HL =

g∑i=1

(∑j yij −

∑j πij

)2(∑j πij

)(1−

(∑j πij

)/ni

)cuya distribución es aproximadamente chi-cuadrado con g − 2grados de libertad.

Si el valor es grande puede ser evidencia de una falta de ajusteen el modelo.

Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos

Page 11: Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple Regresión logística múltiple Estrategias en la selección de modelos Introducción

Regresión logística simpleRegresión logística múltiple

Estrategias en la selección de modelos

IntroducciónPruebas y medidas de bondad de ajusteResiduales

Medidas de bondad de ajuste

Es posible comparar el logaritmo de la verosimilitud del modeloestimado y el modelo minimal que es aquel donde todas lasprobabilidades son iguales.

Sea πi las probabilidades estimadas para yi bajo el modelo deinterés.

La estadística chi-cuadrado de razón de verosimilitud es:

C = 2 (l(π, y)− l(π, y)) ∼ χ2p

Otra estadística usada es:

pseudoR2 =l(π, y)− l(π, y)

l(π, y)

Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos

Page 12: Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple Regresión logística múltiple Estrategias en la selección de modelos Introducción

Regresión logística simpleRegresión logística múltiple

Estrategias en la selección de modelos

IntroducciónPruebas y medidas de bondad de ajusteResiduales

Residuales de Pearson

El residual de Pearson es:

ei =yi − ni πi√ni πi (1− πi )

i = 1, 2, · · · , n

tal que X 2 =∑

e2i .

El residual estandarizado de Pearson es:

ri =ei√

(1− hi )

donde hi es el leverage obtenido de la matriz hat.

Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos

Page 13: Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple Regresión logística múltiple Estrategias en la selección de modelos Introducción

Regresión logística simpleRegresión logística múltiple

Estrategias en la selección de modelos

IntroducciónPruebas y medidas de bondad de ajusteResiduales

Residuales de Devianza

El residual de devianza es:

gi =√di × signo(yi − ni πi )

donde:

di = 2

[yi log

(yini πi

)+ (ni − yi ) log

(ni − yini − ni πi

)]Se cumple que:

G 2 =∑

g2i

Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos

Page 14: Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple Regresión logística múltiple Estrategias en la selección de modelos Introducción

Regresión logística simpleRegresión logística múltiple

Estrategias en la selección de modelos

IntroducciónForward, Backward y AIC

Introducción

¾Como seleccionar un modelo de regresión logística adecuado?

El proceso de selección se hace difícil cuando el número devariables explicativas aumenta, porque aumentan a su vez losposibles efectos e interacciones.

Hay dos objetivos contrapuestos: el modelo debe ser losu�cientemente complejo como para adaptarse bien a losdatos, sin embargo los modelos más simples son más fáciles deinterpretar.

¾Cuantas variables predictoras se deben introducir en elmodelo? Los datos se dice que son no balanceados en lavariable respuesta si y = 1 o y = 0 aparecen pocas veces.

Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos

Page 15: Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple Regresión logística múltiple Estrategias en la selección de modelos Introducción

Regresión logística simpleRegresión logística múltiple

Estrategias en la selección de modelos

IntroducciónForward, Backward y AIC

Forward, Backward y AIC

Lo mencionado anteriormente limitara el número de variablespredictoras cuyos efectos se pueden estimar de manera precisa.

Se considera que deberá haber al menos 10 observaciones de 1o 0 por cada variable predictora.

Por ejemplo, si y = 1 solo 30 veces en n = 1000 observaciones,el modelo no deberá tener más de tres variables predictoras,aunque el tamaño total de la muestra fuera grande.

Se pueden usar métodos de selección hacia adelante (forward),selección hacia atrás (backward), selección stepwise y elcriterio de informacion de Akaike (AIC).

Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos