ANALISIS DE REGRESION MAESTRIA EN CIENCIAS MEDICAS Alumna: Laura Laue Noguera.
-
Upload
jacinta-velasquez -
Category
Documents
-
view
222 -
download
0
Transcript of ANALISIS DE REGRESION MAESTRIA EN CIENCIAS MEDICAS Alumna: Laura Laue Noguera.
ANALISIS DE REGRESION
MAESTRIA EN CIENCIAS MEDICASAlumna:
Laura Laue Noguera
SINERGISMO
Interacción positiva en donde la combinación delos efectos de 2 ó más variables es mayor quelos efectos separados de cada variable.
Existen 2 modelos:• Modelo aditivo• Modelo multiplicativo
Modelo AditivoEfectos medidos como suma de tasas.Si hay sinergismoSignificativo para:
• magnitud absoluta de un problema de salud pública
• riesgo individual- Riesgo en hombres = 9.3 por 100,000- Riesgo en raza blanca = 2.5 por
100,000- Sinergismo: 9.3 + 2.5 = 11.8
Modelo Multiplicativo
Efectos medidos como multiplicación de razones.
Tiene implicaciones etiológicas.
No hay sinergismo.
• Riesgo en hombres = 5.9• Riesgo en raza blanca = 2.3• Sinergismo: 5.9 x 2.3 = 13.6
Pregunta ¿La asociación entre uso de anticonceptivosorales e infarto del miocardio, es confundida porla edad?
RO = 1.7 IC 95% = 1.1 – 2.8 P = 0.011
Anticonceptivos Orales
Infarto al Miocardio
Controles
SI 29 135
NO 205 1,607
Respuesta
La diferencia entre los hallazgos basados en los datoscrudos y los estratificados por edad, son evidencia de que la edad es un confusor.
Anticonceptivos
25 – 29 a. IM C
30 – 34 a. IM C
35 – 39 a. IM C
40 – 44 a. IM C
45 – 49 a. IM C
SI 4 62 9 33 4 26 6 9 6 5
NO 2 224 12 390 33 330 65 362 93 301
Odds 7.2 8.9 1.5 3.7 3.9
Pregunta
¿La asociación anticonceptivos orales-infarto es modificada por la edad?
Respuesta
Si, la asociación es modificada por la edad dadoque los odds son distintos en los diferentesgrupos de edad.
Variaciones de la muestra ???Prueba de heterogeneidad: P = 0.17 No hay heterogeneidad significativa.
Pregunta
¿Puedes sugerir alguna prueba para obteneruna razón de odds que anule la confusión por la edad?
Respuesta
Combinar los odds de estratos específicos
para obtener un promedio 4 (2.4 – 6.7) que no
se ve afectado por la confusión de la edad.
• Mantel – Haenszel
Estratificación
• La estratificación de variables también
se usa para controlar el efecto confusor.
• Los datos pueden ser estratificados por 2 o
más variables.
TIPOS DE REGRESION
El entendimiento de los procesos multivariadoses esencial para su uso inteligente.
Existen 3 tipos:• Análisis de Regresión Lineal• Análisis de Regresión Logística • Análisis de Regresión del Riesgo Proporcional
ANALISIS MULTIVARIADOS
Evalúa un set de variables en relación con unavariable dependiente, utilizando un modelomatemático (aditivo o multiplicativo) que representa el proceso en estudio.
Tiene 2 propósitos:– Evaluar la fuerza y significancia de la relación
entre un set de variables y la variable dependiente– Hacer predicciones de riesgo
ECUACION DE REGRESION
Y = a + b1X1 + b2X2 + …… + bkXk
X1 = primer variable independiente
b1 = primer coeficiente de regresión
k = número de variables independientes
INTERPRETACION DE LA ECUACIONVARIABLE INDEPENDIENTE COEFICIENTE DE REGRESION
Intersección - 8.3748
Edad 0.1603
IMC 1.3710
Raza - 0.9151
Género - 10.2746
Los autores estudian la forma en que el género, la edad y el grupo étnico afectan la relación entre el IMC y el porcentaje de grasa corporal (variable dependiente) .
REGRESION MULTIPLE
Método ideal para controlar diferencias basales y variables de confusión.
Similar a la regresión simple pero con 2 o másvariables independientes bajo estudio.
Las variables dependientes e independientesdeben ser numéricas.
Las variables nominales deben ser convertidasmediante un código.
REGRESIÓN LINEAL
Y = variable …………….Y* = valor de predicciónX = variable …………….X* = valor dado de Xa = punto de ………….b = ……….. de la líneae = error
REGRESION LINEAL MÚLTIPLEMétodo de elección cuando la pregunta deinvestigación predice el valor de una variable derespuesta.
Y = a + b1X1 + …… bkXk
Y = variable dependiente Y’ = valor predicho X = variable independiente a = punto de intersección b = coeficiente de regresión
Regresión lineal múltiple
Se basa en el modelo aditivo.
La variable dependiente tiene escala métrica.
Mide el cambio promedio en Y por unidad de
cambio en X.
Calcula Y.
REGRESIÓN LOGÍSTICA MÚLTIPLE
Modelo multiplicativo respecto al odds,aditivo respecto a log odds.
Suma de logaritmos de números =multiplicación de los números.
Log odds de enfermedad = a + b1X1 + ….. bkXk
Pr enf. = 1/{1 + exp[-(log odds de la enf.)]}
Regresión logística múltiple
• La variable de interés es dicotómica• Los valores de X pueden ser categóricos o
métricos• Si la variable tiene más de 2 categorías: una es la categoría de referencia y las otras son
variables fantasmas
Regresión logística múltiple
• Cambio de odds de la enfermedad cuando hay un cambio de una unidad en la variable independiente
• Calcula el log de odds y la probabilidad de la enfermedad
REGRESION DEL RIESGO PROPORCIONAL: COX
Modelo aditivo respecto al log del riesgo ymultiplicativo respecto al riesgo.
Relacionada con sobrevida.
Utiliza datos evento-tiempo.
Sobrevida se mantiene constante en el tiempo.
Log riesgo = log(a) + b1X1 + …… bkXk Pr sobrevida = exp {- exp[log (Ht) + biXi + bkXk
Regresión del riesgo proporcional
• Ht = riesgo acumulado en función del tiempo• Cambio en el riesgo de un evento cuando hay
un cambio de una unidad en la variable independiente
• Calcula el log del riesgo y la probabilidad de sobrevida
• Similar a Kaplan-Meier, excepto por el ajuste de efecto de otras variables
Regresión de riesgo proporcional
Para evaluar la conveniencia del modelo:• Graficar• Comparar las curvas log-menos-log• La conveniencia del modelo es cuestionada si las curvas no son paralelas
VALIDEZ DE MODELOS
• Probándolo en varias muestras• Coeficiente de correlación múltiple al
cuadrado (R2)• Goodness-of-fit-test• Razón de probabilidad de Chi cuadrada
Análisis de regresión logística:anticonceptivos orales e infarto
Variable Coeficiente E E P Razón de odds (IC 95%)
Anticonceptivos(0 = no, 1 = si)
1.188 0.206 0.032 3.28 (1.97 – 5.47)
Edad (años)
0.152 0.014 0.0011 1.16 (1.13 – 1.20)
1 – 24 cigarros(0 = no, 1 = si)
1.125 0.209 0.020 3.08 (2.04 – 4.64)
25 cigarros/día(0 = no, 1 = si)
2.137 0.208 0.0013 8.47 (5.64 – 12.74)
Constante - 9.283 0.629
Pregunta
Explique el resultado de 8.47 de la tabla. ¿Sabes como se obtuvo?
Respuesta
8.47 es el OR de las mujeres que fuman 25cigarrillos/día, comparado con las que nofuman, manteniendo constantes las otrasvariables.Se obtiene por el exponencial del coeficiente
2.137, e 2.137 = 8.47
Pregunta
¿Qué asociación con infarto es más fuerte, edad o anticonceptivos orales?
Respuesta
El coeficiente y OR para edad expresa el efectode 1 año de diferencia en la edad, cuando lasotras variables permanecen sin cambio.
Para una diferencia de 20 años: 0.152 X 20 = 3.04 (ln de 20.9)El valor P no es para medir fuerza de asociación.
Pregunta
Los resultados de la tabla ¿señalan que la asociación anticonceptivos – infarto esconfundida por el tabaquismo?¿Qué información necesitas?
Respuesta
Para saber si la asociación anticonceptivosinfarto está confundida por el tabaquismo,comparar los hallazgos con los de otro análisis en el que el tabaquismo no estécontrolado o sea excluido.
Pregunta
Los resultados ¿señalan que la asociaciónanticonceptivos-infarto está modificada por eltabaquismo?
La tabla no dice nada sobre modificación deefecto.
Pregunta
Acorde a los resultados de la tabla, ¿cuál es elOR a favor de infarto, cuando las mujeres usananticonceptivos orales y fuman 25 cigarros aldía, en relación con las que no fuman?
Respuesta
El modelo logístico múltiple es multiplicativo:OR para uso de anticonceptivos = 3.28OR para tabaquismo = 8.473.28 X 8.47 = 27.8
OR de la asociación anticonceptivos orales – infarto: 3 modelos de regresión logística
Variables incluidas en el modelo Razón de odds
Anticonceptivos orales 1.68
Anticonceptivos orales y edad 3.81
Anticonceptivos, edad y tabaquismo 3.28
Pregunta
¿Qué procedimiento se utiliza para obtenerestos datos?
Compare esta tabla con la de Mantel-Haenszel
Respuesta
• Diferentes modelos logísticos pueden proveer diferentes razones de odds; OR expresa la fuerza de asociación después de controlar los efectos de las otras variables del modelo.
• La adición de nuevas variables puede cambiar los resultados.
• Los OR de la tabla anterior son similares a los de M-H: 4 controlado solo por edad, 3.3 controlado por edad y tabaquismo.
OR ajustados por edad. Asociación anticonceptivos – infarto por uso de anticonceptivos y tabaquismo: modelo de no interacción y de interacción
Cigarrillos/día Anticonceptivos NO Anticonceptivos SI
Ninguno 1.0 3.6
1 – 24 3.3 10.1
25 8.5 27.8
Cigarrillos/día Anticonceptivos NO Anticonceptivos SI
Ninguno 1.0 3.6
1 – 24 3.1 3.7
25 8.0 40.3
Conclusión de Autores
• El efecto combinado de anticonceptivos y tabaquismo fue mayor que el encontrado por los efectos separados de estos factores.
• Importante incremento de casos de infarto por el efecto del tabaquismo sobre el uso de anticonceptivos.
Pregunta
¿Los resultados del análisis logístico múltiple,corroboran esta conclusión?
Respuesta
• El modelo y las interacciones muestran un efecto sinergista, sin embargo, los términos de interacción no son estadísticamente significativos.
• Se sugiere que la interpretación se base en el modelo de no interacción, dado que el de interacción indica que los anticonceptivos incrementan el riesgo de infarto en no y grandes fumadores, pero no en moderados. Esto es imposible.
OR relación baja clase social y bajo nivel educativo con obesidad: 4 modelos de regresión
logística
Variables del estudio OR Clase social OR Educación
Clase social 0.30
Educación 0.30
Clase social, educación 0.50 0.50
Clase social, educación eInteracción de ambas
0.50 0.50
Pregunta
Relación clase social y educación (dicotómicas:alta y baja) con obesidad.El 90 % de gente con baja categoría en unavariable, tuvo también baja en la otra.Lo mismo ocurrió en 90% de los de categoríaalta.
¿Cómo pueden explicarse las diferencias?
Respuesta
• La fuerza de asociación de un modelo de regresión logística puede variar cuando el modelo es cambiado
• La asociación con clase social y educación es débil (OR cercana a 1) cuando las variables fueron incluidas
Análisis de regresión logística: anticonceptivos orales e infarto miocárdico
Variable Coeficiente EE P OR (IC 95%)
Anticonceptivos orales(0 = no, 1 = si)
1.188 0.206 0.032 3.28 (1.97 – 5.47)
Edad (años) 0.152 0.014 0.0011 1.16 (1.13 – 1.20)
1 – 24 cigarros/día(0 = no, 1 = si)
1.125 0.209 0.020 3.08 (2.04 – 4.64)
25 cigarros/día(0 = no, 1 = si)
2.137 0. 208 0.0013 8.47 (5.64 – 12.74)
Constante - 9.283 0.629
Pregunta
¿Sabes como calcularon el riesgo de tenerinfarto en los siguientes 10 años, para una mujer de 30 años que usa anticonceptivos y fuma 30 cigarros al día?
¿Cómo evalúa la validez del modelo comopredictor de riesgo?
Respuesta
• Log odds a favor de infarto:
- 9.283 + (1.188 x 1) + (0.152 x 30) + (1.125 x 0) +
2.137 x 1) = 1.398
• Riesgo de la enfermedad: 1/[1 + exp(1.398) = 1/(1 + 4.047) = 0.198 ó 19.8%
• La validez del modelo se obtiene aplicándolo a otras
muestras. También podemos utilizar chi cuadrada.
Riesgo logístico múltiple: datos predichos y observados. Incidencia de diabetes
Riesgo (cuartil) Casos esperados Casos observados
1 72.1 70
2 31.3 28
3 19.5 23
4 10.5 10
Pregunta
¿La tabla muestra una adecuada predicción de datos?
Respuesta
• Si, por inspección visual. Debe confirmarse con goodness-of-fit test
• La prueba Hosmer-Lemeshow da p = 0.58• No existe una diferencia estadísticamente
significativa entre lo observado y la predicción
Razón de riesgo para publicación: Regresión de Cox
Tipo de análisis RR (IC 95%)
Univariado 2.32 (1.47 – 3.66)
Multivariado 2.34 (1.47 – 3.43)
Pregunta
¿El análisis de regresión del riesgo proporcional fue apropiado para este estudio?
Respuesta
La regresión de Cox es adecuada para elestudio.
Se asume que el RR permanece constante a diferentes tiempos, pero no hay evidencia de esto.
Pregunta
¿Qué sucedió con los estudios no publicados?
El análisis de regresión puede tener datoscensurados.Todos los estudios fueron considerados(incluyendo no publicados).
Pregunta
¿Qué significa una razón de riesgo de 2.32?
RO de 2.32 significa que el riesgo depublicación fue 2.32 veces mayor paraestudios significativos, en relación con los no significativos.
Pregunta
¿El tipo de estudio y la consistencia externa, endonde actúan como factores confusores?
No pueden considerarse confusores.
Pregunta
¿El análisis de tablas de vida de Kaplan Meier, ha sido utilizado en vez de la regresión de Cox?
Kaplan Meier analiza la sobrevida de un sologrupo.
EjercicioEstudio de 40,000 bebés mostró bajo peso alnacer, sobre todo en madres con riesgo deenfermedad cardiovascular.El análisis de Cox reportó RR = 2.26 con IC 95%1.48 – 3.41 para la diferencia de l kg.Ajustando el modelo por estrato marital ysocioeconómico, RR = 2.22 con IC 95%1.46 – 3.38
Pregunta¿Qué información fue requerida para esteanálisis?
• Tiempo de sobrevida del binomio bebé-madre
• Conocer si la muerte ocurrió por enf. cardiovascular o no
• Peso al nacer, estado socioeconómico y marital
Pregunta
Comparando los bebés pequeños con los de 2 kg ó más, ¿Qué tan alto fue el riesgo demuerte cardiovascular en sus madres?Controlando el estado socioeconómico y elmarital.
Respuesta
Razón de riesgo ajustada para niños condiferencia de peso de 1 kg = 2.22Razón de riesgo para diferencia de 2 kgs = 2.22 x 2.22 = 4.93
Pregunta
¿Cómo explica estos hallazgos?El RR para otras causas importantes de muertefue: 1.33 para cáncer y 1.06 para muerteviolenta o accidental.
Respuesta
Los autores sugieren 3 explicaciones:• Condiciones de pobreza llevan a bajo peso y riesgo de muerte• Muerte materna, perfil nutricional y de
conducta, pueden influir en el peso del bebé y la mortalidad cardiovascular
• Factores genómicos y epigenéticos
Ejercicio
4,000 niños con edad de 16 años o menores,sometidos a dieta, fueron seguidos paraidentificar muerte y sus causas. El análisis de Cox mostró asociación positivaentre ingesta de energía y riesgo de cáncer.
Asociación ingesta de energía en la infancia y mortalidad en adultos: RO por 239 kcal/día
Causa de muerte Razón de riesgo IC 95 %
Todas las causas 1.04 0.99 – 1.09
Todos los cánceres 1.15 1.06 – 1.24
Cáncer no relacionado a tabaquismo 1.20 1.07 – 1.34
Cáncer relacionado a tabaquismo 1.09 0.86 – 1.23
Causas distintas al cáncer 0.99 0.93 – 1.05
Pregunta
¿Cuáles RO son estadísticamente significativas?
¿Qué porcentaje del incremento del riesgo de
cáncer no ligado a tabaquismo se asocia con
ingesta de 1,000 kcal por día?
Respuesta• La asociación con todos los tipos de cáncer y
aquellos no relacionados con tabaquismo son estadísticamente significativos. El IC no está a ambos lados del 1
• Un incremento de 239 kcal en la ingesta tiene RO de 1.20 para Ca no relacionado a tabaco. La ingesta de 1,000 kcal tiene un riesgo de 1.2 x 1.2 x 1.2 x 1.2 = 2.07 ó un incremento de 107%
Ejercicio
Estudio de posibles factores de riesgo para
infarto del miocardio, realizado en 3,000
hombres de edad media, libres de enfermedad
coronaria.
Factores de riesgo e infarto miocárdico
Factor de riesgo RR IC 95 % P
Tabaquismo(años)
1.40 1.15 – 1.70 0.0008
Niveles de vitamina C(< 2 mg/L vs > 2 mg/L)
2.55 1.26 – 5.17 0.0095
Ingreso de oxígeno(ml/min x kg)
0.65 0.47 – 0.92 0.0137
Historia familiar de enfermedad coronaria (si vs no)
1.86 1.14 – 3.02 0.0129
Mercurio en cabello (> 2 mcg/g vs < 2 mcg/g)
1.68 1.01 – 2.81 0.0448
Apolipoproteina B sérica (g/L) 1.29 1.01 – 1.66 0.0454
Pregunta
¿Qué factores de riesgo fueron asociados con
mayor fuerza con el riesgo de infarto?
Respuesta
Los resultados no permiten una decisión dadoque muestran diferentes categorías y unidadesde medición.
Ejercicio
Datos del Sistema Nacional de Salud: • Relación entre parientes fumadores y
desarrollo del niño• Incluyó 5,903 niños entre 5 a 11 años• Variable dependiente: score DE (talla del niño - talla media de niños de la misma
edad, sexo y ciudad) / desviación estándar del grupo
Pregunta
¿Por qué se utilizó el score de desviaciónestándar como variable dependiente en vez dela talla?
Respuesta
El z score o score DE sirve para controlar: • El efecto confusor de edad, sexo y ciudad• La dispersión de la muestra• La tendencia central de la distribución
RESIDUALES
• Diferencia entre los valores reales y los predeterminados por el análisis de regresión
• Medida no influenciada por atributos biológicos
• Puede ser utilizada como variable dependiente
• Controla la confusión• Sirve para validar modelos
Variables Independientes
• Tabaquismo en casa: tabaquismo pasivo• Tabaquismo en el embarazo• Peso al nacer• Talla de papá y mamá• Número de hermanos• Clase social• Duración del embarazo• Indice personas - cuarto
Pregunta
¿Por qué fueron incluidas las variables norelacionadas directamente con tabaquismo?
Porque se pensó que tienen efecto confusor en la asociación tabaquismo – talla.
Pregunta
Un análisis de regresión múltiple con las mismas
variables, mostró una R = 0.56.
¿Qué nos dice ese valor en relación con la
validez del modelo?
Respuesta
R2 representa la varianza de la variabledependiente, que es explicada por el set devariables independientes.El cuadrado de 0.56 es 0.31 ó 31%.Este valor es mayor que el de la mayoría deestudios epidemiológicos.
Varianza de talla explicada por tabaquismo en hogar, embarazo o ambos:
Regresión lineal múltiple
Variables del modelo Tabaquismo en casa
Tabaquismo en embarazo
Ambos tabaquismos
Tabaquismo en casa, tabaquismo en embarazo
1.34 % 0.67 % 1.41 %
Tabaquismo en casa, tabaquismo en embarazo, las demás variables
0.23 % 0.14 % 0.26 %
Pregunta
¿Qué nos dice la discrepancia entre los valores
de las 2 primeras columnas y la tercera?
Respuesta
Cuando variables no ligadas a tabaco no sonconsideradas:
1.41 – 0.67 = 0.74% = tabaquismo en casa1.41 – 1.34 = 0.07% = tabaquismo en embarazo1.41 – 0.74 = 0.60% = tabaquismo compartido
Cuando otras variables son incluidas:tabaquismo en casa = 0.12%tabaquismo en embarazo = 0.03%tabaquismo compartido = 0.11%
Respuesta
Discrepancia en la varianza explicada porfactores del tabaquismo, juntos o separados,traducen que los efectos se solapan.Coeficiente de correlación por tabaquismomaterno: 0.64, no se puede determinar queparte es atribuida a tabaquismo actual y cual al del embarazo (multicolinealidad).
Pregunta
¿Qué nos dice la discrepancia entre las 2primeras columnas?
¿Podemos concluir que tales diferencias son debidas a un efecto confusor?
Respuesta
• Reducción en la varianza explicada por una variable independiente, cuando se incluyen otros factores en el modelo, puede significar que aquellos son confusores o causas intermedias.
• Causa intermedia: peso al nacer.Tabaquismo en embarazo se asocia a bajo peso al nacer y éste a baja estatura.
Pregunta
Clase social y duración del embarazo fueronomitidas en el análisis por no mostrarsignificancia sobre la talla.
¿Cuál sería una razón más válida para omitirestas variables?
Respuesta• Ausencia de asociación estadísticamente
significativa no implica que la variable no sea un confusor.
• No existen criterios establecidos sobresignificancia estadística para decidir:
- potenciales confusores a controlar- cuando es suficiente para producir confusión
Relación tabaquismo de parientes – talla de los niños (SDE): Coeficientes de regresión lineal
Variables del modelo Tabaquismo en casaCoeficiente P
Tabaquismo en embarazoCoeficiente P
Tabaquismo en casa - 0.0099 < 0.001
Tabaquismo en embarazo - 0.0122 < 0.001
Tabaquismo en casa y embarazo
- 0.0086 < 0.001 - 0.0045 NS
Tabaquismo en casa y embarazo + otras variables
- 0.0034 < 0.01 - 0-0028 NS
Pregunta
Explique que representan los coeficientes deregresión.
¿Cuáles son los hechos?
Respuesta
Coeficiente de regresión múltiple: cambio en lavariable dependiente debido a un cambio deuna unidad en la variable independiente, con nocambios en las demás variables del modelo.
• Cada cigarrillo fumado en casa, está asociado a
una disminución de la talla de 0.0099 desviaciones
estándar.
respuesta
• Cuando tabaquismo en embarazo es adicionado al modelo, el efecto específico conectado con tabaquismo en casa (sin área de traslape), es 0.0086
• La talla disminuye 0.0034 desviaciones estándar por cada cigarrillo fumado, cuando se adicionan las otras variables y se ajustan sus efectos
Pregunta
¿Podemos concluir que el tabaquismo en el
embarazo no afecta la talla de los niños?
Respuesta
No debemos concluir eso, sin embargo, losresultados no nos dicen como se afecta latalla de los niños por el tabaquismo durante el embarazo.• Ausencia de significancia estadística no
traduce que una asociación sea un hallazgo necesariamente al azar.
Pregunta
¿Qué explicaciones sugiere para la asociación
entre tabaquismo pasivo y talla de los niños?
RespuestaLa asociación es estadísticamente significativa yse hace aparente cuando expresiones genéticas,atributos biológicos y circunstancias sociales, semantienen constantes en el análisis.Asociación causal indirecta mediada por:
- consumo de alimentos- incremento de enfermedades respiratorias- efecto directo del tabaco en el crecimiento
Pregunta
¿Cuál es la utilidad de este estudio?
Respuesta:- identificar factores que afectan el
crecimiento- disminuir la prevalencia de tabaquismo
Si tiene niños ……. no fume
Tabaquismo en casa de 50 cigarrillos diariosentre todos, reduce la talla de los niños en 0.17desviaciones estándar (50 x 0.0034), lo cualequivale a 1 cm.
GRACIAS