Capitulo_5

27
Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata ___________________________________________________________________ 65 CAPITULO 5: MODELOS DE REGRESIÓN 5.1 Introducción En el presente capitulo se presenta los modelos de regresión paramétricos más usados en Análisis de Supervivencia y Confiabilidad. 5.2 Modelos de Regresión Paramétrico En muchas situaciones prácticas involucra poblaciones heterogéneas y es importante considerar la relación del tiempo de vida y otros factores. Una manera es a través del modelo de regresión en el cual la dependencia del tiempo de vida sobre variables concomitante es explícitamente reconocida. Existen tres tipos de modelos de regresión ampliamente usados en el análisis de tiempo de vida, los cuales son: - Modelos de Ubicación-Escala para T: incluye normal, valor extremo más pequeño y logística - Modelos de Ubicación-Escala para lnT: incluye exponencial, lognormal, weibull y loglogística - Modelos de Riesgos Proporcionales: incluye exponencial, weibull y modelos de Cox 5.2.1 Modelos de Ubicación-Escala En el modelo de ubicación-escala para T, se considera T (tiempo de vida) dado ~ x , tiene una distribución con parámetro de ubicación ~ x y parámetro de escala 0 . En este caso se considera: ~ 0 1 ; , ; , , , , k t x PT t Ft Ft Donde 0 1 1 ~ i k ik x x x , no depende de i x , la elección de depende de la distribución que se elija. De esta forma, si Y T , entonces se tiene el modelo que puede ser descrito como ~ Y x 0 1 1 i k ik Y x x donde, tiene una distribución independiente de ~ x . El cuantil p para este modelo puede ser escrito: 1 1 0 1 1 ~ p i k ik y x p x x p Donde es la función de distribución, los cuales puede ser normal, logística y valor extremo mas pequeño. La función de verosimilitud para una muestra de n observaciones de unidades independientes con censura a la derecha tiene la forma:

description

MODELOS DE REGRESION

Transcript of Capitulo_5

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

65

CAPITULO 5: MODELOS DE REGRESIÓN 5.1 Introducción

En el presente capitulo se presenta los modelos de regresión paramétricos más usados en Análisis de Supervivencia y Confiabilidad. 5.2 Modelos de Regresión Paramétrico En muchas situaciones prácticas involucra poblaciones heterogéneas y es importante considerar la relación del tiempo de vida y otros factores. Una manera es a través del modelo de regresión en el cual la dependencia del tiempo de vida sobre variables concomitante es explícitamente reconocida. Existen tres tipos de modelos de regresión ampliamente usados en el análisis de tiempo de vida, los cuales son: - Modelos de Ubicación-Escala para T: incluye normal, valor extremo más pequeño y logística - Modelos de Ubicación-Escala para lnT: incluye exponencial, lognormal, weibull y loglogística

- Modelos de Riesgos Proporcionales: incluye exponencial, weibull y modelos de Cox 5.2.1 Modelos de Ubicación-Escala

En el modelo de ubicación-escala para T, se considera T (tiempo de vida) dado ~x , tiene una

distribución con parámetro de ubicación ~x y parámetro de escala 0 . En este caso se

considera:

~

0 1; , ; , , , ,k

t xP T t F t F t

Donde 0 1 1~

i k ikx x x , no depende de ix , la elección de depende de la

distribución que se elija. De esta forma, si Y T , entonces se tiene el modelo que puede ser descrito como

~

Y x

0 1 1i k ikY x x

donde, tiene una distribución independiente de ~x . El cuantil p para este modelo puede ser escrito:

1 1

0 1 1~

p i k iky x p x x p

Donde es la función de distribución, los cuales puede ser normal, logística y valor extremo mas pequeño. La función de verosimilitud para una muestra de n observaciones de unidades independientes con

censura a la derecha tiene la forma:

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

66

1

~ ~

~ ~1

1, , ;datos 1

i i

i i i in

i

i

y x y x

L L

Donde 1i si la observación es falla y 0i si la observación es censurada, y son las

funciones de densidad y distribución, respectivamente. Estas distribuciones puede ser normal, valor extremo más pequeño o logística, para las regresión normal, valor extremo y logística, respectivamente. 5.2.2 Modelo de Ubicación Escala para lnT

En el modelo de ubicación-escala para lnT, se considera TY ln dado ~x , donde T es el tiempo de

vida, tiene una distribución con parámetro de ubicación ~x y parámetro de escala 0 . En este

caso se considera:

~

0 1

ln; , ; , , , ,k

t xP T t F t F t

Donde 0 1 1~

i k ikx x x , no depende de ix , la elección de depende de la

distribución que se elija, las cuales pueden ser normal (caso de la regresión lognormal), valor extremo mas pequeño (caso de regresión Weibull) y Logística (caso de la regresión loglogística). De esta forma el modelo puede ser descrito como

~

ln( )T Y x

donde, tiene una distribución independiente de ~x . Particularmente, cuando

~~~ xx

se tiene el siguiente modelo

~~

xY (*)

También se puede observar que:

~ ~

x

T e

(**)

por esta razón al modelo dado en (*) se le llama también modelo acelerado de tiempo de falla. La

razón de este nombre es que se puede observar en (**) que los efectos de la covariables es multiplicativo sobre la escala del tiempo. Ejemplos

- Para el modelo exponencial: se tiene la siguiente función de densidad de T dado ~x

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

67

0,

1exp

1|

~

~

t

xxxtf

donde ~x es el vector de variables regresoras tal que

~~| xTEx . Se propone varias formas

funcionales, pero la más útil es

~~~

exp xx ,

con esta propuesta de funcional, se puede demostrar que TY ln tiene la siguiente función de densidad:

yxyxy ,expexp~~~~

alternativamente, se puede escribir:

zxY ~~

donde z tiene una distribución valor extremo estándar con función de densidad

zez z ,exp .

- Para el modelo Weibull: si se considera que la variable T dado ~x siguiente función de densidad

0 para exp

~

1

~~

tx

t

x

t

xtf

Entonces, se puede demostrar que la variable TY ln tiene la siguiente función de densidad:

y

xyxyxyf ,expexp

1 | ~~

~

donde ~~

ln xx . La función que más frecuentemente se usa es

~~~ xx

Luego, el modelo puede ser escrito como:

zxY ~~

donde z tiene una distribución valor extremos estándar con función de densidad

zez z ,exp .

Los estimados de los parámetros se obtienen por el método de máxima verosimilitud. De manera similar se obtiene para el caso del modelo log-normal.

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

68

5.2.3 Modelos de Riesgos Proporcionales

Un modelo de regresión es de riesgos proporcionales, si tiene la propiedad de que individuos diferentes tienen funciones de riesgos proporcionales. Esto es, la razón de las funciones riesgos

para dos individuos con vectores de variables regresoras 1~

X y 2~

X , respectivamente:

2~

1~

|

|

Xth

Xth

no varía con t . Luego, esto implica la función riesgo de T , dado ~x , puede ser escrita de la forma:

~

0~

| xgthxth

donde: 0h y g puede involucrar parámetros desconocidos; th0 puede ser interpretado como una

función riesgo base de partida, siendo ésta una función riesgo para un individuo con 1~xg .

Ejemplos:

- Una familia particular, puede obtenerse haciendo ppxxxxxg

2211~~~

expexp ,

entonces

~~

0~

|x

ethxth

donde: los j son coeficientes de regresión desconocidos. Este modelo será útil en modelo de

regresión no paramétrico para tiempo de vida (modelo de riesgos proporcionales de Cox). - Se sabe que la función de densidad, supervivencia y riesgo para un modelo Weibull está dado por

0 para exp

1

ttt

tf

,

ttS exp , y

1

tth

luego, si se hace que sea una función de ~x tal como

~x , entonces se cumple con el principio:

1~

2~

2~

1~

|

|

x

x

xth

xth

5.4 Modelo de Regresión Exponencial

Para el modelo exponencial: se tiene la siguiente función de densidad de T dado ~x

0,exp

1|

~

~

t

x

t

xxtf

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

69

Donde: ~x es el vector de las variables regresoras, tal que

~~| xTEx . Se propone varias formas

funcionales, pero la más útil es

~~~

exp xx ,

con esta propuesta de la funcional, se puede demostrar que TY ln tiene la siguiente función de densidad:

yxyxy ,expexp~~~~

Si z y x , z tiene una distribución valor extremo estándar con función de densidad

zez z ,exp . Luego de puede escribir el modelo de la siguiente forma:

zxY ~~

. La función de supervivencia está dado por:

~ ~

/ exp expS y x y x

Estimación de Parámetros

Suponga que asociado con cada individuo se encuentra un tiempo de falla o un tiempo de censura it

y un vector de regresión 1i i ipx x x . La notación i D y i C se usará para denotar si un

individuo i pertenece al grupo para el cual it es tiempo de falla o tiempo de censura,

respectivamente. Luego, la función de verosimilitud para una muestra censurada basada sobre n individuos es

~ ~ ~~ ~ ~

exp exp exp expi i i i i i

i D i C

L y x y x y x

Así

~ ~~ ~1

ln expn

i i i i

i D i

L y x y x

De esta manera la primera y segunda derivada del ln L son:

~~1

lnexp

n

ir ir i i

i D ir

Lx x y x

, para 1, ,r p

2

~~1

lnexp

n

ir is i i

ir s

Lx x y x

, para , 1, ,r s p

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

70

La ecuaciones máximo verosímiles ln

0r

L

( 1, ,r p ) se resuelve fácilmente por el método

de Newton-Raphson. La matriz de información observada está dado por:

2

0

ˆ

ln

r s

L

I

Interpretación de parámetros

Desde que la distribución exponencial tiene una función riesgo constante es fácil demostrar que la función riesgo en cualquier vector de covariable x es exponencial (independiente de t ):

0 1 1 p px xh t e

x

De esta manera fácilmente se obtiene un modelo de riesgos proporcionales con la siguiente función de supervivencia:

h t tS t e

xx

Si * para 0,1,k k k p , entonces la función riesgo está dado por:

* * *0 1 1 p px x

h t e

x

Por lo tanto si se incrementa el valor de la covariable kx en una unidad (a 1kx ), manteniendo

constantes las otras covariables, la razón de riesgos es igual

*1kk

k

h t xe

h t x

* * * *0 1 1 1

1 k k p px x x

kh t x e

* * * *0 1 1 k k p px x x

kh t x e

Entonces

* * * *0 1 1

*

* * * *0 1 1

11 k k p p

k

k k p p

x x x

k

x x xk

h t x ee

h t x e

De esta manera, *ke

puede ser interpretado como la razón de riesgos debido al incremento de la

covariable kx en una unidad, manteniendo constante las otras covariables.

Inferencia

Para realizar inferencia se puede usar la aproximación normal:

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

71

1

0ˆ ~ ,N

I

Esta aproximación es bastante buena, si el tamaño de muestra no es demasiado pequeño. También muchas hipótesis se expresa bajo la forma:

0

0 1 1:H ,

Donde: 1 2, , y donde 1 es un vector 1k k p y 0

1 es un vector cuyos valores son

especificado, para probar 0H y

0

1 1 1:H se puede usar la siguiente estadística:

Prueba de la Razón de Verosimilitud

0

1 2

1 2

,2 ln

ˆ ˆ,

L

L

Donde 2 es el estimador máximo verosímil bajo la hipótesis 0H y 1 2

ˆ ˆ ˆ, es el estimador

máximo verosímil irrestricto. El estimado 2 se encuentra resolviendo el sistema de ecuaciones:

0

1 2ln ,0

j

L

, para 1, ,j k p , con

0

1 1

tiene una distribución asintótica 2

k bajo 0H . Se rechaza 0H a un nivel de significación , si

2

1 ,k

.

Prueba de Wald

Otra estadística para probar 0H , que se basa en 1

0ˆ ,~

a

N I es la estadística de Wald

0 1 0

1 1 1 11 1 1ˆ ˆC

Donde 11C es una matriz k k tal que 1

0C I , siendo

11 12

22 22

C CC

C C

Se puede observar que la matriz 11C es la matriz variancia covariancia asintótica de 1 . Bajo 0H ,

1 tiene una distribución asintótica 2

k , se rechaza 0H a un nivel de significación , si

2

1 1 ,k

.

Prueba de Escores

Bajo algunas condiciones de regularidad, el vector de Escores

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

72

1

2

ln

ln

ln

p

L

L

U

L

,

Tiene una distribución asintótica normal multivariada con vector de media 0 y matriz de variancia-

covariancia igual a la matriz de información observada de Fisher I . Luego, para probar la

hipótesis 0

0 1 1:H se puede usar la siguiente estadística:

0 1 0

2 1 11 1C U U

Donde 0

1U es el vector de escores correspondiente a 1 bajo 1H y 11C es una matriz k k tal

que 1

0C I , siendo

11 12

22 22

C CC

C C

Se puede observar que la matriz 11C es la matriz variancia covariancia asintótica de 1 .

2 tiene una distribución asintótica 2

k bajo 0H . Se rechaza 0H a un nivel de significación , si

2

2 1 ,k

.

5.5 Modelos de regresión Weibull

Si se considera que la variable T dado ~x siguiente función de densidad

0 para exp

~

1

~~

tx

t

x

t

xtf

entonces se puede demostrar que la variable TY ln tiene una distribución valor extremo con

parámetro de ubicación lnx x y de escala 1 la siguiente función de densidad:

~ ~

~

1| exp exp ,

y x y xf y x y

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

73

donde ~~

ln xx . La función que más frecuentemente se usa es

~~~ xx

Luego, el modelo de regresión valor extremo puede ser escrito como:

~ ~

Y x z

donde z tiene una distribución valor extremos estándar con función de densidad

zez z ,exp .

Los estimados de los parámetros se obtienen por el método de máxima verosimilitud. Suponga que

asociado con cada individuo se encuentra un tiempo de falla o un tiempo de censura it y un vector

de regresión 1i i ipx x x . La notación i D y i C se usará para denotar si un individuo i

pertenece al grupo para el cual it es tiempo de falla o tiempo de censura, respectivamente. La

Función de Verosimilitud está dado por:

~ ~ ~~ ~ ~, exp exp exp expi i i i i i

i D i C

y x y x y x

L

El logaritmo de la función de verosimilitud

~ ~~ ~

1

ln , ln expni i i i

i D i

y x y x

L r

De esta manera la primera y segunda derivada del ln ,L son:

~~

1

ln , 1 1exp

n i i

il il

i D il

y xLx x

, para 1, ,l p

~ ~ ~~ ~ ~

1

ln , 1 1exp

ni i i i i i

i D i

y x y x y xL r

2

~~

1

ln , 1exp

n i i

il is

il s

y xLx x

, para , 1, ,l s p

2

~ ~ ~~ ~ ~

2 2 2 21

2

~ ~~ ~

21

ln , 2 2exp

1 - exp

ni i i i i i

i D i

n i i i i

i

y x y x y xL r

y x y x

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

74

2

~ ~ ~~ ~ ~

2 2 21 1

ln , 1 1 1exp exp

n ni i i i i i

il il il

i D i il

y x y x y xLx x x

La ecuaciones máximo verosímiles ln ,

0l

L

( 1, ,l p ) se resuelve fácilmente por el

método de Newton-Raphson. Interpretación

Si * para 0,1,k k k p , entonces la función riesgo está dado por:

* * *0 1 11 p px x

h t t e

x

*1kk

k

h t xe

h t x

De esta manera, *ke

puede ser interpretado como la razón de riesgos debido al incremento de la

covariable kx en una unidad, manteniendo constante las otras covariables.

5.8 Otros modelos de regresión

a) Regresión Log-logístico.- El modelo Log-logistico asume que el término de error en un modelo

de locación escala

~~

xY

tiene una distribución Log-logística con la siguiente función de densidad:

2

1

ef

e

La estimación de parámetro se realiza mediante el método de máxima verosimilitud de forma similar a los modelos anteriores. La función riesgo en cualquier vector de covariable x tiene la siguiente forma cerrada

1

1

t eh t

t e

x β

x βx

donde 1

.

La variable aleatoria T tiene la siguiente función de supervivencia para cualquier vector de covariable x :

1

1

1

S t

te

x β

x

De esto se puede demostrar que

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

75

* * *

0 1 1ln ln1

p p

S tx x t

S t

x

x

donde: * para 0,1,kk k p

. Esto no es otra cosa que un modelo de regresión logística con el

intecepto dependiente del tiempo t . Desde que S t x es la probabilidad de supervivencia en el

tiempo t para cualquier tiempo dado t , la razón de

1

S t

S t

x

x es llamado algunas la ventaja

de la función de supervivencia en el tiempo t. Por lo tanto, mientras que kx se incrementa en una

unidad, manteniendo constante las otras covariables, la razón de la ventaja está dado por:

*

1

1 1, para todo 0

1

k

k

k

k

k

S t x

S t xe t

S t x

S t x

Por lo tanto, *ke

puede ser interpretado como la razón de las ventajas de las funciones de

supervivencia debido al incremento de la covariable kx en una unidad, manteniendo constante las

otras covariables. b) Regresión Lognormal.- Considerando un modelo de locación escala

~~

xY

con lnY T , para el modelo de regresión lognormal se asume que ~ 0,1N . Cuando ~

0 (esto

es 0 1 0p ), se puede demostrar que la función de riesgo (no es la función de riesgo

base) toma la siguiente forma:

0

ln

ln1

t

h tt

t

donde: 2

21

2

x

x e

es la función de densidad de la distribución normal estándar y

2

21

2

ux

x e du

es la función de distribución acumulada de la distribución normal estándar.

También se puede demostrar que el logaritmo de la función riesgo es:

0ln ; lnh t h t te

x βx x β

Se puede apreciar que no es un modelo de riesgos proporcionales. La función de supervivencia para cualquier vector de covariable x está dado por:

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

76

1 * * *

0 1 1 lnp pS t x x t x

o equivalentemente

* * *

0 1 1 lnp pS t x x t x

donde 1 y * para 0,1, ,kk k p

, este es un modelo de regresión probit con intercepto

dependiente del tiempo. Basado en estas relaciones se tiene:

1 1 *1k k kS t x S t x

Luego, *

k puede ser interpretado de la siguiente manera: cuando la covariable kx se incrementa en

una unidad, manteniendo constante las otras covariables, el cuantil normal estándar en función de la

supervivencia, se incrementa en *

k . Esto es un indicador que mide el cambio en la función de

supervivencia cuando la covariable kx se incrementa en una unidad, manteniendo constante las

otras covariables. 5.9 Observaciones:

1.- Para todos los modelos de regresión paramétricos en análisis de supervivencia se aplican las mismas estadísticas de pruebas, tales como la estadística de la razón de verosimilitud y la Wald o la de escores, para realizar inferencia sobre los parámetros del modelo, en forma similar al caso del modelo de regresión exponencial. 2.- Para los modelos acelerados de tiempos de fallas y de riesgos proporcionales los coeficientes se interpreta preferentemente de acuerdo con las interpretaciones dadas para la distribución que toma el tiempo de falla. En caso que no se tenga una interpretación se pueden interpretar para los casos que se dan en 3 y 4 3- Para los modelos modelo acelerado de tiempo de falla, según Hosmer Lemeshow (1999), si la

covariable es dicotómica, es decir si ix toma solamente los valores de 0 y 1, entonces la razón de

la mediana del tiempo de supervivencia para el grupo con xi=0 al grupo con xi=1, denotado por

TR(xi=1,xi=0), es ie

. Para el caso de una covariable es

0 1

1

0

50

50

1, ln 0.5( 1, 0)

0, ln 0.5

t x eTR x x e

t x e

Alternativamente

1

50 501, 0,t x e t x

Para este caso, se puede usar la relación anterior para interpretar los coeficientes de regresión. Esto es que la razón de la mediana del tiempo de supervivencia del grupo de individuos cuyo valor de la

covariable 1ix es ie

veces la mediana del tiempo de supervivencia de grupo de individuos cuyo

valor de la covariable 0ix , cuando los valores de las otras covariables se mantienen constantes.

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

77

4.- En modelo de tiempo acelerado de falla, cuando k es pequeño puede ser interpretado como el

cambio porcentual en la media (o mediana) del tiempo de supervivencia o falla cuando kx se

incrementa en una unidad, manteniendo constante las otras covariables. 5.9 Análisis de Residuos

Para la adecuación del modelo se puede usar los residuales de Cox –Snell, el cual se obtiene de la

definición general de residuos, basada en la función de riegos acumulado. Sea nYYY ,,, 21 variables

aleatorias independientes con función riesgo acumulado i

i xYH~

| , para ni ,,2,1 ,

respectivamente. Entonces, se puede demostrar que i

ii

i xYHxYS~~

|exp| , ni ,,2,1 son

variables aleatorias independientes, idénticamente e uniformemente distribuida en el intervalo (0,1).

Luego, los ~

| xYH i son variables aleatorias exponenciales con parámetro 1 . A partir de esta

propiedad, los residuos de iy se define como

i

ii xyHe~

|ˆˆ

donde i

i xyH~

|ˆ utiliza los estimados de máxima verosimilitud de los parámetros desconocidos.

Luego, como una primera aproximación, para una muestra de tamaño n , los residuos neee ˆ,,ˆ,ˆ 21

puede ser tratado como una muestra aleatoria de una distribución exponencial con parámetro 1 .

Por tanto, cuando el modelo es adecuado, el gráfico de ieS ˆˆln versus ie , para ni ,,2,1 debe

formar aproximadamente una recta con pendiente 1. En este último caso, ieS ˆˆ es el estimado

Kaplan Meier de la función de supervivencia de los ie .

Ejemplo: Los siguientes datos tiempo de vida en días de pacientes con cáncer al pulmón, quienes fueron tratados con tipos de quimioterapias, de los cuales 21 pacientes fueron tratados con un tratamiento que se le denominará estándar y 19 con tratamiento que se le denominará prueba. También se

registraron información de varios factores: 1x = diagnostico sobre la condición general del paciente

evaluado en una escala de 0 a 100, 2x = edad del paciente en años, 3x = el número de meses desde

el diagnostico de cáncer al entrar al estudio. Adicionalmente los tumores fueron clasificado en cuatro tipo: escamoso, pequeño, adeno y grande. La información se resume en la siguiente tabla: t

1x 2x 3x t 1x 2x 3x

Estándar, escamoso Prueba, escamoso

411 70 64 5 999 90 54 12

126 60 63 9 231* 50 52 8

118 70 65 11 991 70 50 7

92 40 69 10 1 20 65 21

8 40 63 58 201 80 52 28

25* 70 48 9 44 60 70 13

11 70 48 11 15 50 40 13

Estándar, pequeño Prueba, pequeño

54 80 63 4 103* 70 36 22

153 60 63 14 2 40 44 36

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

78

16 30 53 4 20 30 54 9

56 80 43 12 51 30 59 87

21 40 55 2 Prueba, adeno

287 60 66 25 18 40 69 5

10 40 67 23 90 60 50 22

Estándar, Adeno 84 80 62 4

8 20 61 19 Prueba Grande 12 50 63 4

Estándar, Grande

177 50 66 16 164 70 68 15

12 40 68 12 19 30 39 4

200 80 41 12 43 60 49 11

250 70 53 8 340 80 64 10

100 60 37 13 231 70 67 18

Para realizar el análisis se define las siguiente variables regresoras:

0x =1.

1x = diagnostico sobre la condición general del paciente evaluado en una escala de 0 a 100.

2x = edad del paciente en años.

3x = el número de meses desde el diagnostico de cáncer al entrar al estudio.

4x = 1 si el tumor es del tipo escamoso, 0 de otro modo.

5x = 1 si el tumor es pequeño, 0 de otro modo.

6x = 1 si el tumor es adeno, 0 de otro modo.

7x = 0 si el tratamiento es prueba, 1 si es estándar.

Para el caso del modelo exponencial se puede definir el siguiente modelo:

7

4

3332221110~

lni

iixxxxxxxx

Regression with Life Data: tiempo versus x1-media; x2-media; ... Response Variable: tiempo

Censoring Information Count

Uncensored value 37

Right censored value 3

Censoring value: censura = 0

Estimation Method: Maximum Likelihood

Distribution: Exponential

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

79

Regression Table

Standard 95.0% Normal CI

Predictor Coef Error Z P Lower Upper

Intercept 4.71820 0.404738 11.66 0.000 3.92493 5.51147

x1-media 0.0540024 0.0108122 4.99 0.000 0.0328109 0.0751939

x2-media 0.0090353 0.0196664 0.46 0.646 -0.0295102 0.0475807

x3-media 0.0033993 0.0116746 0.29 0.771 -0.0194825 0.0262812

x4 0.362613 0.444564 0.82 0.415 -0.508716 1.23394

x5 -0.127063 0.486347 -0.26 0.794 -1.08028 0.826160

x6 -0.868962 0.586136 -1.48 0.138 -2.01777 0.279843

x7 -0.269742 0.388209 -0.69 0.487 -1.03062 0.491134

Shape 1

Log-Likelihood = -204.139

Anderson-Darling (adjusted) Goodness-of-Fit

Cox-Snell Residuals = 0.987

Cox-Snell Residuals

Pe

rce

nt

10.001.000.100.01

99

90

8070605040

30

20

10

5

3

2

1

Table of Statistics

Failure 37

C ensor 3

A D* 0.987

Mean 1

StDev 1

Median 0.693147

IQ R 1.09861

Probability Plot for CSResids of tiempo

Censoring Column in censura - ML Estimates

Exponential - 95% CI

5.9 La selección del mejor modelo

Se utilizará el método propuesto por Collett (1994). El sugiere los siguientes pasos: 1.- Ajustar todos los modelos con una sola covariable. Luego, incluir todas las covariables que cuya

contribución resultaron significativas a un nivel 10.0 . En este paso se aconseja usar la prueba de

la razón de verosimilitud

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

80

2.- Las covariables que contribuye en forma significativa en el paso 1 se incluyen en el modelo y se ajusta conjuntamente. La presencia de ciertas covariables puede dejar que otras no contribuya significativamente. Entonces se ajustan modelos reducidos, excluyendo una única covariable en cada ajuste. En cada ajuste se excluye la covariable que no es significativa. Solamente aquellas que contribuyan significativamente permanecerán en el modelo. 3.- Se ajusta un nuevo modelo con las covariables retenidas en el paso 2. En esta etapa las variables excluidas en el paso 2 retornan al modelo para confirmar que su contribuciones que no son estadísticamente significantes. 4.- Las eventuales covariables significativas en el paso 3 son incluidas al modelo conjuntamente con aquellas retenidas en el paso 2. En este paso se retornan las variables excluidas en el paso 1, para confirmar si ellas contribuyen o no significativamente al modelo. 5.- Ajustar un modelo incluyendo las covariables que contribuye significativamente en el paso 4. En este paso se prueba si algunas de ellas pueden ser retiradas del modelo. 6.- Utilizando las covariables que fueron retenidas en el paso 5 se ajusta el modelo final para los efectos principales. Para completar el modelo se debe verificar la posibilidad de incluir términos de interacción. Se prueba cada interacción de dos posibles covariables entre aquellas incluidas en el modelo. El modelo final queda determinado por los efectos principales identificado en el paso 5 y los términos de interacción que contribuye en forma significativa que fueron identificados en este paso. Paso 1

Distribution Analysis: tiempo

Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Parameter Estimates Standard 95.0% Normal CI Parameter Estimate Error Lower Upper Shape 1.00000 Scale 156.59 25.74 113.46 216.13 Log-Likelihood = -223.985 Results for: PULMON.MTW Regression with Life Data: tiempo versus x1-media

Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

81

Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 4.6191 0.1645 28.08 0.000 4.2967 4.9415 x1-media 0.060029 0.009649 6.22 0.000 0.041118 0.078940 Shape 1.00000 Log-Likelihood = -206.675 Regression with Life Data: tiempo versus x2-media Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 5.0593 0.1654 30.58 0.000 4.7351 5.3836 x2-media -0.01738 0.02022 -0.86 0.390 -0.05700 0.02224 Shape 1.00000 Log-Likelihood = -223.609 Regression with Life Data: tiempo versus x3-media

Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 5.0169 0.1644 30.51 0.000 4.6947 5.3392 x3-media -0.02110 0.01012 -2.08 0.037 -0.04093 -0.00126 Shape 1.00000 Log-Likelihood = -222.458 Regression with Life Data: tiempo versus x4

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

82

Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 4.6135 0.2000 23.07 0.000 4.2215 5.0055 x4 0.9950 0.3512 2.83 0.005 0.3067 1.6833 Shape 1.00000 Log-Likelihood = -219.641 Regression with Life Data: tiempo versus x5

Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 5.2255 0.1925 27.15 0.000 4.8484 5.6027 x5 -0.8779 0.3702 -2.37 0.018 -1.6034 -0.1523 Shape 1.00000 Log-Likelihood = -221.567 Regression with Life Data: tiempo versus x6

Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

83

Intercept 5.1616 0.1768 29.20 0.000 4.8151 5.5080 x6 -1.4144 0.4809 -2.94 0.003 -2.3569 -0.4719 Shape 1.00000 Log-Likelihood = -220.906 Regression with Life Data: tiempo versus x7 Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 5.3684 0.2425 22.13 0.000 4.8931 5.8438 x7 -0.6924 0.3299 -2.10 0.036 -1.3389 -0.0458 Shape 1.00000 Log-Likelihood = -221.785 Paso 2 Results for: pulmon.MTW Regression with Life Data: tiempo versus x1-media, x3-media, ... Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 4.6811 0.3899 12.01 0.000 3.9170 5.4453 x1-media 0.05389 0.01090 4.94 0.000 0.03251 0.07526 x3-media 0.00429 0.01160 0.37 0.711 -0.01845 0.02704 x4 0.3857 0.4378 0.88 0.378 -0.4725 1.2438 x5 -0.1235 0.4868 -0.25 0.800 -1.0776 0.8305 x6 -0.8331 0.5807 -1.43 0.151 -1.9713 0.3051 x7 -0.2058 0.3617 -0.57 0.570 -0.9148 0.5032 Shape 1.00000

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

84

Log-Likelihood = -204.243 Regression with Life Data: tiempo versus x1-media, x3-media, x4, x6, x7

Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 4.6322 0.3344 13.85 0.000 3.9767 5.2877 x1-media 0.05433 0.01080 5.03 0.000 0.03316 0.07550 x3-media 0.00337 0.01106 0.31 0.760 -0.01830 0.02505 x4 0.4304 0.3967 1.08 0.278 -0.3472 1.2079 x6 -0.7767 0.5344 -1.45 0.146 -1.8242 0.2708 x7 -0.2154 0.3592 -0.60 0.549 -0.9195 0.4886 Shape 1.00000 Log-Likelihood = -204.276 Regression with Life Data: tiempo versus x1-media, x4, x6, x7

Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 4.6698 0.3141 14.87 0.000 4.0542 5.2855 x1-media 0.05315 0.01017 5.22 0.000 0.03321 0.07309 x4 0.3936 0.3795 1.04 0.300 -0.3502 1.1375 x6 -0.8182 0.5185 -1.58 0.115 -1.8345 0.1981 x7 -0.2502 0.3426 -0.73 0.465 -0.9216 0.4213 Shape 1.00000 Log-Likelihood = -204.323 Regression with Life Data: tiempo versus x1-media, x4, x6

Response Variable: tiempo

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

85

Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 4.5168 0.2249 20.09 0.000 4.0761 4.9575 x1-media 0.054050 0.009925 5.45 0.000 0.034597 0.073503 x4 0.4433 0.3753 1.18 0.238 -0.2923 1.1788 x6 -0.7484 0.5054 -1.48 0.139 -1.7389 0.2422 Shape 1.00000 Log-Likelihood = -204.592 Regression with Life Data: tiempo versus x1-media, x6

Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 4.7026 0.1771 26.56 0.000 4.3556 5.0497 x1-media 0.056902 0.009698 5.87 0.000 0.037895 0.075908 x6 -0.9047 0.4946 -1.83 0.067 -1.8742 0.0647 Shape 1.00000 Log-Likelihood = -205.308 Paso 3 Regression with Life Data: tiempo versus x1-media, x5, x6 Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

86

Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 4.7917 0.2209 21.69 0.000 4.3588 5.2246 x1-media 0.05415 0.01038 5.22 0.000 0.03381 0.07448 x5 -0.3026 0.4117 -0.74 0.462 -1.1095 0.5042 x6 -1.0223 0.5205 -1.96 0.050 -2.0425 -0.0021 Shape 1.00000 Log-Likelihood = -205.045 Regression with Life Data: tiempo versus x1-media, x3-media, x6

Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 4.7004 0.1773 26.51 0.000 4.3530 5.0479 x1-media 0.05762 0.01037 5.56 0.000 0.03730 0.07793 x3-media 0.001888 0.009818 0.19 0.848 -0.017355 0.021131 x6 -0.8923 0.4990 -1.79 0.074 -1.8703 0.0858 Shape 1.00000 Log-Likelihood = -205.289 Regression with Life Data: tiempo versus x1-media, x4, x6

Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 4.5168 0.2249 20.09 0.000 4.0761 4.9575 x1-media 0.054050 0.009925 5.45 0.000 0.034597 0.073503 x4 0.4433 0.3753 1.18 0.238 -0.2923 1.1788 x6 -0.7484 0.5054 -1.48 0.139 -1.7389 0.2422 Shape 1.00000

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

87

Log-Likelihood = -204.592 Regression with Life Data: tiempo versus x1-media, x6, x7

Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 4.8679 0.2611 18.65 0.000 4.3562 5.3796 x1-media 0.05509 0.01014 5.43 0.000 0.03521 0.07497 x6 -0.9673 0.5052 -1.91 0.056 -1.9575 0.0229 x7 -0.3135 0.3384 -0.93 0.354 -0.9768 0.3497 Shape 1.00000 Log-Likelihood = -204.875 Paso 4 Regression with Life Data: tiempo versus x1-media, x6, x2-media

Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 4.6993 0.1776 26.46 0.000 4.3511 5.0474 x1-media 0.057183 0.009772 5.85 0.000 0.038031 0.076335 x6 -0.9082 0.4946 -1.84 0.066 -1.8776 0.0612 x2-media 0.00380 0.01898 0.20 0.841 -0.03340 0.04099 Shape 1.00000 Log-Likelihood = -205.288 Paso 5 No se realiza porque no se incluyo nuevas covariables

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

88

Paso 6 Regression with Life Data: tiempo versus x1-media, x6

Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 4.7008 0.1768 26.59 0.000 4.3543 5.0474 x1-media 0.05940 0.01067 5.57 0.000 0.03850 0.08030 x6 -1.0033 0.5039 -1.99 0.046 -1.9909 -0.0156 x1-media*x6 -0.01406 0.02550 -0.55 0.581 -0.06404 0.03592 Shape 1.00000 Log-Likelihood = -205.154 Luego el modelo es Regression with Life Data: tiempo versus x1-media, x6

Response Variable: tiempo Censoring Information Count Uncensored value 37 Right censored value 3 Censoring value: censura = 0 Estimation Method: Maximum Likelihood Distribution: Exponential Regression Table Standard 95.0% Normal CI Predictor Coef Error Z P Lower Upper Intercept 4.7026 0.1771 26.56 0.000 4.3556 5.0497 x1-media 0.056902 0.009698 5.87 0.000 0.037895 0.075908 x6 -0.9047 0.4946 -1.83 0.067 -1.8742 0.0647 Shape 1.00000 Log-Likelihood = -205.308 Anderson-Darling (adjusted) Goodness-of-Fit Cox-Snell Residuals = 0.8799

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

89

1 1 6ˆln 4.7026+ 0.056902 -0.9047T x x x

Interpretación de los parámetros

*1 1ˆ ˆ 0.0569016 0.9446866e e e

: cuando la condición física del paciente se incrementa en una unidad se estima el riesgo de muerte del paciente disminuye en 5.531336% manteniendo constante la otra covariable.

Para el caso de 6 es mejor usar la interpretación dada según Hosmer Lemeshow (1999), Luego,

6ˆ -0.9047 0.4046633e e

: cuando el tumor pasa a ser adeno la mediana del tiempo del tiempo de vida de pacientes es 0.4046633 veces la mediana del tiempo de vida de pacientes que tienen tumores que no es adeno manteniendo constantes las otras covariables.

Cox-Snell Residuals

Pe

rce

nt

10.001.000.100.01

99

90

8070605040

30

20

10

5

3

2

1

Table of Statistics

Failure 37

C ensor 3

A D* 1.150

Mean 1

StDev 1

Median 0.693147

IQ R 1.09861

Probability Plot for CSResids of tiempo

Censoring Column in censura - ML Estimates

Exponential - 95% CI

Ejercicios:

1.- A continuación se presenta los datos de cáncer de mama, dado en el archivo cancer-mama en minitab sobre las siguientes variables

Notación de Variable Descripción de variable

age pathsize lnpos histgrad er pr status

Edad (en años) Tamaño del Tumor patológico (cm) Nodo Linfático Axilar Positivo Grado Histológico Estado del órgano receptor de estrógeno Estado del órgano receptor de progesterona Censura

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

90

time Tiempo (en meses)

Aplique las técnicas de análisis de residuales y de selección para ajustar al mejor modelo de regresión paramétrico de los estudiados. Interprete los coeficientes. 2.- Hanley, J. A., y Shapiro, S. H. (1994), presenta datos de pacientes infectado con el virus HIV (sida), dada en el archivo de nombre sida.txt. La información presentada es sobre las siguientes variables: Tiempo: tiempo de supervivencia en meses Edad: edad del paciente en años Droga: No usa droga (0), usa droga (1) Censura: muerte (1), pérdida de seguimiento (0) Los resultados procesados en R y minitab, se muestra a continuación: > mod<-survreg(Surv(tiempo,censura)~edad+droga,dist="weibull") > summary(mod) Call: survreg(formula = Surv(tiempo, censura) ~ edad + droga, dist = "weibull") Value Std. Error z p (Intercept) 6.1479 0.5107 12.04 2.25e-33 edad -0.0908 0.0136 -6.67 2.63e-11 droga -1.0492 0.1890 -5.55 2.83e-08 Log(scale) -0.1751 0.0861 -2.03 4.19e-02 Scale= 0.84 Weibull distribution Loglik(model)= -263.5 Loglik(intercept only)= -289.5 Chisq= 52.05 on 2 degrees of freedom, p= 5e-12 Number of Newton-Raphson Iterations: 5 n= 100 > mod$var (Intercept) edad droga Log(scale) (Intercept) 0.2608355369 -6.717993e-03 -1.535790e-02 -1.659916e-04 edad -0.0067179927 1.853959e-04 -5.260899e-05 -5.483898e-05 droga -0.0153578972 -5.260899e-05 3.571263e-02 1.692862e-03 Log(scale) -0.0001659916 -5.483898e-05 1.692862e-03 7.407114e-03 a) Realice un análisis de los resultados obtenido. Comente.

b) En base al modelo ajustado en (a), pruebe a un nivel 0.05 que los coeficientes de regresión

de las covariables edad y droga son iguales a -0.15 y -0.6, respectivamente. 3.- A continuación se presenta parte de los datos de un ensayo clínico realizado por el Grupo de Oncología de Terapia por Radiación en los Estados Unidos de 6 instituciones participantes. Asignaron los pacientes que incorporaban el estudio aleatoriamente a uno de dos grupos del tratamiento, radioterapias solamente o radioterapias junto con un agente quimioterapéutico. Un objetivo del estudio era comparar las dos políticas del tratamiento con respecto a supervivencia paciente. Las variables incluidas en el estudio son: inst: institución participante de 1 a 6 sex: sexo (1 masculino, 2 femenino)

Análisis de Supervivencia y Confiabilidad Víctor Maehara Oyata

___________________________________________________________________

91

tx: tratamiento (1= estándar, 2= prueba) grade: grado en que la cédula del tumor se asemeja a la cédulas normales (1= bien diferenciado, 2= moderadamente diferenciado, 3= peor diferenciado, 9= perdido)

age: edad del paciente en años cond: Condición: 1 = ninguna inhabilidad, 2 = restringió el trabajo, 3 = requiere ayuda con el cuidado

del uno mismo, 4 = la cama confinada, 9 = faltando site: 1 = arco faucial, 2 = fosa tonsillar, 3 = pilar posterior, 4 = lengüeta pharyngeal, 5 = pared

posterior

t-stage: 1 = tumor primario que mide 2 centímetros o menos en el diámetro más grande, 2 = tumor primario que mide 2 centímetros a 4 centímetros en el diámetro más grande con la infiltración mínima en la profundidad, 3 = tumor primario que mide más de 4 centímetros, 4 = tumor invasor masivo.

n-stage: 0 = ninguna evidencia clínica de las metástasis del nodo, 1 = escoge nodo positivo 3 centímetros o menos en el diámetro, no fijado, 2 = escogen nodo positivo más de 3 centímetros en nodos positivos no fijados, 3 = nodos múltiples positivo, o nodos positivos fijados

entry_dt: Fecha de la entrada del estudio: Día del año y año. status: 0=censurado, 1= muerte time: tiempo de supervivencia en días, desde el día del diagnostico Aplique las técnicas de análisis de residuales y de selección para ajustar al mejor modelo de regresión paramétrico de los estudiados. Interprete los coeficientes Bibliografía:

1.- Hosmer D. Y Lemeshow S .(1999). Applied Survival Analysis, John Wiley & Sons, Inc. 2.- Meeker, W. y Escobar, L. (1998). Satistical Methods for Reliability Data, John Wiley & Sons, Inc.

3.- Lee, E. y Wang, J. W. (2003). Statistical Methods for Survival Data Analysis, John Wiley & Sons,

Inc.