Modelo de diagnóstico de glaucoma en ...

12
Maestría en Inteligencia Analítica para la Toma de Decisiones DEPARTAMENTO DE INGENIERÍA INDUSTRIAL UNIVERSIDAD DE LOS ANDES Analytics www.uniandes.edu.co Modelo de diagnóstico de glaucoma en etapas tempranas Huber Díaz Pinzón, Rodian A. Oliveros Guerrero Asesor: Ivan Mura Pre asesor: Astrid Bernal 21 de Noviembre de 2017 Abstract IMEVI Ltda. es una institución prestadora de servicios en salud visual y ocular que ha decidido incorporar dentro de sus procesos de toma de decisiones Analytics. Para la IPS la enfermedad con mayor consumo de recursos y mayor necesidad de detección rápida es el glaucoma. Con una base de datos de 10 años de y 709.597 registros que contienen las variables de medición en la etapa temprana de optometría (agudeza visual, excavación, tonometría), los antecedentes familiares y personales, se modelaron las probabilidades de que un paciente sea diagnosticado con la patología del glaucoma desde la etapa temprana. Se evaluaron modelos Logit y Probit completos y con reducción de variables, así como con balanceo y sin balanceo de clases. También se incluyeron modelos basados en árboles (Random Forest) con balanceo y sin balanceo. Todos los modelos arrojaron resultados similares en términos de métricas de respuesta, no obstante, se evidencian mejoras en el proceso de detección del glaucoma con el modelo Logit con balanceo y el modelo Random Forest con balanceo. Keywords: Glaucoma; Detección temprana, Regresión Logística; Modelo Probit, Random Forest. 1. Introducción IMEVI Ltda. es una institución prestadora de servicios especializada en la salud visual y ocular, que partiendo del examen de optometría integral llega hasta cirugías de mayor complejidad, pasando por el suministro de lentes oftálmicos, exámenes de apoyo diagnóstico y consulta externa. Con más de diez (10) años siendo financiada por Compensar EPS, y un largo historial de registros clínicos, IMEVI ha decido implementar Analytics en pro de mejorar sus procesos en la toma de decisiones relacionada con los recursos económicos que la EPS otorga para el manejo de la salud visual de sus afiliados Una de las patologías que IMEVI diagnostica y trata es el glaucoma, neuropatía óptica crónica y progresiva que se caracteriza por una pérdida de la capa de fibras nerviosas de la retina, una excavación y palidez progresiva de la papila y el desarrollo de defectos del campo visual. Generalmente está asociado a un aumento de la presión intraocular (PIO). [1,4] Es indispensable anotar que esta patología es incurable, pero con el oportuno y adecuado tratamiento previene la ceguera producto del daño del nervio óptico por la hipertensión causada por el exceso de humor vítreo. Pese a que presiones intraoculares superiores a 21 mmHg se consideran un factor determinante para diagnosticar glaucoma, se evidencian casos sin esta sintomatología, así como pacientes sanos con presiones elevadas (considerados como sospechosos de glaucoma) y a los que se les debe realizar seguimiento por parte del oftalmólogo. El diagnóstico del glaucoma se basa en la lista de chequeo de las guías de práctica clínica del Consejo Internacional de Oftalmología. [5] La investigación en el área está enfocada a la mejora de los exámenes diagnósticos (fotografías y OCT’s) y hacia el análisis de los factores de riesgo en la progresión de la enfermedad. Según los estudios internos de IMEVI Ltda., el glaucoma es una enfermedad cuya prevalencia en la clínica es del 41% (28% en sospecha de glaucoma, 8% es glaucoma de ángulo

Transcript of Modelo de diagnóstico de glaucoma en ...

Page 1: Modelo de diagnóstico de glaucoma en ...

Maestría en Inteligencia Analítica para la Toma de Decisiones

DEPARTAMENTO DE INGENIERÍA INDUSTRIAL

UNIVERSIDAD DE LOS ANDES

Food

Analytics

www.uniandes.edu.co

Modelo de diagnóstico de glaucoma

en etapas tempranas

Huber Díaz Pinzón, Rodian A. Oliveros Guerrero

Asesor: Ivan Mura – Pre asesor: Astrid Bernal

21 de Noviembre de 2017

Abstract

IMEVI Ltda. es una institución prestadora de servicios en salud visual y ocular que ha decidido incorporar dentro de sus

procesos de toma de decisiones Analytics. Para la IPS la enfermedad con mayor consumo de recursos y mayor necesidad de

detección rápida es el glaucoma. Con una base de datos de 10 años de y 709.597 registros que contienen las variables de

medición en la etapa temprana de optometría (agudeza visual, excavación, tonometría), los antecedentes familiares y

personales, se modelaron las probabilidades de que un paciente sea diagnosticado con la patología del glaucoma desde la etapa

temprana. Se evaluaron modelos Logit y Probit completos y con reducción de variables, así como con balanceo y sin balanceo

de clases. También se incluyeron modelos basados en árboles (Random Forest) con balanceo y sin balanceo. Todos los

modelos arrojaron resultados similares en términos de métricas de respuesta, no obstante, se evidencian mejoras en el proceso

de detección del glaucoma con el modelo Logit con balanceo y el modelo Random Forest con balanceo.

Keywords: Glaucoma; Detección temprana, Regresión Logística; Modelo Probit, Random Forest.

1. Introducción

IMEVI Ltda. es una institución prestadora de servicios

especializada en la salud visual y ocular, que partiendo del

examen de optometría integral llega hasta cirugías de mayor

complejidad, pasando por el suministro de lentes oftálmicos,

exámenes de apoyo diagnóstico y consulta externa.

Con más de diez (10) años siendo financiada por

Compensar EPS, y un largo historial de registros clínicos,

IMEVI ha decido implementar Analytics en pro de mejorar

sus procesos en la toma de decisiones relacionada con los

recursos económicos que la EPS otorga para el manejo de la

salud visual de sus afiliados

Una de las patologías que IMEVI diagnostica y trata es el

glaucoma, neuropatía óptica crónica y progresiva que se

caracteriza por una pérdida de la capa de fibras nerviosas de

la retina, una excavación y palidez progresiva de la papila y

el desarrollo de defectos del campo visual. Generalmente

está asociado a un aumento de la presión intraocular (PIO). [1,4]

Es indispensable anotar que esta patología es incurable,

pero con el oportuno y adecuado tratamiento previene la

ceguera producto del daño del nervio óptico por la

hipertensión causada por el exceso de humor vítreo. Pese a

que presiones intraoculares superiores a 21 mmHg se

consideran un factor determinante para diagnosticar

glaucoma, se evidencian casos sin esta sintomatología, así

como pacientes sanos con presiones elevadas (considerados

como sospechosos de glaucoma) y a los que se les debe

realizar seguimiento por parte del oftalmólogo.

El diagnóstico del glaucoma se basa en la lista de chequeo

de las guías de práctica clínica del Consejo Internacional de

Oftalmología. [5] La investigación en el área está enfocada a

la mejora de los exámenes diagnósticos (fotografías y

OCT’s) y hacia el análisis de los factores de riesgo en la

progresión de la enfermedad.

Según los estudios internos de IMEVI Ltda., el glaucoma

es una enfermedad cuya prevalencia en la clínica es del 41%

(28% en sospecha de glaucoma, 8% es glaucoma de ángulo

Page 2: Modelo de diagnóstico de glaucoma en ...

Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones

abierto y el 5% es de ángulo cerrado) y una incidencia del

3%, no obstante, demanda de la IPS más del 65% de los

recursos de la bolsa que trimestralmente Compensar E.P.S.

otorga a IMEVI para la atención de sus afiliados.

La literatura reporta investigación epidemiológica sobre

el glaucoma, no obstante, no se evidencia investigación en

modelos de ayudas diagnósticas con base en los factores de

riesgo encontrados.

2. Proceso de diagnóstico del glaucoma de IMEVI

El modelo de atención inicia con la visita al optómetra de

un paciente (que puede ser tanto “glaucomatoso” como “No

glaucomatoso”). El optómetra dentro de su práctica clínica

realiza tres exámenes in-situ (en la consulta):

Agudeza visual: determinación de la capacidad del

sistema de visión para percibir, detectar o identificar

objetos especiales.

Excavación: Examen del fondo del ojo y el globo

ocular en tres dimensiones con la ayuda de lentes

especiales, mediante una lámpara de hendidura.

Presión intraocular: Mediante un tonómetro se

determina la tensión ocular en milímetros de mercurio.

Si el optómetra detecta algún indicio, enmarcado dentro

de los exámenes de presión intraocular (PIO) o de

excavación (fondo de ojo), remite con el oftalmólogo

general. (Ver. Figura 1).

Figura 1: Modelo de atención actual para el diagnóstico y tratamiento del Glaucoma

en IMEVI Ltda.

En “consulta oftalmológica por primera vez”, el

oftalmólogo a través de tres tipos de exámenes in-situ realiza

una segunda inspección, incluyendo un examen adicional

denominado gonioscopia que mide el ángulo camerular, el

cual le permite clasificar el glaucoma en sus dos formas

clásicas, de ángulo abierto o de ángulo cerrado. Con base en

los hallazgos puede remitir a una combinación de cualquiera

de los 4 tipos de exámenes de apoyo:

Campimetría (campos visuales): su finalidad es

comprobar la amplitud del campo visual.

Paquimetría: Examen que sirve para medir el grosor

de la córnea

OCT (Tomografía de Coherencia Óptica): Examen que

permite el estudio de cortes histológicos de la retina.

Fotografías internas del ojo: permite estudiar la

estructura del ojo.

Una vez el paciente dispone de los resultados de los

exámenes, el optómetra puede llegar a requerir más

combinaciones de estos, hasta que esté satisfecho para

clasificar al paciente como:

1. Sospechoso de glaucoma

2. Glaucomatoso

Si el diagnóstico es de sospecha, el paciente debe seguir

en supervisión cada cierto periodo tiempo, para realizar

seguimiento a la sospecha con base en el criterio del

oftalmólogo. Si las variables son estables, el paciente sigue

yendo a consulta periódica para control. En caso de que el

paciente no se estabilice o que haya sido clasificado como

glaucomatoso, pasa a consulta con el glaucomatólogo

(supraespecialista)

El glaucomatólogo, de igual manera que el oftalmólogo

general tiene la posibilidad de solicitar las cuatro ayudas

diagnósticas previamente expuestas en cualquiera de sus

combinaciones y cuantas veces considere necesario, junto

con una quinta (Sobrecarga Hídrica), de tal manera que se

pueda llegar al tratamiento adecuado para el paciente, que

según sea el tipo y grado del glaucoma sea medicación

tópica o la respectiva cirugía:

Sobrecarga hídrica: Ensayo que permite evaluar el

estado del sistema de drenaje del humor acuoso y para

analizar la capacidad del ojo para controlar su presión.

Mientras el paciente no estabilice su presión intraocular

(principal variable de control), sigue siendo atendido por el

glaucomatólogo hasta que lo logre con alguno de los

tratamientos previamente descritos. Una vez la enfermedad

se estabiliza, el paciente regresa a controles con el

oftalmólogo general, que, de nuevo, para realizar

seguimiento al paciente, puede solicitar las cuatro ayudas

diagnósticas en cualquiera de sus combinaciones y cuantas

veces considere necesario, para que, en caso de que se

desestabilice, regresarlo al glaucomatólogo. (Ver figura 2).

Teniendo en cuenta la situación actual, para IMEVI es

fundamental determinar si es posible obtener un modelo de

atención para el diagnóstico de la patología del glaucoma,

que permita la minimización del número de intervenciones

(consultas, exámenes y cirugías) necesarias para el

diagnóstico efectivo y oportuno de esta patología.

3. Uso y análisis de la información

En el proceso descrito anteriormente para el diagnóstico

y control de la patología del glaucoma, se tienen datos

tomados por los médicos en las historias clínicas a partir del

año 2007 a la fecha. Esta información, obtenida en cada una

de las etapas del proceso, (optometría, oftalmología,

glaucomatología /

Page 3: Modelo de diagnóstico de glaucoma en ...

Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones

Formulación gotas suaves: Monoconjugado (Timolol / Latanoprost / Brimonidina)

Formulación gotas medias: Biconjugado (Timolol + Travatam)

Formulación gotas fuertes: Triconjugado (Timolol + Brimonidina + Dorzolamida) Kritantek

Trabeculoplastia: Cirugía para tratamiento de glaucomas abiertos (Laser) Iridoplastia: Cirugía para tratamiento de glaucoma de ángulo cerrado (Quirófano) Iridotomía: Cirugía para tratamiento de glaucoma de ángulo cerrado (Laser) Trabeculectomía: Cirugía para tratamiento de glaucomas abiertos o cerrados (Quirófano) Implante Valvular: Último recurso para el tratamiento del glaucoma (Quirófano)

Figura 2: Modelo general de atención actual para el diagnóstico y tratamiento del Glaucoma en IMEVI Ltda

supraespecialista) se registra en las bases de datos de las

aplicaciones de la clínica.

3.1 Información obtenida a partir del ERP de la clínica.

La información obtenida a través de la clínica para el

análisis fue extraída únicamente del subproceso de

optometría (Ver figura 1). Este proceso cuenta con una

base de datos que contiene los registros de los pacientes

que ingresan por consulta de optometría. La información

de los campos se encuentra semiestructurada, y a través de

analítica de texto se realizó la extracción de variables

asociadas a las características del ojo.

En el anexo se puede observar un resumen de las

variables originales de la base de datos suministrada por

IMEVI en archivos con formato Microsoft Excel® por año

desde el 2007 hasta el 2017. Fue necesario evaluar cada

archivo y eliminar filas que se encontraban corridas a nivel

de los campos. En total se eliminaron cerca de 1200

registros. Una vez realizado este proceso se unió y exportó

a un archivo único en formato .csv.

3.2 Depuración de los datos

La depuración inicial de la información consistió en la

eliminación de variables sin observaciones, de variables

consideradas irrelevantes, y de registros sin códigos

válidos diagnósticos (CIE10) ni códigos válidos de

remisión de exámenes (CUPS).

Los valores de las columnas de antecedentes familiares

y personales contenían valores nulos para los pacientes que

no han padecido enfermedades y el valor de la fecha para

quienes sí. Por lo anterior se cambiaron los valores nulos

por el “NO” y los valores de fecha por el “SI”, y se

codificaron como factores.

Según información suministrada por los expertos de la

clínica, para las columnas de agudeza visual se eliminaron

los valores PNC (paciente no colabora) tanto del ojo

izquierdo como del ojo derecho. Igualmente se cambiaron

los valores PROT (prótesis) a valores 0, NPL (no

percepción luminosa) a valor 0, PPL (percepción y

proyección luminosa) a valor 0.02, PL (proyección

luminosa) a valor 0.01, FNSM (fija, no sostiene ni

Page 4: Modelo de diagnóstico de glaucoma en ...

Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones

mantiene) a valor 0.03, CD (cuenta dedos) a valor 0.04 y

FSCM (fija, sostiene y mantiene) a valor 0.03.

Los demás datos numéricos encontrados sin formato por

ejemplo valores que contenían caracteres extra, unidos a la

medición de la agudeza visual, fueron extraídos aplicando

una función para obtener únicamente la parte numérica.

Para la información de las variables de tonometría de

los dos ojos se eliminaron los registros con los siguientes

valores: (“NO COLABORA”, el paciente no colabora) y

(“P. NERVIOSO”, el paciente se pone nervioso).

De la misma manera que para los campos de agudeza

visual, se cambiaron los valores de las columnas de

tonometría que contienen medidas que incluyen caracteres

extra. Se aplicó una función para extraer únicamente la

parte numérica y se actualizaron los campos. Igualmente

se cambiaron las columnas con valores de “NORMAL”

por el valor 18 y los valores de “MEDIA” por el valor 22.

Lo anterior ya que según los expertos dichos valores

corresponden a los valores categóricos mencionados.

Se eliminaron de los registros de la base de datos con

edades mayores a 110 años y menores a 0.

Por recomendación de los expertos se eliminaron de los

valores de agudeza visual y de oftalmoscopia superiores a

uno (1) los cuales no tienen sentido en el punto de vista de

la medición y que correspondían a errores de digitación del

profesional encargado del diagnóstico.

La variable de respuesta fue construida a partir de los

diagnósticos primario y relacionados de oftalmología

encontrados en la base de datos, asignando el valor uno (1)

para los códigos: H400, H401, H402, H403, H404, H405,

H406, H408, H409, H420, H428; y cero (0) de lo contrario.

Por último, se renombraron las columnas por nombres

cortos. El código asociado a la depuración se puede ver en

los anexos, donde se puede observar que tras la depuración

de la información inicial (709597 registros con 81 campos)

el remanente es una base de datos de 552110 observaciones

y 62 variables.

3.3 Descripción de los datos

Al finalizar el proceso de revisión no se encontraron

datos faltantes y se observó que tras el proceso de

depuración descrito durante de la etapa de depuración,

estos desaparecieron.

3.4 Análisis exploratorio

Una vez reducida la base de datos se procedió a revisar

la variable de respuesta como se puede ver en la figura 4.

Fig. 4. Distribución de la variable de respuesta del oftalmólogo en la base de datos

Este desbalance de clases se abordó generando una

segunda base de datos balanceada por el método de sobre

muestreo sintético minoritario (SMOTE - Synthetic

Minority Over-sampling Technique), obteniendo una

segunda colección de datos con la siguiente distribución.

Fig. 5. Distribución de la variable de respuesta del oftalmólogo en la base de datos

sintética 0: No Glaucomatoso, 1: Glaucomatoso

A partir de la base de datos se revisó la prevalencia y la

incidencia del glaucoma en IMEVI. En la figura 6, y la

tabla 1 se observa la evolución de la incidencia de ésta

patología desde 2007.

Fig. 6. Evolución de la incidencia del glaucoma en los pacientes de IMEVI.

Tabla 1. Prevalencia e incidencia del glaucoma en IMEVI

Year Prevalencia Incidencia

No sospechoso Sospechoso No glaucomatoso Galucomatoso

2007 463 124 46 541 0.001

2008 3650 1258 503 4405 0.006 3864

2009 4611 1518 597 5532 0.008 1127

2010 5122 2161 908 6375 0.009 843

2011 6310 2566 980 7896 0.011 1521

2012 6964 3808 1476 9296 0.013 1400

2013 8566 4579 2189 10956 0.015 1660

2014 8757 5029 2290 11496 0.016 540

2015 9402 5814 2646 12570 0.018 1074

2016 10279 6476 3120 13635 0.019 1065

Población Total 709597 82702

Optometría Oftalmología

Prevalencia de la enfermedad del Glaucoma

Page 5: Modelo de diagnóstico de glaucoma en ...

Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones

Las prevalencias encontradas anualmente en la base de

datos suministrada por IMEVI, tiene un valor aproximado

del 2%, lo que está acorde con los informes reportados por

la Sociedad Colombiana del Glaucoma. (Tabla 1).

También se evaluó la precisión del diagnóstico actual

del glaucoma, obteniéndose la siguiente matriz de

confusión:

Tabla 2. Prevalencia e incidencia del glaucoma en IMEVI

La matriz de confusión de la tabla 2 muestra una tasa

del 27% en la clasificación del paciente glaucomatoso con

respecto al total de Glaucomatosos reportados por

oftalmología, así miso, el diagnóstico del optómetra tiene

una precisión del 46%. Estas métricas fueron utilizadas

como línea base para cuantificar las mejoras de los

modelos.

4. Metodología

Teniendo en cuenta la pregunta de negocio se optó por el

modelamiento de la probabilidad de que un paciente tenga

o no glaucoma en función de sus antecedentes, de la

información de tonometrías, fondo de ojo y agudeza visual

en optometría, de tal manera que desde esta etapa temprana

se puedan ordenar varios exámenes diagnósticos a aquellos

pacientes clasificados como glaucomatosos.

IMEVI proporcionó la siguiente información sobre

costos:

por un falso positivo (FP) en la detección temprana

de glaucoma se incurre un costo de $150.000 COP

asociados a la consulta adicional del oftalmólogo y

dos diagnósticos intermedios (campimetría y

paquimetría);

los costos adicionales por un falso negativos (FN)

serían de $200.000 COP, asociados a dos consultas

con oftalmólogo y los mismos dos exámenes

diagnósticos

los ahorros por la detección temprana de un caso

(VP) de glaucoma serían de $30.000 COP lo cual

implicaría un ahorro total según el pronóstico actual

del 27% de 152 millones de pesos.

Conjuntamente con IMEVI, se supuso que en el caso de los

verdaderos negativos no hay ni ahorros ni costos.

Con base en la información de costos suministrada por

IMEVI se desarrolló una función de costos por paciente

con la que se medirá el desempeño de cada modelo a

evaluar con base en las métricas de la matriz de confusión

junto con la ponderación económica.

Teniendo en cuenta lo anterior se evaluarán, con base

en la bibliografía consultada, los siguientes modelos:

Modelo Logit (Full, reducido por selección de

variables método backwards, y con selección de

variables por Least Absolute Shrinkage and

Selection Operator - LASSO);

Modelo Probit (Full, reducido por selección de

variables método backwards);

Modelos basados en arboles de decisión (Random

Forest).

Teniendo en cuenta el desbalanceo de clases

evidenciado en el análisis exploratorio se evaluaron los

modelos con y sin balanceo de clases, de manera que se

escoge aquel que demuestre mejor desempeño. Todos los

modelos se presentan completos en el anexo de este

documento.

5. Desarrollo del modelo

5.1 Modelo de regresión logística.

Este tipo de modelo (regresión logística) es utilizado

para predecir el resultado de una variable categórica

binaria en función de las variables independientes o

predictoras. Es útil para modelar la probabilidad de un

evento en función de otros factores. La forma general del

modelo de regresión logística es:

𝑦𝑖~𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖 (𝜋𝑖) (1)

Cuyo valor esperado es:

𝐸[𝑦𝑖] =𝑒𝛽0+𝛽1𝑥1+𝛽2𝑥2+ … +𝛽𝑘𝑥𝑘

1+ 𝑒𝛽0+𝛽1𝑥1+𝛽2𝑥2+ … +𝛽𝑘𝑥𝑘 (2)

Los estimadores de los parámetros del modelo se

determinan por máxima verosimilitud.

5.1.1 Modelo de regresión logística sin balanceo de

clases

A continuación, se presenta un extracto del modelo Logit

sin balanceo de clases con su respectivo desempeño.

Call:

glm(formula = respof ~ ., family = "binomial", data = Train)

Deviance Residuals:

Min 1Q Median 3Q Max

-3.2671 -0.2524 -0.1742 -0.1217 3.7646

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -5.899e+00 1.284e-01 -45.957 < 2e-16 ***

sexpacienteM -1.849e-01 2.028e-02 -9.122 < 2e-16 ***

edaoptom 3.880e-02 5.343e-04 72.622 < 2e-16 ***

aguDe 1.603e-01 3.412e-02 4.698 2.63e-06 ***

agIzqu 2.696e-02 3.419e-02 0.789 0.430278

toD -7.388e-03 6.456e-03 -1.144 0.252492

toI -2.085e-02 6.414e-03 -3.251 0.001150 **

ojdeofcop 2.595e+00 1.703e-01 15.236 < 2e-16 ***

ojizofcop 1.913e+00 1.707e-01 11.207 < 2e-16 ***

fanQUIRURSI 3.051e-02 2.714e-01 0.112 0.910483

fanTRAUMASI -9.328e+00 9.185e+01 -0.102 0.919108

fanToxAlerSI 7.095e-01 1.061e+00 0.669 0.503664

fanFARMACOLSI 1.316e+00 6.710e-01 1.962 0.049784 *

fanARTSI -2.204e-01 5.216e-02 -4.226 2.38e-05 ***

fanINMUNOLOSI -9.864e-03 1.065e+00 -0.009 0.992609

fanOBSTETSI 2.636e+00 1.091e+00 2.415 0.015714 *

fanESTRASI -1.862e-02 5.234e-01 -0.036 0.971622

fanOFTALMOLOSI 2.096e-01 1.061e-01 1.976 0.048201 *

fanCSI -9.748e-02 6.330e-02 -1.540 0.123528

fanGLASI 9.591e-01 7.839e-02 12.236 < 2e-16 ***

fanREFRACSI -4.126e-01 6.117e-02 -6.745 1.53e-11 ***

fanGENESI -8.859e+00 1.063e+02 -0.083 0.933611

fanPrenaSI -8.566e+00 1.093e+02 -0.078 0.937510

Matriz de Confusión Actual según Optometria/Oftalmología

Optometría + -

+ 5069 5963 11032

- 13891 527187 541078

18960 533150

Exactitud 27%

Oftalmología

Page 6: Modelo de diagnóstico de glaucoma en ...

Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones

fanPERINASI -9.310e+00 9.848e+01 -0.095 0.924685

fanPostnaSI -8.773e+00 1.269e+02 -0.069 0.944883

fanALERSI -1.873e-01 3.767e-01 -0.497 0.618917

fanMEDICAMSI 2.164e-01 4.903e-01 0.441 0.658942

fanCARDIOVASCUSI 1.835e-01 1.035e-01 1.773 0.076258 .

fanDIASI -3.069e-01 5.728e-02 -5.358 8.42e-08 ***

fanTIROSI -1.189e-01 1.947e-01 -0.611 0.541377

fanCOLSI -4.134e-01 2.637e-01 -1.568 0.116963

fanENDOCSI -9.293e+00 8.473e+01 -0.110 0.912657

fanPATOLOSI -4.060e-01 7.646e-02 -5.310 1.10e-07 ***

fanNEUROLOSI 8.330e-02 3.880e-01 0.215 0.830004

fanHOSPITALSI 1.403e+00 1.071e+00 1.310 0.190088

panQUIRURSI 1.303e-01 4.354e-02 2.993 0.002766 **

panTRAUMASI -3.763e-01 2.586e-01 -1.455 0.145643

panToxAlerSI 6.457e-01 1.625e-01 3.973 7.11e-05 ***

panFARMACOLSI -2.229e-01 2.031e-01 -1.097 0.272588

panARTSI -3.407e-01 4.925e-02 -6.918 4.57e-12 ***

panINMUNOLOSI 1.150e-01 7.687e-01 0.150 0.881056

panOBSTETSI -8.727e-04 3.030e-01 -0.003 0.997702

panESTRASI 8.891e-02 4.323e-01 0.206 0.837028

panOFTALMOLOSI 1.337e-01 6.975e-02 1.917 0.055244 .

panCSI 1.714e-03 1.744e-01 0.010 0.992161

panGLASI 1.877e+00 1.337e-01 14.042 < 2e-16 ***

panREFRACSI -2.878e-01 5.122e-02 -5.619 1.92e-08 ***

panGENESI 7.750e-01 6.054e-01 1.280 0.200478

panPrenaSI 5.199e-01 5.138e-01 1.012 0.311597

panPERINASI 1.142e-01 3.931e-01 0.291 0.771362

panPostnaSI -1.142e+00 7.101e-01 -1.608 0.107913

panALERSI 4.447e-02 6.904e-02 0.644 0.519517

panMEDICAMSI 4.284e-01 6.400e-02 6.694 2.16e-11 ***

panCARDIOVASCUSI -5.108e-01 1.431e-01 -3.570 0.000357 ***

panDIASI -2.704e-01 8.772e-02 -3.083 0.002048 **

panTIROSI -3.520e-01 7.241e-02 -4.861 1.17e-06 ***

panCOLSI 8.750e-02 1.325e-01 0.660 0.509077

panENDOCSI 1.197e-01 4.809e-01 0.249 0.803502

panPATOLOSI -1.067e-01 5.470e-02 -1.951 0.051007 .

panNEUROLOSI -3.074e-01 2.152e-01 -1.429 0.153085

panHOSPITALSI 7.164e-02 2.613e-01 0.274 0.783956

respo1 2.491e+00 2.960e-02 84.135 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 115574 on 386476 degrees of freedom

Residual deviance: 89959 on 386415 degrees of freedom

AIC: 90083

Number of Fisher Scoring iterations: 12

Fig. 7. Desempeño del modelo Logit Full sin balanceo de clases.

Con un umbral de 0,0325 el desempeño es el siguiente:

Matriz de Confusión

Glaucomatoso No glaucomatoso

Glaucoma + 4 337 39 755 Glaucoma - 1 351 120 190

Métricas

Especificidad (TNR): 75,19% Exactitud (Accuracy): 75,23%

Sensibilidad (TPR): 76,24% Costo (COP): $ 36.773,0

Al revisar el modelo resultante se puede observar que

muchas variables no son significativas, hacen pesado al

modelo y no aportan mucha información, por lo que se

realiza una selección de variables por el método backwards

utilizando como criterio de exclusión el p-Value, y con

base en los criterios de información de Akaike y Bayesiano

se selecciona un modelo más parsimonioso. En la figura 5.

Se puede observar los resultados de la selección de

variables

Fig. 8 Criterios de información de los diferentes modelos generados

Dado que el BIC arroja una cantidad sustancialmente

menor de variables se opta por realizar el modelo con las

20 variables más significativas, arrojadas por este criterio.

Los resultados son los siguientes:

Call:

glm(formula = formula(Crit$Formula[which.min(Crit$BIC)]),

family = "binomial",

data = Train)

Deviance Residuals:

Min 1Q Median 3Q Max

-3.2226 -0.2525 -0.1743 -0.1220 3.7837

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -5.9442033 0.1158375 -51.315 < 2e-16 ***

sexpacienteM -0.1869701 0.0202434 -9.236 < 2e-16 ***

edaoptom 0.0388112 0.0005264 73.730 < 2e-16 ***

aguDe 0.1742640 0.0289809 6.013 1.82e-09 ***

toI -0.0256795 0.0050248 -5.110 3.21e-07 ***

ojdeofcop 2.5970215 0.1703948 15.241 < 2e-16 ***

ojizofcop 1.9114734 0.1707429 11.195 < 2e-16 ***

fanARTSI -0.2223988 0.0516510 -4.306 1.66e-05 ***

fanGLASI 0.9661579 0.0780938 12.372 < 2e-16 ***

fanREFRACSI -0.4108726 0.0605650 -6.784 1.17e-11 ***

fanDIASI -0.2995194 0.0567549 -5.277 1.31e-07 ***

fanPATOLOSI -0.3905402 0.0762227 -5.124 3.00e-07 ***

panToxAlerSI 0.6748140 0.1618895 4.168 3.07e-05 ***

panARTSI -0.3534831 0.0486742 -7.262 3.81e-13 ***

panGLASI 1.8835431 0.1332768 14.133 < 2e-16 ***

panREFRACSI -0.2948228 0.0491307 -6.001 1.96e-09 ***

panMEDICAMSI 0.4314720 0.0633725 6.809 9.86e-12 ***

panCARDIOVASCUSI -0.5067016 0.1430712 -3.542 0.000398 ***

panTIROSI -0.3442133 0.0722467 -4.764 1.89e-06 ***

respo1 2.4932160 0.0295647 84.331 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 115574 on 386476 degrees of freedom

Residual deviance: 90022 on 386457 degrees of freedom

AIC: 90062

Number of Fisher Scoring iterations: 7

Page 7: Modelo de diagnóstico de glaucoma en ...

Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones

Como se puede observar se obtiene un modelo con todas

las variables significativas. A continuación, se presenta el

desempeño de este modelo:

Fig. 9. Desempeño del modelo Logit reducido sin balanceo de clases.

Con un umbral de 0,0325 el desempeño es el siguiente:

Matriz de Confusión

Glaucomatoso No glaucomatoso

Glaucoma + 4 337 39 755

Glaucoma - 1 351 120 190

Métricas

Sensibilidad (TPR): 76,24% Exactitud (Accuracy): 75,18%

Especificidad (TNR): 75,14% Costo (COP): $ 36.848,0

Como se puede observar no se evidencia diferencia

entre la respuesta del modelo reducido con el modelo full.

Las figuras 4 y 6, son sustancialmente idénticas y las

métricas de respuesta del modelo también son similares, no

obstante, la selección de modelo reducido es imperante en

términos de parsimonia y arroja

Los estimadores de los coeficientes son coherentes con

los factores de riesgo del glaucoma [3], como la edad, el

sexo (la enfermedad tiene una mayor incidencia en

mujeres) y los antecedentes familiares de glaucoma.

Se evidencia el peso de los coeficientes asociados al

diagnóstico optométrico como la agudeza visual y

principalmente la oftalmoscopia. Otra variable que se

incluyó en el modelo es el concepto del optómetra, que

puede contener información valiosa del diagnóstico con

base en hallazgos no reportados. Los valores de estos

estimadores pueden incrementar hasta siete (7) veces el

odds ratio asociados al diagnóstico de glaucomatoso

contra no glaucomatoso.

Es de anotar que una variable fundamental para el

diagnóstico positivo del glaucoma expresada en las guías

de práctica clínica del Consejo Internacional de

Oftalmología como lo es la tonometría aparece como un

factor que disminuye los odds ratio, no obstante, tras la

socialización en IMEVI, se esclarecieron problemas tanto

para tomar las medidas, como para capturar los datos.

5.1.2 Modelo de regresión logística - balanceo de clases

Con el respectivo balanceo de clases el resultado es el

siguiente:

Call:

glm(formula = respof ~ ., family = "binomial", data = BTrain)

Call:

glm(formula = respof ~ ., family = "binomial", data = BTrain)

Deviance Residuals:

Min 1Q Median 3Q Max

-4.7540 -0.4559 0.0311 0.4186 3.7648

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 6.774e+00 5.484e-02 123.528 < 2e-16 ***

sexpacienteM 2.070e-01 1.031e-02 20.072 < 2e-16 ***

edaoptom 6.238e-02 3.129e-04 199.353 < 2e-16 ***

aguDe -2.748e-01 2.003e-02 -13.722 < 2e-16 ***

agIzqu -2.530e-01 2.017e-02 -12.541 < 2e-16 ***

toD -2.832e-01 4.597e-03 -61.594 < 2e-16 ***

toI -2.846e-01 4.589e-03 -62.014 < 2e-16 ***

ojdeofcop 3.646e+00 1.284e-01 28.399 < 2e-16 ***

ojizofcop 3.348e+00 1.292e-01 25.913 < 2e-16 ***

fanQUIRURSI -5.090e-01 1.864e-01 -2.730 0.00632 **

fanTRAUMASI -9.412e+00 8.181e+01 -0.115 0.90841

fanToxAlerSI -1.266e+00 9.340e-01 -1.356 0.17522

fanFARMACOLSI 5.538e-01 5.723e-01 0.968 0.33320

fanARTSI -3.548e-01 2.935e-02 -12.085 < 2e-16 ***

fanINMUNOLOSI -7.538e-01 6.495e-01 -1.161 0.24578

fanOBSTETSI 2.279e+00 1.142e+00 1.996 0.04590 *

fanESTRASI 5.981e-01 2.810e-01 2.128 0.03333 *

fanOFTALMOLOSI 1.421e-01 6.554e-02 2.169 0.03011 *

fanCSI -2.959e-01 3.612e-02 -8.193 2.54e-16 ***

fanGLASI 1.003e+00 5.453e-02 18.385 < 2e-16 ***

fanREFRACSI -5.759e-01 3.351e-02 -17.187 < 2e-16 ***

fanGENESI -1.354e+01 8.216e+01 -0.165 0.86912

fanPrenaSI -8.737e+00 1.121e+02 -0.078 0.93790

fanPERINASI -1.009e+01 7.541e+01 -0.134 0.89361

fanPostnaSI -9.957e+00 1.004e+02 -0.099 0.92101

fanALERSI -5.651e-01 2.218e-01 -2.547 0.01086 *

fanMEDICAMSI -1.149e+00 3.555e-01 -3.233 0.00123 **

fanCARDIOVASCUSI -1.510e-01 6.422e-02 -2.351 0.01871 *

fanDIASI -4.259e-01 3.201e-02 -13.305 < 2e-16 ***

fanTIROSI -7.673e-02 1.172e-01 -0.655 0.51268

fanCOLSI -5.114e-02 1.421e-01 -0.360 0.71901

fanENDOCSI -1.163e+01 5.620e+01 -0.207 0.83605

fanPATOLOSI -5.623e-01 4.314e-02 -13.036 < 2e-16 ***

fanNEUROLOSI -2.400e-01 2.352e-01 -1.021 0.30744

fanHOSPITALSI 1.580e+00 6.382e-01 2.476 0.01330 *

panQUIRURSI -2.052e-01 2.625e-02 -7.815 5.48e-15 ***

panTRAUMASI -9.091e-01 1.574e-01 -5.775 7.71e-09 ***

panToxAlerSI 5.120e-01 1.068e-01 4.793 1.64e-06 ***

panFARMACOLSI -9.369e-01 1.250e-01 -7.494 6.67e-14 ***

panARTSI -9.462e-01 2.870e-02 -32.966 < 2e-16 ***

panINMUNOLOSI -2.207e+00 5.598e-01 -3.943 8.04e-05 ***

panOBSTETSI -2.631e-01 1.977e-01 -1.331 0.18325

panESTRASI -2.209e-01 2.707e-01 -0.816 0.41454

panOFTALMOLOSI -2.334e-01 4.447e-02 -5.249 1.53e-07 ***

panCSI -5.850e-01 1.129e-01 -5.183 2.18e-07 ***

panGLASI 1.508e+00 1.302e-01 11.581 < 2e-16 ***

panREFRACSI -4.082e-01 2.849e-02 -14.327 < 2e-16 ***

panGENESI 7.407e-01 3.394e-01 2.182 0.02908 *

panPrenaSI 5.601e-01 3.085e-01 1.816 0.06941 .

panPERINASI -1.872e-02 2.478e-01 -0.076 0.93979

panPostnaSI -9.277e-02 2.330e-01 -0.398 0.69053

panALERSI -2.263e-01 4.066e-02 -5.567 2.59e-08 ***

panMEDICAMSI 1.146e-02 4.228e-02 0.271 0.78627

panCARDIOVASCUSI -8.502e-01 7.881e-02 -10.789 < 2e-16 ***

panDIASI -7.793e-01 5.058e-02 -15.408 < 2e-16 ***

panTIROSI -5.401e-01 4.112e-02 -13.135 < 2e-16 ***

panCOLSI -4.608e-01 8.258e-02 -5.580 2.41e-08 ***

panENDOCSI -9.640e-01 3.031e-01 -3.181 0.00147 **

panPATOLOSI -2.172e-01 3.131e-02 -6.937 3.99e-12 ***

panNEUROLOSI -7.994e-01 1.369e-01 -5.838 5.28e-09 ***

panHOSPITALSI -9.950e-02 1.558e-01 -0.639 0.52293

respo1 2.848e+00 2.507e-02 113.576 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 533110 on 384887 degrees of freedom

Residual deviance: 251530 on 384826 degrees of freedom

AIC: 251654

Number of Fisher Scoring iterations: 11

Page 8: Modelo de diagnóstico de glaucoma en ...

Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones

Fig.10. Desempeño del modelo Logit full con balanceo de clases.

Con un umbral de 0,275 el desempeño es el siguiente:

Matriz de Confusión

Glaucomatoso No glaucomatoso

Glaucoma + 4 178 42 389

Glaucoma - 1 510 117 556

Métricas

Sensibilidad (TPR): 73,45% Exactitud (Accuracy): 73,49%

Especificidad (TNR): 73,49% Costo (COP): $ 39.454,0

Al realizar un modelo full para la regresión logística con

balanceo de clases, se obtiene en términos de

significancias, un resultado similar al obtenido sin

balanceo, en donde se evidencian un conjunto de

predictores no significativos. Para este caso también se

aplicó la misma metodología seguida en el numeral 5.1.1.

El resultado de la selección de variables se puede observar

en la gráfica 11.

Fig. 11. Desempeño del modelo Logit con balanceo de clases.

Call:

glm(formula = formula(Crit$Formula[28]), family = "binomial",

data = BTrain)

Deviance Residuals:

Min 1Q Median 3Q Max

-4.7539 -0.4559 0.0311 0.4186 3.7395

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 6.7722349 0.0548018 123.577 < 2e-16 ***

sexpacienteM -0.2076571 0.0103078 20.146 < 2e-16 ***

edaoptom 0.0623792 0.0003118 200.049 < 2e-16 ***

aguDe -0.2754241 0.0200192 -13.758 < 2e-16 ***

agIzqu -0.2526993 0.0201677 -12.530 < 2e-16 ***

toD -0.2830631 0.0045954 -61.598 < 2e-16 ***

toI -0.2846109 0.0045870 -62.047 < 2e-16 ***

ojdeofcop 3.6461883 0.1283070 28.418 < 2e-16 ***

ojizofcop 3.3477451 0.1291291 25.926 < 2e-16 ***

fanARTSI -0.3583043 0.0292473 -12.251 < 2e-16 ***

fanCSI -0.3059418 0.0359824 -8.503 < 2e-16 ***

fanGLASI 1.0022819 0.0544644 18.403 < 2e-16 ***

fanREFRACSI -0.5768107 0.0333909 -17.274 < 2e-16 ***

fanMEDICAMSI -1.1445751 0.3557247 -3.218 0.00129 **

fanDIASI -0.4264579 0.0319578 -13.344 < 2e-16 ***

fanPATOLOSI -0.5599942 0.0431033 -12.992 < 2e-16 ***

panQUIRURSI -0.2051821 0.0261491 -7.847 4.27e-15 ***

panTRAUMASI -0.9054013 0.1575815 -5.746 9.16e-09 ***

panToxAlerSI 0.5072896 0.1068431 4.748 2.05e-06 ***

panFARMACOLSI -0.9449610 0.1246912 -7.578 3.50e-14 ***

panARTSI -0.9460093 0.0286115 -33.064 < 2e-16 ***

panINMUNOLOSI -2.2044297 0.5590764 -3.943 8.05e-05 ***

panOFTALMOLOSI -0.2379810 0.0444215 -5.357 8.45e-08 ***

panCSI -0.5835954 0.1127924 -5.174 2.29e-07 ***

panGLASI 1.5056762 0.1302291 11.562 < 2e-16 ***

panREFRACSI -0.4073797 0.0284169 -14.336 < 2e-16 ***

panALERSI -0.2262907 0.0406234 -5.570 2.54e-08 ***

panCARDIOVASCUSI -0.8471992 0.0787889 -10.753 < 2e-16 ***

panDIASI -0.7815458 0.0505288 -15.467 < 2e-16 ***

panTIROSI -0.5421359 0.0411151 -13.186 < 2e-16 ***

panCOLSI -0.4695179 0.0823315 -5.703 1.18e-08 ***

panPATOLOSI -0.2156447 0.0312560 -6.899 5.23e-12 ***

panNEUROLOSI -0.8019646 0.1368893 -5.858 4.67e-09 ***

respo1 2.8482924 0.0250681 113.622 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 533110 on 384887 degrees of freedom

Residual deviance: 251622 on 384854 degrees of freedom

AIC: 251690

Fig. 12. Desempeño del modelo Logit reducido con balanceo de clases.

Con un umbral de 0,275 el desempeño es el siguiente:

Matriz de Confusión

Glaucomatoso No glaucomatoso

Glaucoma + 4 175 42 285

Glaucoma - 1 513 117 660

Métricas

Sensibilidad (TPR): 73,40% Exactitud (Accuracy): 73,55%

Especificidad (TNR): 73,56% Costo (COP): $ 39.364,0

Page 9: Modelo de diagnóstico de glaucoma en ...

Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones

Este modelo reafirma que los factores de riesgo que

considera IMEVI en su historial de antecedentes, no

incrementan los odds ratio de ser diagnosticado glaucoma

positivo contra no glaucomatoso, así como la importancia

que tiene la oftalmoscopia en la detección de la

enfermedad.

5.2 Modelo Probit

Al igual que el modelo Logit (regresión logística), este

modelo es utilizado para predecir el resultado de una

variable categórica binaria en función de las variables

independientes o predictoras. La respuesta es la

probabilidad de un evento en función de otros factores. En

este caso el valor esperado es:

𝑬[𝒚𝒊] = 𝚽(𝜷𝟎 + 𝜷𝟏𝒙𝟏 + 𝜷𝟐𝒙𝟐 + … + 𝜷𝒌𝒙𝒌) (3)

Donde 𝚽 es la función acumulada de la distribución

normal estándar. Al igual que en el modelo Logit los

estimadores de los parámetros del modelo se determinan

por máxima verosimilitud.

Para estos modelos se sigue la metodología presentada

en la sección 5.1., no obstante, solo se presentan los

modelos reducidos, dada la similitud de las métricas con

sus respectivos modelos Full.

5.2.1 Modelo Probit - sin balanceo de clases.

A continuación, se presenta un extracto del modelo

Probit sin balanceo de clases con su respectivo

Call:

glm(formula = formula(Crit$Formula[which.min(Crit$BIC)]), family

= binomial(link = "Probit"),

data = Train)

Deviance Residuals:

Min 1Q Median 3Q Max

-3.2727 -0.2558 -0.1695 -0.1088 4.1036

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -3.0733679 0.0548741 -56.008 < 2e-16 ***

sexpacienteM -0.0818305 0.0092237 -8.872 < 2e-16 ***

edaoptom 0.0176834 0.0002381 74.274 < 2e-16 ***

aguDe 0.0726959 0.0131699 5.520 3.39e-08 ***

toI -0.0113071 0.0023936 -4.724 2.31e-06 ***

ojdeofcop 1.2911676 0.0919483 14.042 < 2e-16 ***

ojizofcop 1.0155933 0.0920930 11.028 < 2e-16 ***

fanARTSI -0.0904684 0.0222251 -4.071 4.69e-05 ***

fanGLASI 0.4800802 0.0385492 12.454 < 2e-16 ***

fanREFRACSI -0.1384480 0.0249779 -5.543 2.98e-08 ***

fanDIASI -0.1168936 0.0242823 -4.814 1.48e-06 ***

fanPATOLOSI -0.1770982 0.0337001 -5.255 1.48e-07 ***

panToxAlerSI 0.2954197 0.0762503 3.874 0.000107 ***

panARTSI -0.1521694 0.0224628 -6.774 1.25e-11 ***

panGLASI 1.0048021 0.0748228 13.429 < 2e-16 ***

panREFRACSI -0.1049160 0.0212667 -4.933 8.08e-07 ***

panMEDICAMSI 0.1885391 0.0305329 6.175 6.62e-10 ***

panTIROSI -0.1455905 0.0324107 -4.492 7.05e-06 ***

respo1 1.3505239 0.0169245 79.797 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 115574 on 386476 degrees of freedom

Residual deviance: 89476 on 386458 degrees of freedom

AIC: 89514

Number of Fisher Scoring iterations: 7

Fig. 13. Desempeño del modelo Probit reducido sin balanceo de clases.

Con un umbral de 0,033 el desempeño es el siguiente:

Matriz de Confusión

Glaucomatoso No glaucomatoso

Glaucoma + 4 304 38 726 Glaucoma - 1 384 121 219

Métricas

Sensibilidad (TPR): 75,66% Exactitud (Accuracy): 75,78%

Especificidad (TNR): 75,78% Costo (COP): $ 35.962,0

Este modelo también arroja resultados aceptables, pero no

muestran una mejora sustancial respecto de los modelos

Logit, no obstante, arrojan una misma disposición a

disminuir la probabilidad de ser diagnosticado con

glaucoma.

5.2.2 Modelo Probit - con balanceo de clases.

Call:

glm(formula = formula(Crit$Formula[29]), family = "binomial",

data = BTrain)

Deviance Residuals:

Min 1Q Median 3Q Max

-4.7538 -0.4559 0.0311 0.4186 3.7395

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 6.7712419 0.0547975 123.569 < 2e-16 ***

sexpacienteM 0.2077544 0.0103076 20.156 < 2e-16 ***

edaoptom 0.0623760 0.0003118 200.046 < 2e-16 ***

aguDe -0.2754573 0.0200183 -13.760 < 2e-16 ***

agIzqu -0.2528529 0.0201668 -12.538 < 2e-16 ***

toD -0.2830933 0.0045949 -61.610 < 2e-16 ***

toI -0.2845348 0.0045864 -62.039 < 2e-16 ***

ojdeofcop 3.6461915 0.1283052 28.418 < 2e-16 ***

ojizofcop 3.3478138 0.1291273 25.926 < 2e-16 ***

fanARTSI -0.3583630 0.0292448 -12.254 < 2e-16 ***

fanCSI -0.3060001 0.0359829 -8.504 < 2e-16 ***

fanGLASI 1.0025757 0.0544641 18.408 < 2e-16 ***

fanREFRACSI -0.5765790 0.0333903 -17.268 < 2e-16 ***

fanDIASI -0.4268488 0.0319585 -13.356 < 2e-16 ***

fanPATOLOSI -0.5597420 0.0431028 -12.986 < 2e-16 ***

panQUIRURSI -0.2049197 0.0261481 -7.837 4.62e-15 ***

panTRAUMASI -0.9050856 0.1575771 -5.744 9.26e-09 ***

panToxAlerSI 0.5075399 0.1068361 4.751 2.03e-06 ***

panFARMACOLSI -0.9446935 0.1246903 -7.576 3.56e-14 ***

panARTSI -0.9462885 0.0286081 -33.078 < 2e-16 ***

panINMUNOLOSI -2.2037582 0.5589958 -3.942 8.07e-05 ***

Page 10: Modelo de diagnóstico de glaucoma en ...

Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones

panOFTALMOLOSI -0.2379114 0.0444180 -5.356 8.50e-08 ***

panCSI -0.5867042 0.1127891 -5.202 1.97e-07 ***

panGLASI 1.5060523 0.1302299 11.565 < 2e-16 ***

panREFRACSI -0.4073020 0.0284155 -14.334 < 2e-16 ***

panALERSI -0.2261043 0.0406214 -5.566 2.60e-08 ***

panCARDIOVASCUSI -0.8469003 0.0787877 -10.749 < 2e-16 ***

panDIASI -0.7812295 0.0505281 -15.461 < 2e-16 ***

panTIROSI -0.5417299 0.0411148 -13.176 < 2e-16 ***

panCOLSI -0.4769230 0.0823326 -5.793 6.93e-09 ***

panPATOLOSI -0.2157646 0.0312539 -6.904 5.07e-12 ***

panNEUROLOSI -0.8017314 0.1368885 -5.857 4.72e-09 ***

respo1 2.8484982 0.0250680 113.631 < 2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 533110 on 384887 degrees of freedom

Residual deviance: 251633 on 384855 degrees of freedom

AIC: 251699

Number of Fisher Scoring iterations: 6

Fig. 14. Desempeño del modelo Probit con balanceo de clases.

Con un umbral de 0,275 el desempeño es el siguiente:

Matriz de Confusión

Glaucomatoso No glaucomatoso

Glaucoma + 4 178 42 406

Glaucoma - 1 510 117 539

Métricas

Sensibilidad (TPR): 73,45% Exactitud (Accuracy): 73,48%

Especificidad (TNR): 73,48% Costo (COP): $ 39.470,0

En ambos casos los modelos Probit arrojan resultados

similares., aunque en este modelo el balanceo de clases

afectó el desempeño de la curva ROC. Al igual que se

evidenció en los modelos revisados hasta el momento los

antecedentes afectan negativamente la probabilidad de que

un paciente sea glaucomatoso

5.3 Modelo Random Forest

El modelo Random Forest se entrenó en una máquina con

especificaciones de memoria RAM elevada debido a que

el proceso con la cantidad de registros indicada toma una

cantidad de memoria aproxima da 4 Gb en RAM.

A continuación, se presenta el resumen del modelo:

Call:

randomForest(formula = respof ~ ., data = Train, method

= “class”)

Type of random forest: classification

Number of trees: 500

No. of variables tried at each split: 7

OOB estimate of error rate: 3.24%

Confusion matrix:

0 1 class.error

0 378255 1296 0.003414561

1 11428 1845 0.860996007

Fig. 8. Gráfica de las variables más utilizadas en el

modelo Random Forest.

Fig. 7. Desempeño del modelo Random Forest sin balanceo de clases.

Un umbral de 0,002 genera la siguiente matriz de

confusión:

Matriz de Confusión

Glaucomatoso No glaucomatoso

Glaucoma + 3606 34951 Glaucoma - 2083 127714

Page 11: Modelo de diagnóstico de glaucoma en ...

Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones

Métricas

Sensibilidad (TPR): 63,38% Exactitud (Accuracy): 78%

Especificidad (TNR): 78,51% Costo (COP): $ 35.962,0

Éste modelo no tiene un desempeño adecuado para el

problema de negocio planteado

Fig. 7. Desempeño del modelo Random Forest con balanceo de clases.

Un umbral de 0,047 genera la siguiente matriz de

confusión:

Matriz de Confusión

Glaucomatoso No glaucomatoso

Glaucoma + 3765 19565 Glaucoma - 1924 143100

Métricas

Sensibilidad (TPR): 75% Exactitud (Accuracy): 77%

Especificidad (TNR): 77,51% Costo (COP): $ 33.382,0

Y las variables de mayor importancia son:

Es de anotar que éste es el único modelo que le brinda

importancia predictiva alta a las mediciones de tonometría

(fundamental en la detección de glaucoma) que en el caso

de los modelos Logit y Probit, la asocian a disminución en

el odds de ser diagnosticado como glaucomatoso.

Conclusiones

En la tabla 3. Se muestra el resumen del desempeño de

los modelos.

Tabla 3. Resumen del desempeño de los modelos evaluados

Logit

Sin Balanceo Con balanceo

Exactitud 75,18% 73,55%

Sensibilidad 76,24% 73,40%

Especificidad 75,14% 73,56%

Costo $36.848,0 $ 39.364,0

Probit

Sin Balanceo Con balanceo

Exactitud 75,78% 73,48%

Sensibilidad 75,66% 73,45%

Especificidad 75,78% 73,48%

Costo $35.962,0 $39.470,0

Random Forest

Sin Balanceo Con balanceo

Exactitud 78% 77%

Sensibilidad 63,38% 75%

Especificidad 78,51% 77,51%

Costo $35.962,0 $33.382,0

El resultado de los modelos en general muestra una

medida de exactitud relativamente alta, sin embargo, esta

no es confiable para los datos en estudio los cuales

contienen una gran cantidad de valores 0 (sin glaucoma) y

un porcentaje muy bajo de valores 1(con glaucoma). Dado

lo anterior, medidas como la sensibilidad, especificidad y

costo fueron tomadas para la evaluación del mejor modelo.

Una alta sensibilidad para el estudio es considerada muy

importante ya que esta mide la tasa de verdaderos positivos

(pacientes con glaucoma) respecto de toda la población

glaucomatosa, lo cual es clave en este tipo de diagnósticos

donde un falso negativo (pacientes que se predicen como

no glaucomatosos pero que sí lo son), se verían reflejados

en resultados catastróficos para dichos pacientes. El

modelo Logit sin balanceo de clases predice los mejores

resultados en cuanto a la sensibilidad se refiere.

La especificidad, la cual mide en la predicción, la tasa

de aciertos de pacientes que son considerados no

glaucomatosos y efectivamente no lo son (Verdaderos

negativos), tiene resultados relativamente altos. Esta

medida es considerada, menos relevante que la

sensibilidad para nuestro estudio ya que un número bajo de

esta medida conllevaría un número alto de Falsos Positivos

(pacientes sobre los que se predice que son glaucomatosos

Page 12: Modelo de diagnóstico de glaucoma en ...

Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones

pero que en realidad no lo son, una mala predicción en este

caso no reflejaría consecuencias a un paciente que deba ser

atendido por esta razón. El modelo que mejores resultados

arroja en la especificidad es el Random Forest sin balanceo

de clases

En términos de costos, el valor que paga actualmente la

clínica por persona se reduciría sustancialmente al

incrementar el número de verdaderos positivos, ya que

estos no tendrían que pasar por el proceso de oftalmología.

Bajo este criterio, el mejor modelo es Random Forest con

balanceo, el cual tiene arroja un costo por predicción de

$33,382.

Los modelos confirman las variables de decisión de la

práctica clínica en términos de la excavación, tonometría,

antecedentes familiares y personales de glaucoma, estas

variables son las más significativas a la hora de predecir la

enfermedad.

No obstante los resultados del modelo, estos no

sustituyen el concepto médico. Este debe tomarse solo

como una herramienta para la toma de decisiones por parte

de la clínica.

Referencias

[1] ALEMAÑY J., VILLAR, R. Oftalmología. 5ta ed. Ed. Ciencias

Médicas (2005) [2] BOYD, B, F., LUNTZ, M. H. Innovations in the Glaucomas

Etiology, Diagnosis and Management (Boyd, Luntz). 2002.

[3] DÍAZ ALFONSO, L. R., SUÁREZ RODRÍGUEZ B. N., CURBELO GÓMEZ, M. J., SOTO SERRANO Y., MILANÉS

ARMENGOL, A. R. Caracterización epidemiológica del

glaucoma primario de ángulo abierto. Revista Electrónica de las Ciencias Médicas en Cienfuegos

[4] FLAMMER J. Glaucoma. Barcelona: Médica (2004)

[5] INTERNATIONAL COUNCIL OF OFTALMOLOGY. Guías Clínicas del Consejo Internacional de Oftalmología (ICO) para el

cuidado del Glaucoma. 2015

[6] JANGHORBANI, A., MORADI, M. H. Fuzzy Evidential Network and Its Application as Medical Prognosis and Diagnosis Models.

Journal of Biomedical Informatics 72 (2017) 96–107 [7] MORRISON, J. C., POLLACK, I. P. Glaucoma Science and

Practice. Thieme Medical Publishers, Inc. 2003

[8] MALMIR, B., AMINI, M., CHANG, S. I. A medical decision support system for disease diagnosis under uncertainty. Expert

Systems with Applications 88 (2017) 95–108

[9] PAUL MANGIAMELI, DAVID WEST, ROHIT RAMPAL, Model selection for medical diagnosis decision support systems.

Decision Support Systems 36 (2004) 247– 259

[10] PIRI, S., DELEN, D., LIU, T., ZOLBANIN, H. M. A data analytics approach to building a clinical decision support system

for diabetic retinopathy: Developing and deploying a model

ensemble. Decision Support Systems 101 (2017) 12–27. [11] SHILASKAR, S., GHATOL, A., CHATUR, P., Medical decision

support system for extremely imbalanced datasets. Information

Sciences 384 (2017) 205–219 [12] WÓJTOWICZ, A., ZYWICA, P., STACHOWIAK, A.,

DYCZKOWSKI, K. Solving the problem of incomplete data in

medical diagnosis via interval modeling. Applied Soft Computing 47 (2016) 424–437

[13] ŽABKAR, J., BRATKO, I., DEMŠAR, J. Extracting qualitative

relations from categorical data. Artificial Intelligence 239 (2016)

54–69