Modelo de diagnóstico de glaucoma en ...
Transcript of Modelo de diagnóstico de glaucoma en ...
Maestría en Inteligencia Analítica para la Toma de Decisiones
DEPARTAMENTO DE INGENIERÍA INDUSTRIAL
UNIVERSIDAD DE LOS ANDES
Food
Analytics
www.uniandes.edu.co
Modelo de diagnóstico de glaucoma
en etapas tempranas
Huber Díaz Pinzón, Rodian A. Oliveros Guerrero
Asesor: Ivan Mura – Pre asesor: Astrid Bernal
21 de Noviembre de 2017
Abstract
IMEVI Ltda. es una institución prestadora de servicios en salud visual y ocular que ha decidido incorporar dentro de sus
procesos de toma de decisiones Analytics. Para la IPS la enfermedad con mayor consumo de recursos y mayor necesidad de
detección rápida es el glaucoma. Con una base de datos de 10 años de y 709.597 registros que contienen las variables de
medición en la etapa temprana de optometría (agudeza visual, excavación, tonometría), los antecedentes familiares y
personales, se modelaron las probabilidades de que un paciente sea diagnosticado con la patología del glaucoma desde la etapa
temprana. Se evaluaron modelos Logit y Probit completos y con reducción de variables, así como con balanceo y sin balanceo
de clases. También se incluyeron modelos basados en árboles (Random Forest) con balanceo y sin balanceo. Todos los
modelos arrojaron resultados similares en términos de métricas de respuesta, no obstante, se evidencian mejoras en el proceso
de detección del glaucoma con el modelo Logit con balanceo y el modelo Random Forest con balanceo.
Keywords: Glaucoma; Detección temprana, Regresión Logística; Modelo Probit, Random Forest.
1. Introducción
IMEVI Ltda. es una institución prestadora de servicios
especializada en la salud visual y ocular, que partiendo del
examen de optometría integral llega hasta cirugías de mayor
complejidad, pasando por el suministro de lentes oftálmicos,
exámenes de apoyo diagnóstico y consulta externa.
Con más de diez (10) años siendo financiada por
Compensar EPS, y un largo historial de registros clínicos,
IMEVI ha decido implementar Analytics en pro de mejorar
sus procesos en la toma de decisiones relacionada con los
recursos económicos que la EPS otorga para el manejo de la
salud visual de sus afiliados
Una de las patologías que IMEVI diagnostica y trata es el
glaucoma, neuropatía óptica crónica y progresiva que se
caracteriza por una pérdida de la capa de fibras nerviosas de
la retina, una excavación y palidez progresiva de la papila y
el desarrollo de defectos del campo visual. Generalmente
está asociado a un aumento de la presión intraocular (PIO). [1,4]
Es indispensable anotar que esta patología es incurable,
pero con el oportuno y adecuado tratamiento previene la
ceguera producto del daño del nervio óptico por la
hipertensión causada por el exceso de humor vítreo. Pese a
que presiones intraoculares superiores a 21 mmHg se
consideran un factor determinante para diagnosticar
glaucoma, se evidencian casos sin esta sintomatología, así
como pacientes sanos con presiones elevadas (considerados
como sospechosos de glaucoma) y a los que se les debe
realizar seguimiento por parte del oftalmólogo.
El diagnóstico del glaucoma se basa en la lista de chequeo
de las guías de práctica clínica del Consejo Internacional de
Oftalmología. [5] La investigación en el área está enfocada a
la mejora de los exámenes diagnósticos (fotografías y
OCT’s) y hacia el análisis de los factores de riesgo en la
progresión de la enfermedad.
Según los estudios internos de IMEVI Ltda., el glaucoma
es una enfermedad cuya prevalencia en la clínica es del 41%
(28% en sospecha de glaucoma, 8% es glaucoma de ángulo
Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones
abierto y el 5% es de ángulo cerrado) y una incidencia del
3%, no obstante, demanda de la IPS más del 65% de los
recursos de la bolsa que trimestralmente Compensar E.P.S.
otorga a IMEVI para la atención de sus afiliados.
La literatura reporta investigación epidemiológica sobre
el glaucoma, no obstante, no se evidencia investigación en
modelos de ayudas diagnósticas con base en los factores de
riesgo encontrados.
2. Proceso de diagnóstico del glaucoma de IMEVI
El modelo de atención inicia con la visita al optómetra de
un paciente (que puede ser tanto “glaucomatoso” como “No
glaucomatoso”). El optómetra dentro de su práctica clínica
realiza tres exámenes in-situ (en la consulta):
Agudeza visual: determinación de la capacidad del
sistema de visión para percibir, detectar o identificar
objetos especiales.
Excavación: Examen del fondo del ojo y el globo
ocular en tres dimensiones con la ayuda de lentes
especiales, mediante una lámpara de hendidura.
Presión intraocular: Mediante un tonómetro se
determina la tensión ocular en milímetros de mercurio.
Si el optómetra detecta algún indicio, enmarcado dentro
de los exámenes de presión intraocular (PIO) o de
excavación (fondo de ojo), remite con el oftalmólogo
general. (Ver. Figura 1).
Figura 1: Modelo de atención actual para el diagnóstico y tratamiento del Glaucoma
en IMEVI Ltda.
En “consulta oftalmológica por primera vez”, el
oftalmólogo a través de tres tipos de exámenes in-situ realiza
una segunda inspección, incluyendo un examen adicional
denominado gonioscopia que mide el ángulo camerular, el
cual le permite clasificar el glaucoma en sus dos formas
clásicas, de ángulo abierto o de ángulo cerrado. Con base en
los hallazgos puede remitir a una combinación de cualquiera
de los 4 tipos de exámenes de apoyo:
Campimetría (campos visuales): su finalidad es
comprobar la amplitud del campo visual.
Paquimetría: Examen que sirve para medir el grosor
de la córnea
OCT (Tomografía de Coherencia Óptica): Examen que
permite el estudio de cortes histológicos de la retina.
Fotografías internas del ojo: permite estudiar la
estructura del ojo.
Una vez el paciente dispone de los resultados de los
exámenes, el optómetra puede llegar a requerir más
combinaciones de estos, hasta que esté satisfecho para
clasificar al paciente como:
1. Sospechoso de glaucoma
2. Glaucomatoso
Si el diagnóstico es de sospecha, el paciente debe seguir
en supervisión cada cierto periodo tiempo, para realizar
seguimiento a la sospecha con base en el criterio del
oftalmólogo. Si las variables son estables, el paciente sigue
yendo a consulta periódica para control. En caso de que el
paciente no se estabilice o que haya sido clasificado como
glaucomatoso, pasa a consulta con el glaucomatólogo
(supraespecialista)
El glaucomatólogo, de igual manera que el oftalmólogo
general tiene la posibilidad de solicitar las cuatro ayudas
diagnósticas previamente expuestas en cualquiera de sus
combinaciones y cuantas veces considere necesario, junto
con una quinta (Sobrecarga Hídrica), de tal manera que se
pueda llegar al tratamiento adecuado para el paciente, que
según sea el tipo y grado del glaucoma sea medicación
tópica o la respectiva cirugía:
Sobrecarga hídrica: Ensayo que permite evaluar el
estado del sistema de drenaje del humor acuoso y para
analizar la capacidad del ojo para controlar su presión.
Mientras el paciente no estabilice su presión intraocular
(principal variable de control), sigue siendo atendido por el
glaucomatólogo hasta que lo logre con alguno de los
tratamientos previamente descritos. Una vez la enfermedad
se estabiliza, el paciente regresa a controles con el
oftalmólogo general, que, de nuevo, para realizar
seguimiento al paciente, puede solicitar las cuatro ayudas
diagnósticas en cualquiera de sus combinaciones y cuantas
veces considere necesario, para que, en caso de que se
desestabilice, regresarlo al glaucomatólogo. (Ver figura 2).
Teniendo en cuenta la situación actual, para IMEVI es
fundamental determinar si es posible obtener un modelo de
atención para el diagnóstico de la patología del glaucoma,
que permita la minimización del número de intervenciones
(consultas, exámenes y cirugías) necesarias para el
diagnóstico efectivo y oportuno de esta patología.
3. Uso y análisis de la información
En el proceso descrito anteriormente para el diagnóstico
y control de la patología del glaucoma, se tienen datos
tomados por los médicos en las historias clínicas a partir del
año 2007 a la fecha. Esta información, obtenida en cada una
de las etapas del proceso, (optometría, oftalmología,
glaucomatología /
Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones
Formulación gotas suaves: Monoconjugado (Timolol / Latanoprost / Brimonidina)
Formulación gotas medias: Biconjugado (Timolol + Travatam)
Formulación gotas fuertes: Triconjugado (Timolol + Brimonidina + Dorzolamida) Kritantek
Trabeculoplastia: Cirugía para tratamiento de glaucomas abiertos (Laser) Iridoplastia: Cirugía para tratamiento de glaucoma de ángulo cerrado (Quirófano) Iridotomía: Cirugía para tratamiento de glaucoma de ángulo cerrado (Laser) Trabeculectomía: Cirugía para tratamiento de glaucomas abiertos o cerrados (Quirófano) Implante Valvular: Último recurso para el tratamiento del glaucoma (Quirófano)
Figura 2: Modelo general de atención actual para el diagnóstico y tratamiento del Glaucoma en IMEVI Ltda
supraespecialista) se registra en las bases de datos de las
aplicaciones de la clínica.
3.1 Información obtenida a partir del ERP de la clínica.
La información obtenida a través de la clínica para el
análisis fue extraída únicamente del subproceso de
optometría (Ver figura 1). Este proceso cuenta con una
base de datos que contiene los registros de los pacientes
que ingresan por consulta de optometría. La información
de los campos se encuentra semiestructurada, y a través de
analítica de texto se realizó la extracción de variables
asociadas a las características del ojo.
En el anexo se puede observar un resumen de las
variables originales de la base de datos suministrada por
IMEVI en archivos con formato Microsoft Excel® por año
desde el 2007 hasta el 2017. Fue necesario evaluar cada
archivo y eliminar filas que se encontraban corridas a nivel
de los campos. En total se eliminaron cerca de 1200
registros. Una vez realizado este proceso se unió y exportó
a un archivo único en formato .csv.
3.2 Depuración de los datos
La depuración inicial de la información consistió en la
eliminación de variables sin observaciones, de variables
consideradas irrelevantes, y de registros sin códigos
válidos diagnósticos (CIE10) ni códigos válidos de
remisión de exámenes (CUPS).
Los valores de las columnas de antecedentes familiares
y personales contenían valores nulos para los pacientes que
no han padecido enfermedades y el valor de la fecha para
quienes sí. Por lo anterior se cambiaron los valores nulos
por el “NO” y los valores de fecha por el “SI”, y se
codificaron como factores.
Según información suministrada por los expertos de la
clínica, para las columnas de agudeza visual se eliminaron
los valores PNC (paciente no colabora) tanto del ojo
izquierdo como del ojo derecho. Igualmente se cambiaron
los valores PROT (prótesis) a valores 0, NPL (no
percepción luminosa) a valor 0, PPL (percepción y
proyección luminosa) a valor 0.02, PL (proyección
luminosa) a valor 0.01, FNSM (fija, no sostiene ni
Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones
mantiene) a valor 0.03, CD (cuenta dedos) a valor 0.04 y
FSCM (fija, sostiene y mantiene) a valor 0.03.
Los demás datos numéricos encontrados sin formato por
ejemplo valores que contenían caracteres extra, unidos a la
medición de la agudeza visual, fueron extraídos aplicando
una función para obtener únicamente la parte numérica.
Para la información de las variables de tonometría de
los dos ojos se eliminaron los registros con los siguientes
valores: (“NO COLABORA”, el paciente no colabora) y
(“P. NERVIOSO”, el paciente se pone nervioso).
De la misma manera que para los campos de agudeza
visual, se cambiaron los valores de las columnas de
tonometría que contienen medidas que incluyen caracteres
extra. Se aplicó una función para extraer únicamente la
parte numérica y se actualizaron los campos. Igualmente
se cambiaron las columnas con valores de “NORMAL”
por el valor 18 y los valores de “MEDIA” por el valor 22.
Lo anterior ya que según los expertos dichos valores
corresponden a los valores categóricos mencionados.
Se eliminaron de los registros de la base de datos con
edades mayores a 110 años y menores a 0.
Por recomendación de los expertos se eliminaron de los
valores de agudeza visual y de oftalmoscopia superiores a
uno (1) los cuales no tienen sentido en el punto de vista de
la medición y que correspondían a errores de digitación del
profesional encargado del diagnóstico.
La variable de respuesta fue construida a partir de los
diagnósticos primario y relacionados de oftalmología
encontrados en la base de datos, asignando el valor uno (1)
para los códigos: H400, H401, H402, H403, H404, H405,
H406, H408, H409, H420, H428; y cero (0) de lo contrario.
Por último, se renombraron las columnas por nombres
cortos. El código asociado a la depuración se puede ver en
los anexos, donde se puede observar que tras la depuración
de la información inicial (709597 registros con 81 campos)
el remanente es una base de datos de 552110 observaciones
y 62 variables.
3.3 Descripción de los datos
Al finalizar el proceso de revisión no se encontraron
datos faltantes y se observó que tras el proceso de
depuración descrito durante de la etapa de depuración,
estos desaparecieron.
3.4 Análisis exploratorio
Una vez reducida la base de datos se procedió a revisar
la variable de respuesta como se puede ver en la figura 4.
Fig. 4. Distribución de la variable de respuesta del oftalmólogo en la base de datos
Este desbalance de clases se abordó generando una
segunda base de datos balanceada por el método de sobre
muestreo sintético minoritario (SMOTE - Synthetic
Minority Over-sampling Technique), obteniendo una
segunda colección de datos con la siguiente distribución.
Fig. 5. Distribución de la variable de respuesta del oftalmólogo en la base de datos
sintética 0: No Glaucomatoso, 1: Glaucomatoso
A partir de la base de datos se revisó la prevalencia y la
incidencia del glaucoma en IMEVI. En la figura 6, y la
tabla 1 se observa la evolución de la incidencia de ésta
patología desde 2007.
Fig. 6. Evolución de la incidencia del glaucoma en los pacientes de IMEVI.
Tabla 1. Prevalencia e incidencia del glaucoma en IMEVI
Year Prevalencia Incidencia
No sospechoso Sospechoso No glaucomatoso Galucomatoso
2007 463 124 46 541 0.001
2008 3650 1258 503 4405 0.006 3864
2009 4611 1518 597 5532 0.008 1127
2010 5122 2161 908 6375 0.009 843
2011 6310 2566 980 7896 0.011 1521
2012 6964 3808 1476 9296 0.013 1400
2013 8566 4579 2189 10956 0.015 1660
2014 8757 5029 2290 11496 0.016 540
2015 9402 5814 2646 12570 0.018 1074
2016 10279 6476 3120 13635 0.019 1065
Población Total 709597 82702
Optometría Oftalmología
Prevalencia de la enfermedad del Glaucoma
Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones
Las prevalencias encontradas anualmente en la base de
datos suministrada por IMEVI, tiene un valor aproximado
del 2%, lo que está acorde con los informes reportados por
la Sociedad Colombiana del Glaucoma. (Tabla 1).
También se evaluó la precisión del diagnóstico actual
del glaucoma, obteniéndose la siguiente matriz de
confusión:
Tabla 2. Prevalencia e incidencia del glaucoma en IMEVI
La matriz de confusión de la tabla 2 muestra una tasa
del 27% en la clasificación del paciente glaucomatoso con
respecto al total de Glaucomatosos reportados por
oftalmología, así miso, el diagnóstico del optómetra tiene
una precisión del 46%. Estas métricas fueron utilizadas
como línea base para cuantificar las mejoras de los
modelos.
4. Metodología
Teniendo en cuenta la pregunta de negocio se optó por el
modelamiento de la probabilidad de que un paciente tenga
o no glaucoma en función de sus antecedentes, de la
información de tonometrías, fondo de ojo y agudeza visual
en optometría, de tal manera que desde esta etapa temprana
se puedan ordenar varios exámenes diagnósticos a aquellos
pacientes clasificados como glaucomatosos.
IMEVI proporcionó la siguiente información sobre
costos:
por un falso positivo (FP) en la detección temprana
de glaucoma se incurre un costo de $150.000 COP
asociados a la consulta adicional del oftalmólogo y
dos diagnósticos intermedios (campimetría y
paquimetría);
los costos adicionales por un falso negativos (FN)
serían de $200.000 COP, asociados a dos consultas
con oftalmólogo y los mismos dos exámenes
diagnósticos
los ahorros por la detección temprana de un caso
(VP) de glaucoma serían de $30.000 COP lo cual
implicaría un ahorro total según el pronóstico actual
del 27% de 152 millones de pesos.
Conjuntamente con IMEVI, se supuso que en el caso de los
verdaderos negativos no hay ni ahorros ni costos.
Con base en la información de costos suministrada por
IMEVI se desarrolló una función de costos por paciente
con la que se medirá el desempeño de cada modelo a
evaluar con base en las métricas de la matriz de confusión
junto con la ponderación económica.
Teniendo en cuenta lo anterior se evaluarán, con base
en la bibliografía consultada, los siguientes modelos:
Modelo Logit (Full, reducido por selección de
variables método backwards, y con selección de
variables por Least Absolute Shrinkage and
Selection Operator - LASSO);
Modelo Probit (Full, reducido por selección de
variables método backwards);
Modelos basados en arboles de decisión (Random
Forest).
Teniendo en cuenta el desbalanceo de clases
evidenciado en el análisis exploratorio se evaluaron los
modelos con y sin balanceo de clases, de manera que se
escoge aquel que demuestre mejor desempeño. Todos los
modelos se presentan completos en el anexo de este
documento.
5. Desarrollo del modelo
5.1 Modelo de regresión logística.
Este tipo de modelo (regresión logística) es utilizado
para predecir el resultado de una variable categórica
binaria en función de las variables independientes o
predictoras. Es útil para modelar la probabilidad de un
evento en función de otros factores. La forma general del
modelo de regresión logística es:
𝑦𝑖~𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖 (𝜋𝑖) (1)
Cuyo valor esperado es:
𝐸[𝑦𝑖] =𝑒𝛽0+𝛽1𝑥1+𝛽2𝑥2+ … +𝛽𝑘𝑥𝑘
1+ 𝑒𝛽0+𝛽1𝑥1+𝛽2𝑥2+ … +𝛽𝑘𝑥𝑘 (2)
Los estimadores de los parámetros del modelo se
determinan por máxima verosimilitud.
5.1.1 Modelo de regresión logística sin balanceo de
clases
A continuación, se presenta un extracto del modelo Logit
sin balanceo de clases con su respectivo desempeño.
Call:
glm(formula = respof ~ ., family = "binomial", data = Train)
Deviance Residuals:
Min 1Q Median 3Q Max
-3.2671 -0.2524 -0.1742 -0.1217 3.7646
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.899e+00 1.284e-01 -45.957 < 2e-16 ***
sexpacienteM -1.849e-01 2.028e-02 -9.122 < 2e-16 ***
edaoptom 3.880e-02 5.343e-04 72.622 < 2e-16 ***
aguDe 1.603e-01 3.412e-02 4.698 2.63e-06 ***
agIzqu 2.696e-02 3.419e-02 0.789 0.430278
toD -7.388e-03 6.456e-03 -1.144 0.252492
toI -2.085e-02 6.414e-03 -3.251 0.001150 **
ojdeofcop 2.595e+00 1.703e-01 15.236 < 2e-16 ***
ojizofcop 1.913e+00 1.707e-01 11.207 < 2e-16 ***
fanQUIRURSI 3.051e-02 2.714e-01 0.112 0.910483
fanTRAUMASI -9.328e+00 9.185e+01 -0.102 0.919108
fanToxAlerSI 7.095e-01 1.061e+00 0.669 0.503664
fanFARMACOLSI 1.316e+00 6.710e-01 1.962 0.049784 *
fanARTSI -2.204e-01 5.216e-02 -4.226 2.38e-05 ***
fanINMUNOLOSI -9.864e-03 1.065e+00 -0.009 0.992609
fanOBSTETSI 2.636e+00 1.091e+00 2.415 0.015714 *
fanESTRASI -1.862e-02 5.234e-01 -0.036 0.971622
fanOFTALMOLOSI 2.096e-01 1.061e-01 1.976 0.048201 *
fanCSI -9.748e-02 6.330e-02 -1.540 0.123528
fanGLASI 9.591e-01 7.839e-02 12.236 < 2e-16 ***
fanREFRACSI -4.126e-01 6.117e-02 -6.745 1.53e-11 ***
fanGENESI -8.859e+00 1.063e+02 -0.083 0.933611
fanPrenaSI -8.566e+00 1.093e+02 -0.078 0.937510
Matriz de Confusión Actual según Optometria/Oftalmología
Optometría + -
+ 5069 5963 11032
- 13891 527187 541078
18960 533150
Exactitud 27%
Oftalmología
Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones
fanPERINASI -9.310e+00 9.848e+01 -0.095 0.924685
fanPostnaSI -8.773e+00 1.269e+02 -0.069 0.944883
fanALERSI -1.873e-01 3.767e-01 -0.497 0.618917
fanMEDICAMSI 2.164e-01 4.903e-01 0.441 0.658942
fanCARDIOVASCUSI 1.835e-01 1.035e-01 1.773 0.076258 .
fanDIASI -3.069e-01 5.728e-02 -5.358 8.42e-08 ***
fanTIROSI -1.189e-01 1.947e-01 -0.611 0.541377
fanCOLSI -4.134e-01 2.637e-01 -1.568 0.116963
fanENDOCSI -9.293e+00 8.473e+01 -0.110 0.912657
fanPATOLOSI -4.060e-01 7.646e-02 -5.310 1.10e-07 ***
fanNEUROLOSI 8.330e-02 3.880e-01 0.215 0.830004
fanHOSPITALSI 1.403e+00 1.071e+00 1.310 0.190088
panQUIRURSI 1.303e-01 4.354e-02 2.993 0.002766 **
panTRAUMASI -3.763e-01 2.586e-01 -1.455 0.145643
panToxAlerSI 6.457e-01 1.625e-01 3.973 7.11e-05 ***
panFARMACOLSI -2.229e-01 2.031e-01 -1.097 0.272588
panARTSI -3.407e-01 4.925e-02 -6.918 4.57e-12 ***
panINMUNOLOSI 1.150e-01 7.687e-01 0.150 0.881056
panOBSTETSI -8.727e-04 3.030e-01 -0.003 0.997702
panESTRASI 8.891e-02 4.323e-01 0.206 0.837028
panOFTALMOLOSI 1.337e-01 6.975e-02 1.917 0.055244 .
panCSI 1.714e-03 1.744e-01 0.010 0.992161
panGLASI 1.877e+00 1.337e-01 14.042 < 2e-16 ***
panREFRACSI -2.878e-01 5.122e-02 -5.619 1.92e-08 ***
panGENESI 7.750e-01 6.054e-01 1.280 0.200478
panPrenaSI 5.199e-01 5.138e-01 1.012 0.311597
panPERINASI 1.142e-01 3.931e-01 0.291 0.771362
panPostnaSI -1.142e+00 7.101e-01 -1.608 0.107913
panALERSI 4.447e-02 6.904e-02 0.644 0.519517
panMEDICAMSI 4.284e-01 6.400e-02 6.694 2.16e-11 ***
panCARDIOVASCUSI -5.108e-01 1.431e-01 -3.570 0.000357 ***
panDIASI -2.704e-01 8.772e-02 -3.083 0.002048 **
panTIROSI -3.520e-01 7.241e-02 -4.861 1.17e-06 ***
panCOLSI 8.750e-02 1.325e-01 0.660 0.509077
panENDOCSI 1.197e-01 4.809e-01 0.249 0.803502
panPATOLOSI -1.067e-01 5.470e-02 -1.951 0.051007 .
panNEUROLOSI -3.074e-01 2.152e-01 -1.429 0.153085
panHOSPITALSI 7.164e-02 2.613e-01 0.274 0.783956
respo1 2.491e+00 2.960e-02 84.135 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 115574 on 386476 degrees of freedom
Residual deviance: 89959 on 386415 degrees of freedom
AIC: 90083
Number of Fisher Scoring iterations: 12
Fig. 7. Desempeño del modelo Logit Full sin balanceo de clases.
Con un umbral de 0,0325 el desempeño es el siguiente:
Matriz de Confusión
Glaucomatoso No glaucomatoso
Glaucoma + 4 337 39 755 Glaucoma - 1 351 120 190
Métricas
Especificidad (TNR): 75,19% Exactitud (Accuracy): 75,23%
Sensibilidad (TPR): 76,24% Costo (COP): $ 36.773,0
Al revisar el modelo resultante se puede observar que
muchas variables no son significativas, hacen pesado al
modelo y no aportan mucha información, por lo que se
realiza una selección de variables por el método backwards
utilizando como criterio de exclusión el p-Value, y con
base en los criterios de información de Akaike y Bayesiano
se selecciona un modelo más parsimonioso. En la figura 5.
Se puede observar los resultados de la selección de
variables
Fig. 8 Criterios de información de los diferentes modelos generados
Dado que el BIC arroja una cantidad sustancialmente
menor de variables se opta por realizar el modelo con las
20 variables más significativas, arrojadas por este criterio.
Los resultados son los siguientes:
Call:
glm(formula = formula(Crit$Formula[which.min(Crit$BIC)]),
family = "binomial",
data = Train)
Deviance Residuals:
Min 1Q Median 3Q Max
-3.2226 -0.2525 -0.1743 -0.1220 3.7837
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.9442033 0.1158375 -51.315 < 2e-16 ***
sexpacienteM -0.1869701 0.0202434 -9.236 < 2e-16 ***
edaoptom 0.0388112 0.0005264 73.730 < 2e-16 ***
aguDe 0.1742640 0.0289809 6.013 1.82e-09 ***
toI -0.0256795 0.0050248 -5.110 3.21e-07 ***
ojdeofcop 2.5970215 0.1703948 15.241 < 2e-16 ***
ojizofcop 1.9114734 0.1707429 11.195 < 2e-16 ***
fanARTSI -0.2223988 0.0516510 -4.306 1.66e-05 ***
fanGLASI 0.9661579 0.0780938 12.372 < 2e-16 ***
fanREFRACSI -0.4108726 0.0605650 -6.784 1.17e-11 ***
fanDIASI -0.2995194 0.0567549 -5.277 1.31e-07 ***
fanPATOLOSI -0.3905402 0.0762227 -5.124 3.00e-07 ***
panToxAlerSI 0.6748140 0.1618895 4.168 3.07e-05 ***
panARTSI -0.3534831 0.0486742 -7.262 3.81e-13 ***
panGLASI 1.8835431 0.1332768 14.133 < 2e-16 ***
panREFRACSI -0.2948228 0.0491307 -6.001 1.96e-09 ***
panMEDICAMSI 0.4314720 0.0633725 6.809 9.86e-12 ***
panCARDIOVASCUSI -0.5067016 0.1430712 -3.542 0.000398 ***
panTIROSI -0.3442133 0.0722467 -4.764 1.89e-06 ***
respo1 2.4932160 0.0295647 84.331 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 115574 on 386476 degrees of freedom
Residual deviance: 90022 on 386457 degrees of freedom
AIC: 90062
Number of Fisher Scoring iterations: 7
Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones
Como se puede observar se obtiene un modelo con todas
las variables significativas. A continuación, se presenta el
desempeño de este modelo:
Fig. 9. Desempeño del modelo Logit reducido sin balanceo de clases.
Con un umbral de 0,0325 el desempeño es el siguiente:
Matriz de Confusión
Glaucomatoso No glaucomatoso
Glaucoma + 4 337 39 755
Glaucoma - 1 351 120 190
Métricas
Sensibilidad (TPR): 76,24% Exactitud (Accuracy): 75,18%
Especificidad (TNR): 75,14% Costo (COP): $ 36.848,0
Como se puede observar no se evidencia diferencia
entre la respuesta del modelo reducido con el modelo full.
Las figuras 4 y 6, son sustancialmente idénticas y las
métricas de respuesta del modelo también son similares, no
obstante, la selección de modelo reducido es imperante en
términos de parsimonia y arroja
Los estimadores de los coeficientes son coherentes con
los factores de riesgo del glaucoma [3], como la edad, el
sexo (la enfermedad tiene una mayor incidencia en
mujeres) y los antecedentes familiares de glaucoma.
Se evidencia el peso de los coeficientes asociados al
diagnóstico optométrico como la agudeza visual y
principalmente la oftalmoscopia. Otra variable que se
incluyó en el modelo es el concepto del optómetra, que
puede contener información valiosa del diagnóstico con
base en hallazgos no reportados. Los valores de estos
estimadores pueden incrementar hasta siete (7) veces el
odds ratio asociados al diagnóstico de glaucomatoso
contra no glaucomatoso.
Es de anotar que una variable fundamental para el
diagnóstico positivo del glaucoma expresada en las guías
de práctica clínica del Consejo Internacional de
Oftalmología como lo es la tonometría aparece como un
factor que disminuye los odds ratio, no obstante, tras la
socialización en IMEVI, se esclarecieron problemas tanto
para tomar las medidas, como para capturar los datos.
5.1.2 Modelo de regresión logística - balanceo de clases
Con el respectivo balanceo de clases el resultado es el
siguiente:
Call:
glm(formula = respof ~ ., family = "binomial", data = BTrain)
Call:
glm(formula = respof ~ ., family = "binomial", data = BTrain)
Deviance Residuals:
Min 1Q Median 3Q Max
-4.7540 -0.4559 0.0311 0.4186 3.7648
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 6.774e+00 5.484e-02 123.528 < 2e-16 ***
sexpacienteM 2.070e-01 1.031e-02 20.072 < 2e-16 ***
edaoptom 6.238e-02 3.129e-04 199.353 < 2e-16 ***
aguDe -2.748e-01 2.003e-02 -13.722 < 2e-16 ***
agIzqu -2.530e-01 2.017e-02 -12.541 < 2e-16 ***
toD -2.832e-01 4.597e-03 -61.594 < 2e-16 ***
toI -2.846e-01 4.589e-03 -62.014 < 2e-16 ***
ojdeofcop 3.646e+00 1.284e-01 28.399 < 2e-16 ***
ojizofcop 3.348e+00 1.292e-01 25.913 < 2e-16 ***
fanQUIRURSI -5.090e-01 1.864e-01 -2.730 0.00632 **
fanTRAUMASI -9.412e+00 8.181e+01 -0.115 0.90841
fanToxAlerSI -1.266e+00 9.340e-01 -1.356 0.17522
fanFARMACOLSI 5.538e-01 5.723e-01 0.968 0.33320
fanARTSI -3.548e-01 2.935e-02 -12.085 < 2e-16 ***
fanINMUNOLOSI -7.538e-01 6.495e-01 -1.161 0.24578
fanOBSTETSI 2.279e+00 1.142e+00 1.996 0.04590 *
fanESTRASI 5.981e-01 2.810e-01 2.128 0.03333 *
fanOFTALMOLOSI 1.421e-01 6.554e-02 2.169 0.03011 *
fanCSI -2.959e-01 3.612e-02 -8.193 2.54e-16 ***
fanGLASI 1.003e+00 5.453e-02 18.385 < 2e-16 ***
fanREFRACSI -5.759e-01 3.351e-02 -17.187 < 2e-16 ***
fanGENESI -1.354e+01 8.216e+01 -0.165 0.86912
fanPrenaSI -8.737e+00 1.121e+02 -0.078 0.93790
fanPERINASI -1.009e+01 7.541e+01 -0.134 0.89361
fanPostnaSI -9.957e+00 1.004e+02 -0.099 0.92101
fanALERSI -5.651e-01 2.218e-01 -2.547 0.01086 *
fanMEDICAMSI -1.149e+00 3.555e-01 -3.233 0.00123 **
fanCARDIOVASCUSI -1.510e-01 6.422e-02 -2.351 0.01871 *
fanDIASI -4.259e-01 3.201e-02 -13.305 < 2e-16 ***
fanTIROSI -7.673e-02 1.172e-01 -0.655 0.51268
fanCOLSI -5.114e-02 1.421e-01 -0.360 0.71901
fanENDOCSI -1.163e+01 5.620e+01 -0.207 0.83605
fanPATOLOSI -5.623e-01 4.314e-02 -13.036 < 2e-16 ***
fanNEUROLOSI -2.400e-01 2.352e-01 -1.021 0.30744
fanHOSPITALSI 1.580e+00 6.382e-01 2.476 0.01330 *
panQUIRURSI -2.052e-01 2.625e-02 -7.815 5.48e-15 ***
panTRAUMASI -9.091e-01 1.574e-01 -5.775 7.71e-09 ***
panToxAlerSI 5.120e-01 1.068e-01 4.793 1.64e-06 ***
panFARMACOLSI -9.369e-01 1.250e-01 -7.494 6.67e-14 ***
panARTSI -9.462e-01 2.870e-02 -32.966 < 2e-16 ***
panINMUNOLOSI -2.207e+00 5.598e-01 -3.943 8.04e-05 ***
panOBSTETSI -2.631e-01 1.977e-01 -1.331 0.18325
panESTRASI -2.209e-01 2.707e-01 -0.816 0.41454
panOFTALMOLOSI -2.334e-01 4.447e-02 -5.249 1.53e-07 ***
panCSI -5.850e-01 1.129e-01 -5.183 2.18e-07 ***
panGLASI 1.508e+00 1.302e-01 11.581 < 2e-16 ***
panREFRACSI -4.082e-01 2.849e-02 -14.327 < 2e-16 ***
panGENESI 7.407e-01 3.394e-01 2.182 0.02908 *
panPrenaSI 5.601e-01 3.085e-01 1.816 0.06941 .
panPERINASI -1.872e-02 2.478e-01 -0.076 0.93979
panPostnaSI -9.277e-02 2.330e-01 -0.398 0.69053
panALERSI -2.263e-01 4.066e-02 -5.567 2.59e-08 ***
panMEDICAMSI 1.146e-02 4.228e-02 0.271 0.78627
panCARDIOVASCUSI -8.502e-01 7.881e-02 -10.789 < 2e-16 ***
panDIASI -7.793e-01 5.058e-02 -15.408 < 2e-16 ***
panTIROSI -5.401e-01 4.112e-02 -13.135 < 2e-16 ***
panCOLSI -4.608e-01 8.258e-02 -5.580 2.41e-08 ***
panENDOCSI -9.640e-01 3.031e-01 -3.181 0.00147 **
panPATOLOSI -2.172e-01 3.131e-02 -6.937 3.99e-12 ***
panNEUROLOSI -7.994e-01 1.369e-01 -5.838 5.28e-09 ***
panHOSPITALSI -9.950e-02 1.558e-01 -0.639 0.52293
respo1 2.848e+00 2.507e-02 113.576 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 533110 on 384887 degrees of freedom
Residual deviance: 251530 on 384826 degrees of freedom
AIC: 251654
Number of Fisher Scoring iterations: 11
Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones
Fig.10. Desempeño del modelo Logit full con balanceo de clases.
Con un umbral de 0,275 el desempeño es el siguiente:
Matriz de Confusión
Glaucomatoso No glaucomatoso
Glaucoma + 4 178 42 389
Glaucoma - 1 510 117 556
Métricas
Sensibilidad (TPR): 73,45% Exactitud (Accuracy): 73,49%
Especificidad (TNR): 73,49% Costo (COP): $ 39.454,0
Al realizar un modelo full para la regresión logística con
balanceo de clases, se obtiene en términos de
significancias, un resultado similar al obtenido sin
balanceo, en donde se evidencian un conjunto de
predictores no significativos. Para este caso también se
aplicó la misma metodología seguida en el numeral 5.1.1.
El resultado de la selección de variables se puede observar
en la gráfica 11.
Fig. 11. Desempeño del modelo Logit con balanceo de clases.
Call:
glm(formula = formula(Crit$Formula[28]), family = "binomial",
data = BTrain)
Deviance Residuals:
Min 1Q Median 3Q Max
-4.7539 -0.4559 0.0311 0.4186 3.7395
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 6.7722349 0.0548018 123.577 < 2e-16 ***
sexpacienteM -0.2076571 0.0103078 20.146 < 2e-16 ***
edaoptom 0.0623792 0.0003118 200.049 < 2e-16 ***
aguDe -0.2754241 0.0200192 -13.758 < 2e-16 ***
agIzqu -0.2526993 0.0201677 -12.530 < 2e-16 ***
toD -0.2830631 0.0045954 -61.598 < 2e-16 ***
toI -0.2846109 0.0045870 -62.047 < 2e-16 ***
ojdeofcop 3.6461883 0.1283070 28.418 < 2e-16 ***
ojizofcop 3.3477451 0.1291291 25.926 < 2e-16 ***
fanARTSI -0.3583043 0.0292473 -12.251 < 2e-16 ***
fanCSI -0.3059418 0.0359824 -8.503 < 2e-16 ***
fanGLASI 1.0022819 0.0544644 18.403 < 2e-16 ***
fanREFRACSI -0.5768107 0.0333909 -17.274 < 2e-16 ***
fanMEDICAMSI -1.1445751 0.3557247 -3.218 0.00129 **
fanDIASI -0.4264579 0.0319578 -13.344 < 2e-16 ***
fanPATOLOSI -0.5599942 0.0431033 -12.992 < 2e-16 ***
panQUIRURSI -0.2051821 0.0261491 -7.847 4.27e-15 ***
panTRAUMASI -0.9054013 0.1575815 -5.746 9.16e-09 ***
panToxAlerSI 0.5072896 0.1068431 4.748 2.05e-06 ***
panFARMACOLSI -0.9449610 0.1246912 -7.578 3.50e-14 ***
panARTSI -0.9460093 0.0286115 -33.064 < 2e-16 ***
panINMUNOLOSI -2.2044297 0.5590764 -3.943 8.05e-05 ***
panOFTALMOLOSI -0.2379810 0.0444215 -5.357 8.45e-08 ***
panCSI -0.5835954 0.1127924 -5.174 2.29e-07 ***
panGLASI 1.5056762 0.1302291 11.562 < 2e-16 ***
panREFRACSI -0.4073797 0.0284169 -14.336 < 2e-16 ***
panALERSI -0.2262907 0.0406234 -5.570 2.54e-08 ***
panCARDIOVASCUSI -0.8471992 0.0787889 -10.753 < 2e-16 ***
panDIASI -0.7815458 0.0505288 -15.467 < 2e-16 ***
panTIROSI -0.5421359 0.0411151 -13.186 < 2e-16 ***
panCOLSI -0.4695179 0.0823315 -5.703 1.18e-08 ***
panPATOLOSI -0.2156447 0.0312560 -6.899 5.23e-12 ***
panNEUROLOSI -0.8019646 0.1368893 -5.858 4.67e-09 ***
respo1 2.8482924 0.0250681 113.622 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 533110 on 384887 degrees of freedom
Residual deviance: 251622 on 384854 degrees of freedom
AIC: 251690
Fig. 12. Desempeño del modelo Logit reducido con balanceo de clases.
Con un umbral de 0,275 el desempeño es el siguiente:
Matriz de Confusión
Glaucomatoso No glaucomatoso
Glaucoma + 4 175 42 285
Glaucoma - 1 513 117 660
Métricas
Sensibilidad (TPR): 73,40% Exactitud (Accuracy): 73,55%
Especificidad (TNR): 73,56% Costo (COP): $ 39.364,0
Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones
Este modelo reafirma que los factores de riesgo que
considera IMEVI en su historial de antecedentes, no
incrementan los odds ratio de ser diagnosticado glaucoma
positivo contra no glaucomatoso, así como la importancia
que tiene la oftalmoscopia en la detección de la
enfermedad.
5.2 Modelo Probit
Al igual que el modelo Logit (regresión logística), este
modelo es utilizado para predecir el resultado de una
variable categórica binaria en función de las variables
independientes o predictoras. La respuesta es la
probabilidad de un evento en función de otros factores. En
este caso el valor esperado es:
𝑬[𝒚𝒊] = 𝚽(𝜷𝟎 + 𝜷𝟏𝒙𝟏 + 𝜷𝟐𝒙𝟐 + … + 𝜷𝒌𝒙𝒌) (3)
Donde 𝚽 es la función acumulada de la distribución
normal estándar. Al igual que en el modelo Logit los
estimadores de los parámetros del modelo se determinan
por máxima verosimilitud.
Para estos modelos se sigue la metodología presentada
en la sección 5.1., no obstante, solo se presentan los
modelos reducidos, dada la similitud de las métricas con
sus respectivos modelos Full.
5.2.1 Modelo Probit - sin balanceo de clases.
A continuación, se presenta un extracto del modelo
Probit sin balanceo de clases con su respectivo
Call:
glm(formula = formula(Crit$Formula[which.min(Crit$BIC)]), family
= binomial(link = "Probit"),
data = Train)
Deviance Residuals:
Min 1Q Median 3Q Max
-3.2727 -0.2558 -0.1695 -0.1088 4.1036
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.0733679 0.0548741 -56.008 < 2e-16 ***
sexpacienteM -0.0818305 0.0092237 -8.872 < 2e-16 ***
edaoptom 0.0176834 0.0002381 74.274 < 2e-16 ***
aguDe 0.0726959 0.0131699 5.520 3.39e-08 ***
toI -0.0113071 0.0023936 -4.724 2.31e-06 ***
ojdeofcop 1.2911676 0.0919483 14.042 < 2e-16 ***
ojizofcop 1.0155933 0.0920930 11.028 < 2e-16 ***
fanARTSI -0.0904684 0.0222251 -4.071 4.69e-05 ***
fanGLASI 0.4800802 0.0385492 12.454 < 2e-16 ***
fanREFRACSI -0.1384480 0.0249779 -5.543 2.98e-08 ***
fanDIASI -0.1168936 0.0242823 -4.814 1.48e-06 ***
fanPATOLOSI -0.1770982 0.0337001 -5.255 1.48e-07 ***
panToxAlerSI 0.2954197 0.0762503 3.874 0.000107 ***
panARTSI -0.1521694 0.0224628 -6.774 1.25e-11 ***
panGLASI 1.0048021 0.0748228 13.429 < 2e-16 ***
panREFRACSI -0.1049160 0.0212667 -4.933 8.08e-07 ***
panMEDICAMSI 0.1885391 0.0305329 6.175 6.62e-10 ***
panTIROSI -0.1455905 0.0324107 -4.492 7.05e-06 ***
respo1 1.3505239 0.0169245 79.797 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 115574 on 386476 degrees of freedom
Residual deviance: 89476 on 386458 degrees of freedom
AIC: 89514
Number of Fisher Scoring iterations: 7
Fig. 13. Desempeño del modelo Probit reducido sin balanceo de clases.
Con un umbral de 0,033 el desempeño es el siguiente:
Matriz de Confusión
Glaucomatoso No glaucomatoso
Glaucoma + 4 304 38 726 Glaucoma - 1 384 121 219
Métricas
Sensibilidad (TPR): 75,66% Exactitud (Accuracy): 75,78%
Especificidad (TNR): 75,78% Costo (COP): $ 35.962,0
Este modelo también arroja resultados aceptables, pero no
muestran una mejora sustancial respecto de los modelos
Logit, no obstante, arrojan una misma disposición a
disminuir la probabilidad de ser diagnosticado con
glaucoma.
5.2.2 Modelo Probit - con balanceo de clases.
Call:
glm(formula = formula(Crit$Formula[29]), family = "binomial",
data = BTrain)
Deviance Residuals:
Min 1Q Median 3Q Max
-4.7538 -0.4559 0.0311 0.4186 3.7395
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 6.7712419 0.0547975 123.569 < 2e-16 ***
sexpacienteM 0.2077544 0.0103076 20.156 < 2e-16 ***
edaoptom 0.0623760 0.0003118 200.046 < 2e-16 ***
aguDe -0.2754573 0.0200183 -13.760 < 2e-16 ***
agIzqu -0.2528529 0.0201668 -12.538 < 2e-16 ***
toD -0.2830933 0.0045949 -61.610 < 2e-16 ***
toI -0.2845348 0.0045864 -62.039 < 2e-16 ***
ojdeofcop 3.6461915 0.1283052 28.418 < 2e-16 ***
ojizofcop 3.3478138 0.1291273 25.926 < 2e-16 ***
fanARTSI -0.3583630 0.0292448 -12.254 < 2e-16 ***
fanCSI -0.3060001 0.0359829 -8.504 < 2e-16 ***
fanGLASI 1.0025757 0.0544641 18.408 < 2e-16 ***
fanREFRACSI -0.5765790 0.0333903 -17.268 < 2e-16 ***
fanDIASI -0.4268488 0.0319585 -13.356 < 2e-16 ***
fanPATOLOSI -0.5597420 0.0431028 -12.986 < 2e-16 ***
panQUIRURSI -0.2049197 0.0261481 -7.837 4.62e-15 ***
panTRAUMASI -0.9050856 0.1575771 -5.744 9.26e-09 ***
panToxAlerSI 0.5075399 0.1068361 4.751 2.03e-06 ***
panFARMACOLSI -0.9446935 0.1246903 -7.576 3.56e-14 ***
panARTSI -0.9462885 0.0286081 -33.078 < 2e-16 ***
panINMUNOLOSI -2.2037582 0.5589958 -3.942 8.07e-05 ***
Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones
panOFTALMOLOSI -0.2379114 0.0444180 -5.356 8.50e-08 ***
panCSI -0.5867042 0.1127891 -5.202 1.97e-07 ***
panGLASI 1.5060523 0.1302299 11.565 < 2e-16 ***
panREFRACSI -0.4073020 0.0284155 -14.334 < 2e-16 ***
panALERSI -0.2261043 0.0406214 -5.566 2.60e-08 ***
panCARDIOVASCUSI -0.8469003 0.0787877 -10.749 < 2e-16 ***
panDIASI -0.7812295 0.0505281 -15.461 < 2e-16 ***
panTIROSI -0.5417299 0.0411148 -13.176 < 2e-16 ***
panCOLSI -0.4769230 0.0823326 -5.793 6.93e-09 ***
panPATOLOSI -0.2157646 0.0312539 -6.904 5.07e-12 ***
panNEUROLOSI -0.8017314 0.1368885 -5.857 4.72e-09 ***
respo1 2.8484982 0.0250680 113.631 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 533110 on 384887 degrees of freedom
Residual deviance: 251633 on 384855 degrees of freedom
AIC: 251699
Number of Fisher Scoring iterations: 6
Fig. 14. Desempeño del modelo Probit con balanceo de clases.
Con un umbral de 0,275 el desempeño es el siguiente:
Matriz de Confusión
Glaucomatoso No glaucomatoso
Glaucoma + 4 178 42 406
Glaucoma - 1 510 117 539
Métricas
Sensibilidad (TPR): 73,45% Exactitud (Accuracy): 73,48%
Especificidad (TNR): 73,48% Costo (COP): $ 39.470,0
En ambos casos los modelos Probit arrojan resultados
similares., aunque en este modelo el balanceo de clases
afectó el desempeño de la curva ROC. Al igual que se
evidenció en los modelos revisados hasta el momento los
antecedentes afectan negativamente la probabilidad de que
un paciente sea glaucomatoso
5.3 Modelo Random Forest
El modelo Random Forest se entrenó en una máquina con
especificaciones de memoria RAM elevada debido a que
el proceso con la cantidad de registros indicada toma una
cantidad de memoria aproxima da 4 Gb en RAM.
A continuación, se presenta el resumen del modelo:
Call:
randomForest(formula = respof ~ ., data = Train, method
= “class”)
Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 7
OOB estimate of error rate: 3.24%
Confusion matrix:
0 1 class.error
0 378255 1296 0.003414561
1 11428 1845 0.860996007
Fig. 8. Gráfica de las variables más utilizadas en el
modelo Random Forest.
Fig. 7. Desempeño del modelo Random Forest sin balanceo de clases.
Un umbral de 0,002 genera la siguiente matriz de
confusión:
Matriz de Confusión
Glaucomatoso No glaucomatoso
Glaucoma + 3606 34951 Glaucoma - 2083 127714
Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones
Métricas
Sensibilidad (TPR): 63,38% Exactitud (Accuracy): 78%
Especificidad (TNR): 78,51% Costo (COP): $ 35.962,0
Éste modelo no tiene un desempeño adecuado para el
problema de negocio planteado
Fig. 7. Desempeño del modelo Random Forest con balanceo de clases.
Un umbral de 0,047 genera la siguiente matriz de
confusión:
Matriz de Confusión
Glaucomatoso No glaucomatoso
Glaucoma + 3765 19565 Glaucoma - 1924 143100
Métricas
Sensibilidad (TPR): 75% Exactitud (Accuracy): 77%
Especificidad (TNR): 77,51% Costo (COP): $ 33.382,0
Y las variables de mayor importancia son:
Es de anotar que éste es el único modelo que le brinda
importancia predictiva alta a las mediciones de tonometría
(fundamental en la detección de glaucoma) que en el caso
de los modelos Logit y Probit, la asocian a disminución en
el odds de ser diagnosticado como glaucomatoso.
Conclusiones
En la tabla 3. Se muestra el resumen del desempeño de
los modelos.
Tabla 3. Resumen del desempeño de los modelos evaluados
Logit
Sin Balanceo Con balanceo
Exactitud 75,18% 73,55%
Sensibilidad 76,24% 73,40%
Especificidad 75,14% 73,56%
Costo $36.848,0 $ 39.364,0
Probit
Sin Balanceo Con balanceo
Exactitud 75,78% 73,48%
Sensibilidad 75,66% 73,45%
Especificidad 75,78% 73,48%
Costo $35.962,0 $39.470,0
Random Forest
Sin Balanceo Con balanceo
Exactitud 78% 77%
Sensibilidad 63,38% 75%
Especificidad 78,51% 77,51%
Costo $35.962,0 $33.382,0
El resultado de los modelos en general muestra una
medida de exactitud relativamente alta, sin embargo, esta
no es confiable para los datos en estudio los cuales
contienen una gran cantidad de valores 0 (sin glaucoma) y
un porcentaje muy bajo de valores 1(con glaucoma). Dado
lo anterior, medidas como la sensibilidad, especificidad y
costo fueron tomadas para la evaluación del mejor modelo.
Una alta sensibilidad para el estudio es considerada muy
importante ya que esta mide la tasa de verdaderos positivos
(pacientes con glaucoma) respecto de toda la población
glaucomatosa, lo cual es clave en este tipo de diagnósticos
donde un falso negativo (pacientes que se predicen como
no glaucomatosos pero que sí lo son), se verían reflejados
en resultados catastróficos para dichos pacientes. El
modelo Logit sin balanceo de clases predice los mejores
resultados en cuanto a la sensibilidad se refiere.
La especificidad, la cual mide en la predicción, la tasa
de aciertos de pacientes que son considerados no
glaucomatosos y efectivamente no lo son (Verdaderos
negativos), tiene resultados relativamente altos. Esta
medida es considerada, menos relevante que la
sensibilidad para nuestro estudio ya que un número bajo de
esta medida conllevaría un número alto de Falsos Positivos
(pacientes sobre los que se predice que son glaucomatosos
Proyecto de grado Maestría de Inteligencia Analítica para la toma de Decisiones
pero que en realidad no lo son, una mala predicción en este
caso no reflejaría consecuencias a un paciente que deba ser
atendido por esta razón. El modelo que mejores resultados
arroja en la especificidad es el Random Forest sin balanceo
de clases
En términos de costos, el valor que paga actualmente la
clínica por persona se reduciría sustancialmente al
incrementar el número de verdaderos positivos, ya que
estos no tendrían que pasar por el proceso de oftalmología.
Bajo este criterio, el mejor modelo es Random Forest con
balanceo, el cual tiene arroja un costo por predicción de
$33,382.
Los modelos confirman las variables de decisión de la
práctica clínica en términos de la excavación, tonometría,
antecedentes familiares y personales de glaucoma, estas
variables son las más significativas a la hora de predecir la
enfermedad.
No obstante los resultados del modelo, estos no
sustituyen el concepto médico. Este debe tomarse solo
como una herramienta para la toma de decisiones por parte
de la clínica.
Referencias
[1] ALEMAÑY J., VILLAR, R. Oftalmología. 5ta ed. Ed. Ciencias
Médicas (2005) [2] BOYD, B, F., LUNTZ, M. H. Innovations in the Glaucomas
Etiology, Diagnosis and Management (Boyd, Luntz). 2002.
[3] DÍAZ ALFONSO, L. R., SUÁREZ RODRÍGUEZ B. N., CURBELO GÓMEZ, M. J., SOTO SERRANO Y., MILANÉS
ARMENGOL, A. R. Caracterización epidemiológica del
glaucoma primario de ángulo abierto. Revista Electrónica de las Ciencias Médicas en Cienfuegos
[4] FLAMMER J. Glaucoma. Barcelona: Médica (2004)
[5] INTERNATIONAL COUNCIL OF OFTALMOLOGY. Guías Clínicas del Consejo Internacional de Oftalmología (ICO) para el
cuidado del Glaucoma. 2015
[6] JANGHORBANI, A., MORADI, M. H. Fuzzy Evidential Network and Its Application as Medical Prognosis and Diagnosis Models.
Journal of Biomedical Informatics 72 (2017) 96–107 [7] MORRISON, J. C., POLLACK, I. P. Glaucoma Science and
Practice. Thieme Medical Publishers, Inc. 2003
[8] MALMIR, B., AMINI, M., CHANG, S. I. A medical decision support system for disease diagnosis under uncertainty. Expert
Systems with Applications 88 (2017) 95–108
[9] PAUL MANGIAMELI, DAVID WEST, ROHIT RAMPAL, Model selection for medical diagnosis decision support systems.
Decision Support Systems 36 (2004) 247– 259
[10] PIRI, S., DELEN, D., LIU, T., ZOLBANIN, H. M. A data analytics approach to building a clinical decision support system
for diabetic retinopathy: Developing and deploying a model
ensemble. Decision Support Systems 101 (2017) 12–27. [11] SHILASKAR, S., GHATOL, A., CHATUR, P., Medical decision
support system for extremely imbalanced datasets. Information
Sciences 384 (2017) 205–219 [12] WÓJTOWICZ, A., ZYWICA, P., STACHOWIAK, A.,
DYCZKOWSKI, K. Solving the problem of incomplete data in
medical diagnosis via interval modeling. Applied Soft Computing 47 (2016) 424–437
[13] ŽABKAR, J., BRATKO, I., DEMŠAR, J. Extracting qualitative
relations from categorical data. Artificial Intelligence 239 (2016)
54–69