Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de...

45
Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada por Pedro Concejero Cerezo Dirigida por Rosario Martínez Arias 9 de diciembre 2004 Universidad Complutense de Madrid – Departamento de Metodología de las Ciencias del Comportami 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 x 'binormal.dat' 'empiri.dat' -2 -1 0 1 2 -2 -1 0 1 2 x 'zbinor.dat' 'zempiri.dat' -100 0 100 200 300 400 500 600 700 800 2 3 4 5 6 7 8 9 10 11 <10 pt. 20 pt. 90 pt. 400 pt. 1100 pt. 3000 pt. 4900 pt. 8100 pt. 22000 'red1.dat' 'red0.dat' -6 -5 -4 -3 -2 -1 0 1 1 2 3 4 5 6 7 8 9 10 'cb11.dat' 'cb13.dat' 'cb15.dat' 'cb17.dat'

Transcript of Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de...

Page 1: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados

Tesis Doctoral presentada porPedro Concejero Cerezo

Dirigida porRosario Martínez Arias

9 de diciembre 2004

Universidad Complutense de Madrid – Departamento de Metodología de las Ciencias del Comportamiento

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

x'binormal.dat'

'empiri.dat'

-2

-1

0

1

2

-2 -1 0 1 2

x'zbinor.dat'

'zempiri.dat'

-100

0

100

200

300

400

500

600

700

800

2 3 4 5 6 7 8 9 10 11

<10 pt. 20 pt. 90 pt. 400 pt. 1100 pt. 3000 pt.4900 pt.

8100 pt. 22000

'red1.dat''red0.dat'

-6

-5

-4

-3

-2

-1

0

1

1 2 3 4 5 6 7 8 9 10

'cb11.dat''cb13.dat''cb15.dat''cb17.dat'

Page 2: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

2Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Índice

1 ObjetivosIntroducción teórica

2 La fidelización del cliente y el CRM3 Aplicaciones de metodología ROC 4 Metodología de análisis de curvas ROC y

medida de la eficacia diagnósticaInvestigación empírica

5 Hipótesis y predicciones6 Método7 Resultados

Conclusiones

INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Page 3: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

3Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Aplicación de metodología curvas ROC a problema actual de CRM: optimización de la decisión entre clientes fieles /

no fieles, y evaluación de la eficacia global de procedimientos estadísticos de predicción.

Objetivos: curvas ROC en marketing

¿Por qué ROC en marketing? Metodología prácticamente desconocida en marketing. En los últimos 15 años ha encontrado aplicaciones en muchas

áreas con problemas asimilables al diagnóstico (decisiones con sólo dos alternativas: sí / no, enfermo / sano), con aplicaciones muy interesantes para detección rápida,o “screening”.

1ÍNDICE

OBJETIVOS

INTRODUCCIÓNTEÓRICA

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONESEl objetivo de investigación es fuertemente multidisciplinar... Las curvas ROC son una herramienta metodológica con

raíces en la Psicofísica que ha conocido un enorme avance en los campos de diagnóstico médico y psicológico.

... y metodológico: Los métodos de curvas ROC admiten dos enfoques:

paramétrico y no paramétrico. El objetivo es compararlas y poner en práctica todas las posibilidades de esta metodología (evaluación de la eficacia, análisis coste-beneficio, detección rápida, análisis de la capacidad predictiva).

Page 4: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

4Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

El problema de la fidelización del cliente en marketing

Paradigma dominante en marketing es CRM (Customer Relationship Management). Aspectos claves son la fidelidad y el abandono de los clientes, y predecirlo.

2INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Factores en paradigma CRM la importancia del factor tecnológico: el empuje de la “minería

de datos”. ¿Existe una teoría fuerte que explique la fidelidad del

cliente? No, son modelos parciales: Enfoques conductual y actitudinal. Enfoques dirigidos hacia

la predicción en áreas de aplicación específicas. Fidelidad en la práctica es un constructo que hay que definir y

operativizar para el campo de aplicación específico. Tarjetas son herramienta básica para programas de

fidelización: herramienta de relación con la marca, estudio del comportamiento, bonificación del consumo. Muchos tipos: Con o sin método de pago incorporado Con o sin programas de “puntos” Una única marca vs. Multimarca

Page 5: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

5Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

El problema de la fidelización del cliente en marketing

2INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Objetivos del análisis de nuestra tarjeta de fidelización (Travel Club) Operativamente definimos fidelidad como redención de

puntos: si un cliente dispone de suficientes puntos y nunca ha redimido podremos concluir que está en riesgo de abandonar el programa

Detectar clientes que puedan estar en riesgo de abandono del programa

Optimizar reglas de decisión basadas en indicadores conductuales disponibles

¿Tener tarjeta garantiza la fidelización?

La clave del éxito es la adecuada gestión y el análisis

Page 6: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

6Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Breve historia de las curvas ROC en diferentes áreas

ROC es acrónimo de “Receiver –o también Relative- Operating Characteristic” y requiere un sustantivo además: curva ROC, análisis ROC.

3INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Origen en Teoría de Detección de Señales (Tanner, Swets y Green, 1956; Green y Swets, 1966). Técnica clásica y como tal se sigue aplicando en Psicofísica.

En contexto de laboratorio psicofísico se mantienen supuestos fuertes de normalidad.

Desde años 70 se aplican en diagnóstico por la imagen (radiodiagnóstico) y se extienden con mucha rapidez en otras áreas de la medicina.

Fechas importantes en desarrollo de curvas ROC en medicina: Metz (1978) y Swets (1979) en campos de diagnóstico por

imagen (Radiología) Hanley y Mc.Neil (1982 y 1983) DeLong, DeLong y Clarke-Pearson (1988) Swets y Pickett (1982), Swets (1986, 1988)

Como metodología, el análisis ROC se han caracterizado por su desarrollo muy centrado en aplicaciones concretas.

Page 7: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

7Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

El análisis ROC para instrumentos de detección temprana

¿Por qué tarda en difundirse en la Psicología? Áreas de aplicación desde años 90:

3INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

1 - Psicología Clínica: Detección temprana de trastornos psicológicos Predicción del uso de los servicios de salud Predicción del reintento de suicidio Detección de adicciones Análisis coste-beneficio en contextos clínicos Predicción del maltrato Algunas aplicaciones en Psicología Educativa

2 - Psicología Forense: Predicción de reincidencia Violación libertad condicional Análisis de decisiones de jurados

3 - Tecnologías de la información4 - Investigación de mercados: muy pocas aplicaciones, en

sectores muy específicos

Page 8: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

8Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

El análisis de curvas ROC

Punto de partida es tabla de contingencia, para cada punto de corte:

4INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Para cada punto de corte:

ROC representación de (1-especificidad) –eje x vs. Sensibilidad –eje y según se varía el punto de corte para la decisión. Permite comparar instrumentos de diagnóstico en eficaciaglobal (indep. de punto de corte)

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

x'rocf2.dat'

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

x'rocf2.dat'

'rocpsuma.dat'

Page 9: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

9Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Análisis ROC paramétricas y no-paramétricas

La importancia de la tasa de prevalencia, valor predictivo positivo y negativo y análisis coste-beneficio

4INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

El área bajo la curva AUC [0.5:1] tiene un significado esencial: Proporciona índice de eficacia diagnóstica puro, independiente de punto de corte

Enfoque no paramétrico La “curva” no es tal: colección de puntos para los puntos de corte del estudio. Estimación AUC y comparación curvas: regla trapezoidal y U de Mann-Whitney Ventajas:

No requiere supuestos de distribuciones de partida, cálculo muy sencillo y directo Desventajas:

Subestima el área bajo la curva, sólo aplicable para comparación de curvas en sensibilidades y especificidades observadas

Enfoque paramétrico (supone binormalidad): Produce efectivamente una curva (estimación de máxima verosimilitud), para todo

el rango de valores posibles Comparación mediante contrastes estadísticos Z Ventajas del enfoque paramétrico

Compara curvas para cualquier sensibilidad y especificidad Desventajas del enfoque paramétrico

Cumplimiento de supuestos puede ser muy difícil, y cálculo complejo

Representación alternativa en caso de ROC “binormales”: recta en puntuaciones típicas normalizadas

-2

-1

0

1

2

-2 -1 0 1 2

x'zbinor.dat'

'zempiri.dat'

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

x'binormal.dat'

'empiri.dat'

Page 10: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

10Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Medir la precisión o efectividad de un sistema diagnóstico: índices de eficacia

Propiedades de las medidas de un sistema diagnóstico: fidelidad, consistencia, precisión y eficacia.

Swets (1986) expone dos tipos de índices de eficacia: Con umbral fijo De modelo de umbral variable

Swets (1986) muestra que todos los índices se pueden expresar como funciones de curva o punto ROC. La curva ROC es el instrumento de medida de eficacia diagnóstica más general, y: Proporciona índice de eficacia diagnóstica puro, indep de

punto de corte Estima probabilidad de diferentes resultados de tabla de

clasif. Cruzada Proporciona base para decisión sobre punto de corte,

incluyendo probabilidades y costes o utilidades. Alternativas a curva y análisis ROC:

En recuperación de información existen indicadores específicos (precision, cobertura, F –Lewis y Gale, 1994)

El gráfico Lift o de elevación es un concepto con un objetivo similar muy típico en marketing, pero con bases muy diferentes

4INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Page 11: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

11Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Parte empírica5INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES Aplicación de metodología de análisis ROC en una tarjeta multimarca española (Travel Club), usando los dos procedimientos (paramétrico y no paramétrico) para:

Establecer regla “empírica”, mediante procedimientos estadísticos que permitan optimizar la eficacia predictiva, para distinguir clientes de fieles de los que no lo son, a partir de definición operativa establecida anteriormente (basada en redención de puntos).

Evaluar la eficacia de diferentes procedimientos estadísticos de predicción o clasificación de clientes en fieles versus no fieles.

Page 12: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

12Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Hipótesis y predicciones

Hipótesis 1: Si las curvas ROC son el mejor método para evaluar la capacidad predictiva de indicadores individuales, entonces

5INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

H1a: Mediante el análisis de curvas ROC sobre las variables de nuestra base de datos, individuales o agregadas de una manera simple, seremos capaces de encontrar un indicador con capacidad predictiva estadísticamente significativa.

H1b: Obtendremos conocimiento sobre la capacidad predictiva de las variables de interés en nuestra base de datos, mediante el cálculo de la curva ROC empírica.

H1c: Una vez calculadas éstas, podremos realizar contrastes estadísticos de significación de la capacidad predictiva de forma no paramétrica.

H1d: Y si obtenemos un indicador cuya distribución sea suficientemente normal, podremos optimizar la estimación de los indicadores de la curva ROC mediante la aplicación del modelo binormal.

H1e: Y a partir de la elección de un modelo de curva ROC de los pasos anteriores, seremos capaces de encontrar puntos de corte óptimos después de un análisis coste-beneficio.

Hipótesis 2: Si es posible estimar un modelo de regresión logística o un modelo de árbol de decisión sobre nuestros datos, entonces H2a: Podremos decidir entre uno u otro para proponerlo en

competición con el indicador individual que hemos encontrado antes. H2b: A partir de su aplicación en la base de datos, podremos realizar

análisis de curvas ROC que nos permitan comparar la capacidad predictiva de las dos aproximaciones (modelo estadístico vs. indicador único).

Page 13: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

13Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Método

“Data mart” de 7411 clientes que a la fecha de su confección (enero de 2003) llevaban al menos 1 mes y como máximo 1 año inactivos.

Primer proceso fue la limpieza de la base de datos de partida (datos incorrectos o irrelevantes): base final para el análisis son 6032.

Exploración de datos: 39% varón, 35% mujeres y

resto desconocido 73% con edad conocida

media edad: 43.7 años Sólo 5.88% dados de alta

en web 12.44% tienen tarjeta(s)

adicional(es) Distribución decreciente

de númerode meses inactivo

6

0

5

10

15

20

25

30

35

10 To 20 20 To 30 30 To 40 40 To 50 50 To 60 60 To 70 70 To 80 80 To 90 90 To100

EDAD

Nº de meses inactivo

0

2

4

6

8

10

12

14

16

INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Page 14: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

14Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Método

Clasificaciones propias del negocio(datos elaborados por Travel Club): Perfil de compra (HMLNUM) es

clasificación por frecuencia decompra con criterios puros de negocio

Índice de capacidad adquisitiva, en 5 categorías, mediante procedi-mientos estándar (datos externos,datos estadísticos centralizados)

El más importante resultará el perfil multipatrocinador. El indicador disponible en la basede datos resultará muy pobre

6

67%

27%

6%

1

2

3

11.4714.24

46.6

19.98

7.71

0

5

10

15

20

25

30

35

40

45

50

1 2 3 4 5

CDICE

71%

24%

5% 0%

0%

0%

1

2

3

4

5

6

INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Page 15: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

15Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Método

Variable de clasificación de perfil multipatrocinador creada a partir de datos de consumo:

6

SEGPMP

39%

14%11%

7%

1%

18%

5%5%

1 - mono-patroc. Eroski

2 - mono-patroc.Repsol

3 - mono-patroc. BBV

4 - mono-patroc.Telefónica

5 - Sólo pequeñospatroc.

6 - 2 patroc. (sinEroski)

7 - 2 patroc (conEroski)

8 - más de dos patroc.

INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Page 16: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

16Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Resultados

Transformaciones necesarias en variables de adquisición de puntos para llevarlas a la normalidad y agregar variables separadas en la base de datos (puntos acumulados hasta 2002 y durante 2002):

6INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Media de 181 puntos una vez transformada, mediana de 184 puntos en escala directa. Distribución es normal según prueba de Kolmogorov-Smirnov.

0.0

200.0

400.0

600.0

800.0

0.0 3.0 6.0 9.0 12.0

Histogram of lntot3

lntot3

Count

Page 17: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

17Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Resultados

Variable “redención de puntos” es criterio esencial para tomar decisión: sólo un 9.30% ha redimido puntos en alguna ocasión.

¿Qué variables individuales – por sí mismas- pueden predecir la conducta de rendención de puntos? Realizamos un análisis sistemático mediante curvas ROC empíricas para encontrar aquéllos mejores predictores individuales: Número de meses inactivo tiene alguna capacidad predictiva

significativa Perfil de compra (HMLNUM) tiene alguna capacidad predictiva

significativa, no así el índice de capacidad económica. La edad tiene alguna capacidad predictiva significativa. Observamos también una relación significativa en porcentaje

de redención si el cliente está registrado en la web o no.

La variable que mayor capacidad predictiva ofrece por sí misma es el total de puntos obtenidos históricamente (suma de los históricos más los del año en curso).

6INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Page 18: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

18Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Resultados

Una vez realizada transformaciónlogarítmica tenemos distribuciónglobal normal, pero ¿y si diferen-mos entre los que redimen y los que no?

6INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

-100

0

100

200

300

400

500

600

700

800

2 3 4 5 6 7 8 9 10 11

<10 pt. 20 pt. 90 pt. 400 pt. 1100 pt. 3000 pt.4900 pt.

8100 pt. 22000

'red1.dat''red0.dat'

El requisito de “binormalidad” es muy difícil de cumplir. Aun así, intentamos el cálculo de la curva ROC mediante los procedimientos paramétricos.

El ajuste es razonablemente bueno,aunque la ganancia en capacidadpredictiva (AUC=0.796) con respecto a procedimiento empírico(AUC=0.791) es muy pequeño.

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

x'binormal.dat'

'empiri.dat'

Page 19: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

19Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Resultados

Análisis coste-beneficio: ¿Podemos establecer una regla que nos permita realizar el

análisis coste-beneficio que permite el hecho de disponer de una curva ROC?

Tendríamos funciones básicas de coste en funciónde razones alternativas de coste/beneficio

6

-6

-5

-4

-3

-2

-1

0

1

1 2 3 4 5 6 7 8 9 10

'cb11.dat''cb13.dat''cb15.dat''cb17.dat'

INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Page 20: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

20Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Resultados

Para garantizar una potencia predictiva del 80%, si tenemos una prevalencia del 9% tendremos que establecer un punto de corte en torno a 7600 puntos, mientras que si tenemos una prevalencia del 20% sólo necesitaríamos en torno a 3400 puntos

Conclusión parcial: el análisis ROC nos permite elegir mejor indicador predictivo individual y optimizar punto de corte (Hipótesis 1).

6

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

500 1000 1500 2000 2500 3000 3500 4000 4500 5000

'pp2-09.dat''pp2-20.dat'

0.8

0.6

0.65

0.7

0.75

0.8

0.85

0.9

0.95

1

4000 6000 8000 10000 12000 14000

'pp2-09.dat''pp2-20.dat'

0.8

INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

El gran efecto de las distintas tasas de prevalencia:

Page 21: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

21Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Resultados

Comparación de modelos estadísticos de predicción: regresión logística versus árboles de decisión.

Se realizó mediante Enterprise Miner v.4.1. de SAS v. 8.02

Permite la comparación mediante curvas ROC empíricas (procedimiento visual) de los resultados de diferentes procedimientos estadísticos.

La regresión logística ofrece mejor capacidad predictiva global

6INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Page 22: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

22Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Resultados

Los árboles de decisión son una técnica para representar reglas ocultas en los datos

Estructuras jerárquicas, secuenciales, que hacen particiones en los datos de forma recursiva.

Algoritmos como AID, MAID, THAID y CHAID construyen árboles de segmentación binaria

6INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Page 23: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

23Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Resultados

El modelo de regresión logística incluye 6 predictores, 2 de ellos variables a nivel de intervalo (total de puntos transformada y número de meses inactivo) y 4 de categoría (si está registrado online, el perfil de compra y dos “dummy” de la variable de perfil multipatrocinador)

6INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Page 24: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

24Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Resultados

¿Rinde mejor en capacidad predictiva global el indicador individual total de puntos transformado, o el modelo resultante de la regresión logística? Análisis no paramétrico de curvas ROC permite responder a esta pregunta

6

0.00

0.25

0.50

0.75

1.00

0.00 0.25 0.50 0.75 1.00

ROC Curve of REDIME

1-Specificity

Sensitiv

ity

Criterions

lntotC209

INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Page 25: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

25Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Conclusiones

En cuanto a la hipótesis 1, sobre las curvas ROC y su capacidad de evaluar la capacidad predictiva de indicadores individuales:

(H1a) Análisis ROC permite tomar decisiones sobre la capacidad predictiva de distintas variables de nuestra base de datos, de una manera estándar para todas ellas y con una gran potencia y simplicidad. De este modo hemos sido capaces de identificar un valor agregado (una simple suma de puntos) con una capacidad predictiva muy importante.

(H1b y c) Análisis ROC permite tomar decisiones entre alternativas mediante el enfoque de curva ROC empírica y contrastes estadísticos basados en la ROC no paramétrica.

(H1d) Después de realizar las transformaciones necesarias sobre la variable agregada que hemos identificado como más predictiva, análisis ROC según el modelo binormal permite aumentar la capacidad predictiva, aun cuando tiene la gran limitación de cumplir el supuesto de distribuciones binormales que se solapan, que puede ser muy difícil de cumplir en entornos aplicados, y sobre todo en aquellos casos en que el hecho positivo sea muy raro, puesto que nos será más difícil cumplir este supuesto.

(H1e) Análisis ROC permite establecer un punto de corte que optimice el beneficio esperado. Sin embargo, no hemos sido capaces de estimar suficientemente los costes y beneficios para obtener toda la potencia del modelo, y hemos tenido que realizar simulaciones con varias razones de costes-beneficios.

6INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Page 26: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

26Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Conclusiones

En cuanto a la hipótesis 2, hemos podido estimar un modelo de regresión logística y un modelo de árbol de decisión y: (H2a) Hemos podido compararlos en capacidad predictiva

utilizando una forma muy básica de curva ROC, según la proporciona el paquete estadístico sobre el que se han estimado tanto la regresión logística como el árbol de decisión. Pero no hemos sido capaces de hacer contraste estadístico entre el área bajo la curva de cada modelo, puesto que esta funcionalidad no la incorpora el programa estadístico. Por tanto, hemos tomado una decisión a partir de la curva ROC dibujada. No hemos podido extraer las puntuaciones probabilísticas a partir del árbol de decisión de tal manera que pudieran ser comparadas con el rendimiento de la variable identificada en el paso 1. Sí que hemos podido hacer con el modelo de regresión logística, y...

(H2b) Hemos comparado el modelo de regresión logística con el modelo de un único predictor identificado en el paso 1, llevando a cabo el contraste de hipótesis estadísticas, pero no hemos podido realizar esta comparación con el modelo binormal, puesto que la salida del modelo de regresión logística no cumple el supuesto de distribuirse normalmente.

6INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Page 27: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

27Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Discusión

Limitaciones de este estudio Conclusiones sobre modelos de curvas ROC:

Disponibilidad de software hace posible por fin aplicación de metodología de curvas ROC en muchos campos

Resulta necesario disponer al menos de enfoque no paramétrico completo (contraste estadístico entre curvas alternativas)

Modelos de curvas ROC binormales aportan mayor potencia pero imponen requisitos muy estrictos y de difícil cumplimiento en muchos campos aplicados

La gran eficacia y simplicidad del enfoque de “screening” Eficacia predictiva en el mundo real:

No existe una regla simple que permita optimizar la decisión Estimación de costes y beneficios individuales (para cada

caso en la tabla y no sólo para estimar una razón) todavía un problema

El gran efecto de la prevalencia Directrices futuras:

La incorporación de metodología de curvas ROC en procedimientos de minería de datos

6INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Page 28: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.
Page 29: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

29Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Page 30: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

30Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Ejemplo de salida de tabla completa de sensibilidad y especifidad para cada punto de corte (ejemplo factor 2 de instr. Detección maltrato)

ANEXOS

Page 31: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

31Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Figura 4.16. Curvas ROC empíricas para factor 2 y puntuación "suma" del instrumento de detección de maltrato infantil, obtenidas con el programa NCSS 2004

0.00

0.25

0.50

0.75

1.00

0.00 0.25 0.50 0.75 1.00

ROC Curve of GRUPO

1-Specificity

Sensitiv

ity

Criterions

FACTOR2PTOTAL

ANEXOS

Page 32: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

32Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Ejemplo de coste beneficio y valores predictivos negativo y positivo

Análisis coste-beneficio.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 20 40 60 80 100

'ppv05.dat''ppn05.dat''ppv07.dat''ppn07.dat''ppv10.dat''ppn10.dat'

-20

-18

-16

-14

-12

-10

-8

-6

-4

-2

0

2

0 20 40 60 80 100 120

'coste05.dat''coste10.dat''coste15.dat'

Necesario tener en cuenta la tasa de prevalencia: valor predictivo positivo y negativo

ANEXOS

Page 33: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

33Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Figura 4.14. Valores predictivo positivo y negativo de la escala de abandono o factor 2, para tres tasas de prevalencia de maltrato infantil en la población: 0.05, 0.07 y 0.10.

Las funciones crecientes son el valor predictivo positivo, y las decrecientes el negativo. A su vez, la creciente inferior corresponde a la prevalencia de 0.05, la siguiente a 0.07 y así sucesivamente

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 20 40 60 80 100

'ppv05.dat''ppn05.dat''ppv07.dat''ppn07.dat''ppv10.dat''ppn10.dat'

ANEXOS

Page 34: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

34Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Figura 4.13. Funciones de coste según enfoque de Metz y NCSS 2004 de la clasificación en función del punto de corte del factor 2

-20

-18

-16

-14

-12

-10

-8

-6

-4

-2

0

2

0 20 40 60 80 100 120

'coste05.dat''coste10.dat''coste15.dat'

ANEXOS

Page 35: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

35Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Figuras 4.17 y 4.18 Representaciones alternativas de curvas ROC binormales (en escala natural de sensibilidad y especificidad y en escala de puntuaciones típicas)

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

x'binormal.dat'

'empiri.dat'

-2

-1

0

1

2

-2 -1 0 1 2

x'zbinor.dat'

'zempiri.dat'

ANEXOS

Page 36: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

36Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Figura 4.19. Representación de la ROC en el espacio definido por las puntuaciones típicas cuando no se cumple el supuesto de “binormalidad”

-2

-1

0

1

2

-2 -1 0 1 2

x'zf2.dat'

'zptotal.dat'

ANEXOS

Page 37: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

37Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Figuras 5.6.-5.8. El gráfico de elevación (lift chart) frente a las curvas ROC

0

0.5

1

1.5

2

2.5

3

3.5

1 2 3 4 5 6 7 8 9 10

Decil

Ele

vaci

ón

Línea base (acum.)

Elevac.

Elevac. Acumulada

0.0%

10.0%

20.0%

30.0%

40.0%

50.0%

60.0%

70.0%

80.0%

90.0%

100.0%

1 2 3 4 5 6 7 8 9 10

Decil

Po

rcen

taje

(ac

um

ula

do

)

Respuestasacumuladas

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

x'rocf2.dat''liftf2.dat'

ANEXOS

Page 38: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

38Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Salida del procedimiento árbol de decisiónANEXOS

Page 39: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

39Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Salida del procedimiento árbol de decisiónANEXOS

Page 40: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

40Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Opciones de ajuste del árbol en SAS (1)ANEXOS

Page 41: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

41Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Opciones de ajuste del árbol en SAS (2)ANEXOS

Page 42: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

42Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Opciones de ajuste del árbol en SAS (3)ANEXOS

Page 43: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

43Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

El análisis ROC para instrumentos de detección temprana

A partir de años 90 se observa crecimiento de aplicaciones en áreas clínicas y aplicadas de la Psicología.

Su mayor difusión se basa en el enfoque no paramétrico: desaparecen supuestos fuertes y se aplica a instrumentos de detección rápida (screening).

Aparecen contrastes estadísticos basados en U Mann-Whitney – Wilcoxon.

Se convierte en herramienta estándar en epidemiología y en áreas de diagnóstico, prevención primaria.

Tarda en aparecer en paquetes estadísticos Macro SAS de DeLong et al. También se desarrollan macros

para S-Plus y lenguajes especializados. Incorporación como herramienta gráfica en SPSS. Aparición de software específico para el análisis no

paramétrico (GraphROC) en ámbito médico. Desarrollo de software específico para modelo paramétrico

(binormal) en Universidad de Chicago. NCSS 2004 es el único software estadístico que incorpora los

dos modelos de forma completa.

3INTRODUCCIÓNTEÓRICA

ÍNDICE

OBJETIVOS

Fidelización y CRM

Aplicacionescurvas ROC

Metodología ROCy eficacia diagn.

INVESTIGACIÓN EMPÍRICA

Hipótesis ypredicciones

Método

Resultados

CONCLUSIONES

Page 44: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

44Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Figura 4.15: Elección de p. corte = 45 en factor 2 instr. maltrato

0

0.2

0.4

0.6

0.8

1

0 20 40 60 80 100 120

'f2-sens.txt''f2-espe.txt'

ANEXOS

Page 45: Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados Tesis Doctoral presentada.

45Universidad Complutense de MadridDepartamento de Metodología de las Ciencias del Comportamiento

Figura 4.15: Elección de p. corte en puntuación total maltrato

0

0.2

0.4

0.6

0.8

1

0 50 100 150 200 250 300 350

'pt-sens.txt''pt-espe.txt'

ANEXOS