1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas...

45
1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación de algoritmos, cuándo las diferencias son significativas. Análisis ROC para clasificadores. ¿Qué se mide? Métricas de evaluación Madrid, 6 de mayo de 2004.

Transcript of 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas...

Page 1: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

1

Evaluación del Aprendizaje

César Hervás MartínezJosé Hernández Orallo

• Técnicas estadísticas para el análisis de experimentos.• ¿Cómo se compara? Evaluación de algoritmos, cuándo las diferencias son significativas.

•Análisis ROC para clasificadores.• ¿Qué se mide? Métricas de evaluación

Madrid, 6 de mayo de 2004.

Page 2: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

2

Evaluación de Clasificadores en Minería de Datos:

Análisis ROC

José Hernández Orallo

Madrid, 6 de mayo de 2004.

Dpto. de Sistemas Informáticos y Computación,

Universidad Politécnica de Valencia,

[email protected]

Page 3: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

3

Organización

• Introducción. La Clasificación y su Evaluación

• Evaluación Sensible a la Distribución y al Coste

• Análisis ROC de Clasificadores “crisp”

• Análisis ROC de Clasificadores “soft”

• La Métrica AUC: el área bajo la curva ROC

• Relación entre AUC y Error. Elección del umbral

• Aplicaciones

• Extensión a Más de Dos Clases

• Conclusiones

Page 4: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

4

Introducción. La Clasificación y su Evaluación

• Clasificación.– Una de las tareas más importantes en minería de

datos.

– Obtener un modelo, patrón o función que discrimine entre dos o más clases excluyentes.

• Evaluación de la clasificación.– Medida tradicional para evaluar clasificadores:

• Error (tb. inversamente accuracy): porcentaje de instancias mal clasificadas (respecto al conjunto de test o utilizando validación cruzada / bootstrapping).

Page 5: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

5

Introducción. La Clasificación y su Evaluación

• Un clasificador permite asistir en la toma de decisiones (entre diferentes acciones).

¿Podemos permitirnos tomar decisiones de una manera no

científica?

• Ésta es la pregunta que hacen:– Swets, J.A., Dawes, R.M., & Monahan, J.

(2000). “Better decisions through science” Scientific American, 283, 82-87.

Page 6: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

6

Evaluación Sensible a la Distribución y al Coste

• Evaluación Sensible a la Distribución:– No siempre todas las clases tienen la misma proporción (no

están balanceadas, 50% de cada)

• Ejemplo:

– Tenemos varios clasificadores c1, c2, c3 que predicen si se ha de abrir o cerrar la válvula del módulo de refrigeración de la central nuclear de Cofrentes.

– Para evaluar los clasificadores usamos un conjunto de datos obtenido en el último mes, donde un operario ha decidido en cada momento si se había de abrir o cerrar la fórmula.

• 100.000 ejemplos, de los cuales 99.500 son de la clase “Cerrar” y 500 son de la clase “Abrir”.

– Digamos que el clasificador c2 predice siempre “Cerrar” (clasificador trivial).

• Error de c2: 0,5%.

¿Es éste un buen clasificador?

Page 7: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

7

Evaluación Sensible a la Distribución y al Coste

• Matriz de confusión/contingencia (p.ej. para el conjunto de test):

abrir (p) cerrar (n)

ABRIR (P) TP FP

CERRAR (N) FN TN

Real

PredichoDiagonal de los aciertos

• A partir de aquí, se han definido una serie de métricas:

– Pr(P|p) ≈ True Positive Rate: TPR = TP / (TP + FN). (“recall” o ”sensitivity” o “positive accuracy”).

– Pr(N|p) ≈ False Negative Rate: FNR = FN / (TP + FN). (“positive error”)

– Pr(N|n) ≈ True Negative Rate: TNR = TN / (TN + FP). (”specificity” o ”negative accuracy”).

– Pr(P|n) ≈ False Positive Rate: FPR = FP / (TN + FP). (“negative error”)

– Pr(p|P) ≈ Positive Predictive Value: PPV = TP / (TP + FP). (”precision”).

– Pr(n|N) ≈ Negative Predictive Value: NPV = TN / (TN + FN).

– Macro-average = MEDIA(TPR, TNR). (La media puede ser aritmética, geométrica u otra)

– BREAK-EVEN= (Precision + Recall) / 2 = (PPV + TPR) / 2

– F-MEASURE= (Precision * Recall) / BREAK-EVEN = 2*PPV*TPR / (PPV + TPR)

Page 8: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

8

Evaluación Sensible a la Distribución y al Coste

• Ejemplo: (conjunto de test de 100.000 instancias)

c1 abrir

cerrar

ABRIR 300 500

CERRAR 200 99000

Real

Pred

c3 abrir cerrar

ABRIR 400 5400

CERRAR 100 94100

Real

c2 abrir

cerrar

ABRIR 0 0

CERRAR 500 99500

Real

ERROR: 0,7%

TPR= 300 / 500 = 60%FNR= 200 / 500 = 40%TNR= 99000 / 99500 = 99,5%FPR= 500 / 99500 = 0,5%PPV= 300 / 800 = 37,5%NPV= 99000 / 99200 = 99,8%

Macromedia= (60 + 99,5 ) / 2 = 79,75%

ERROR: 0,5%

TPR= 0 / 500 = 0%FNR= 500 / 500 = 100%TNR= 99500 / 99500 = 100%FPR= 0 / 99500 = 0%PPV= 0 / 0 = INDEFINIDONPV= 99500 / 10000 = 99,5%

Macromedia= (0 + 100 ) / 2 = 50%

ERROR: 5,5%

TPR= 400 / 500 = 80%FNR= 100 / 500 = 20%TNR= 94100 / 99500 = 94,6%FPR= 5400 / 99500 = 5,4%PPV= 400 / 5800 = 6,9%NPV= 94100 / 94200 = 99,9%

Macromedia= (80 + 94,6 ) / 2 = 87,3%

¿Qué clasificador es mejor?

Espe

cific

idad

Sens

itivi

dad

Rec

all

Prec

isio

n

Page 9: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

9

Evaluación Sensible a la Distribución y al Coste

• Evaluación sensible al coste:– En muchas situaciones todos los errores producidos por un modelo

predictivo no tienen las mismas consecuencias:• Ejemplo: Dejar cerrada una válvula en una central nuclear cuando es

necesario abrirla, puede provocar una explosión, mientras que abrir una válvula cuando puede mantenerse cerrada, puede provocar una parada.

– Matriz de costes:

– Lo importante no es obtener un “clasificador” que yerre lo menos posible sino que tenga un coste menor.

– A partir de la matriz se calcula el coste de un clasificador.• Los clasificadores se evalúan con dichos costes.

• Se selecciona el clasificador de menos coste.

abrir cerrar

ABRIR 0 100€

CERRAR 2000€ 0

Real

Predicho

Page 10: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

10

Evaluación Sensible a la Distribución y al Coste

• Ejemplos:

abrir cerrar

ABRIR 0 100€

CERRAR 2000€ 0

Real

Predicho

c1 abrir

cerrar

ABRIR 300 500

CERRAR 200 99000

Real

Pred

c3 abrir cerrar

ABRIR 400 5400

CERRAR 100 94100

Real

c2 abrir

cerrar

ABRIR 0 0

CERRAR 500 99500

Real

c1 abrir cerrar

ABRIR 0€ 50.000€

CERRAR 400.000€ 0€

c3 abrir cerrar

ABRIR 0€ 540.000€

CERRAR 200.000€ 0€

c2 abrir cerrar

ABRIR 0€ 0€

CERRAR 1.000.000€ 0€COSTE TOTAL: 450.000€

COSTE TOTAL: 1.000.000€

COSTE TOTAL: 740.000€

Matrices de confusión

Matriz de coste

Matrices resultado

Page 11: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

11

Evaluación Sensible a la Distribución y al Coste

• ¿De qué depende el coste final?– Para dos clases. Depende de un contexto (o skew):

• El coste de los falsos positivos y falsos negativos: FPcost y FNcost

• El porcentaje de ejemplos de la clase negativa respecto de ejemplos de la clase positiva. (Neg / Pos).

• Se calcula: (para el ejemplo anterior)

20

1

2000

100

FNcost

FPcost199

500

99500

Pos

Neg95,9199·

20

1slope

– Para dos clases, el valor “slope” es suficiente para determinar qué clasificador será mejor.

Clasifi. 1: FNR= 40%, FPR= 0,5%Coste Unitario = 1 x 0,40 + 9,95 x 0,005 = 0,45

Clasifi. 2: FNR= 100%, FPR= 0%Coste Unitario = 1 x 1 + 9,95 x 0 = 1

Clasifi. 3: FNR= 20%, FPR= 5,4%Coste Unitario = 1 x 0,20 + 9,95 x 0,054 = 0,74

Page 12: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

12

Análisis ROC de Clasificadores “crisp”

• El clasificador con menor error no es, frecuentemente, el mejor clasificador.

• El contexto (la distribución de clases y los costes de cada error) determinan la bondad de los clasificadores.

• PROBLEMA:– En muchas aplicaciones, hasta el momento de aplicación, no

se conoce la distribución de clases y/o es difícil estimar la matriz de costes. P.ej. un clasificador de spam.

– Pero los modelos se aprenden antes generalmente.

• Análisis ROC (Receiver Operating Characteristic).– Usado por primera vez para evaluar radares en la 2ª guerra mundial,

posteriormente se usó para el análisis de respuesta de transistores, se desarrolló fundamentalmente para aplicaciones de diagnóstico médico a partir de 1970 y comienza a popularizarse a finales de los 90 en minería de datos.

Page 13: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

13

Espacio ROC

0,000

0,200

0,400

0,600

0,800

1,000

0,000 0,200 0,400 0,600 0,800 1,000

False Positives

True

Pos

itive

s

Análisis ROC de Clasificadores “crisp”

• El espacio ROC– Se normaliza la matriz de confusión por columnas:

TPR, FNR TNR, FPR.

abrir

cerrar

ABRIR 400 12000

CERRAR 100 87500

Real

Pred

abrir

cerrar

ABRIR 0,8 0,121

CERRAR 0,2 0,879

Real

Pred

TPR= 400 / 500 = 80%FNR= 100 / 500 = 20%TNR= 87500 / 99500 = 87,9%FPR= 12000 / 99500 = 12,1%

Page 14: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

14

Análisis ROC de Clasificadores “crisp”

• Espacio ROC: buenos y malos clasificadores.

0 1

1

0FPR

TPR

• Buen clasificador.– Alto TPR.– Bajo FPR.

0 1

1

0FPR

TPR

0 1

1

0FPR

TPR

• Mal clasificador.– Bajo TPR.– Alto FPR.

• Mal clasificador (en realidad).

Page 15: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

15

Análisis ROC de Clasificadores “crisp”

• La Curva ROC. “Continuidad”.

ROC diagram

0 1

1

0FPR

TPR

Podemos construir cualquier clasificador “intermedio” ponderando aleatoramiente los dos clasificadores (con más peso a uno u otro). Esto en realidad crea un “continuo” de clasificadores entre cualesquiera dos clasificadores.

Dados dos clasificadores:

Page 16: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

16

Análisis ROC de Clasificadores “crisp”

• La Curva ROC. Construcción.

ROC diagram

0 1

1

0FPR

TPR

Construimos el “casco convexo” (convex hull) de sus puntos (FPR,TPR) además de los dos clasificadores triviales (0,0) y (1,1).

Los clasificadores que caen debajo de la curva ROC se descartan.

El mejor clasificador de los que quedan se seleccionará en el momento de aplicación…

Dados varios clasificadores:

Podemos descartar los que están por debajo porque no hay ninguna combinación de distribución de clases / matriz de costes para la cual

puedan ser óptimos.

La diagonal muestra por tanto la peor

situación posible.

Page 17: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

17

Análisis ROC de Clasificadores “crisp”

• En el contexto de aplicación, elegimos el clasificador óptimo entre los mantenidos. Ejemplo 1:

0%

20%

40%

60%

80%

100%

0% 20% 40% 60% 80% 100%

false positive rate

tru

e p

os

itiv

e r

ate

FPcost

FNcost1

2

Neg

Pos4

slope 42 2

Contexto:

Page 18: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

18

Análisis ROC de Clasificadores “crisp”

• En el contexto de aplicación, elegimos el clasificador óptimo entre los mantenidos. Ejemplo 2:

0%

20%

40%

60%

80%

100%

0% 20% 40% 60% 80% 100%

false positive rate

tru

e p

os

itiv

e r

ate

FPcost

FNcost1

8

Neg

Pos4

slope 48 .5

Contexto:

Page 19: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

19

Análisis ROC de Clasificadores “crisp”

• ¿Qué hemos aprendido?– La optimalidad de un clasificador depende de la

distribución de clases y de los costes de los errores.– A partir de este contexto se puede calcular una

inclinación (“slope” o “skew” ) característica del contexto.

• Si sabemos este contexto, podemos seleccionar el mejor clasificador, multiplicando la matriz de confusión por la matriz de coste.

• Si desconocemos el contexto de aplicación en el momento de generación, usando el análisis ROC podemos elegir un subconjunto de clasificadores, entre los cuales seguro estará el clasificador óptimo para cualquier contexto posible, cuando éste se conozca.

¿Podemos ir más allá?

Page 20: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

20

Análisis ROC de Clasificadores “soft”

• Clasificadores “crisp” y “soft”:– Un clasificador “crisp” (discreto) predice una clase entre las

posibles.– Un clasificador “soft” (probabilístico) predice una clase, pero

acompaña un valor de fiabilidad a cada predicción.• La mayoría de métodos de aprendizaje en minería de datos

pueden acompañar las predicciones con estos valores de fiabilidad.

• Un tipo especial de clasificador “soft” son los estimadores de probabilidad.– En vez de predecir “a”, “b” o “c”, dan estimaciones de

probabilidad para “a”, “b” o “c”, es decir, “pa”, “pb” y “pc”. Ejemplo:

• Clasificador 1: pa= 0.2, pb= 0.5 y pc= 0.3.

• Clasificador 2: pa= 0.3, pb= 0.4 y pc= 0.3.

– Los dos predicen b, pero el clasificador 1 está más “seguro”.

Page 21: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

21

Análisis ROC de Clasificadores “soft”

• “Rankers”:– Cuando tenemos un estimador de probabilidad para un

problema de dos clases:• pa = x, entonces pb = 1 x.

– Sólo es necesario especificar la probabilidad de una clase.

– Llamemos a una clase 0 (neg) y a la otra clase 1 (pos).

– Un ranker es un clasificador suave que proporciona un valor entre 0 y 1 de la probabilidad de una de las clases. Este valor se denomina también “score” y determina si está más cerca de la clase 0 o de la clase 1.

– Ejemplos:• Probabilidad de que un cliente compre un producto.• Probabilidad de que un correo sea spam.• ...

Page 22: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

22

• Curva ROC de un Clasificador “soft”:– Un clasificador “soft” se puede convertir en un

clasificador “crisp” utilizando un umbral.• Ejemplo: “si score > 0.7 entonces clase A, si no clase B”.

• Con distintos umbrales, tenemos distintos clasificadores, que les dan más o menos importancia a cada una de las clases (sin necesidad de sobremuestreo o submuestreo).

– Podemos considerar cada umbral como un clasificador diferente y dibujarlos en el espacio ROC. Esto genera una curva...

Análisis ROC de Clasificadores “soft”

Tenemos una “curva” para un solo clasificador “soft”

• Esta curva es escalonada (no se suele realizar el “convex hull”).

Page 23: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

23

• Curva ROC de un Clasificador “soft”:– Ejemplo:

Análisis ROC de Clasificadores “soft”

Clase Real

nnnnnnnnnnnnnnnnnnnn

Clase Predicha

pppppppppppppppppppp

pnnnnn nnn nnn nnn nnn nn

ppnnnn nnn nnn nnn nnn nn

...

© Tom Fawcett

Page 24: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

24

• Curva ROC de un Clasificador “soft”:

Análisis ROC de Clasificadores “soft”

© Tom Fawcett

Page 25: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

25

• Análisis ROC de varios clasificadores “soft”:

Análisis ROC de Clasificadores “soft”

En esta zona es mejor el clasificador “insts”

En esta zona es mejor el clasificador “insts2”

• Debemos mantener los clasificadores que tengan al menos una “zona mejor” y después actuar igual que en el caso de los clasificadores “crisp”.

© Robert Holte

Page 26: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

26

ROC curve

0,000

0,200

0,400

0,600

0,800

1,000

0,000 0,200 0,400 0,600 0,800 1,000

False Positives

Tru

e P

osi

tive

s

La Métrica “AUC”: el Área bajo la Curva ROC

• ¿Si queremos seleccionar un solo clasificador?– Se selecciona el que tiene mayor área bajo la curva ROC

(AUC, Area Under the ROC Curve).

AUC

Alternativa al error para evaluar clasificadores

• Un método de aprendizaje / MD será mejor si genera clasificadores con alta AUC.

– Para clasificadores “crisp” es equivalente a la macromedia.

Page 27: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

27

• ¿Si queremos seleccionar un solo clasificador “soft”?– Se selecciona el que tiene mayor área bajo la curva ROC

(AUC, Area Under the ROC Curve).

La Métrica “AUC”: el Área bajo la Curva ROC

Pero para el caso “soft” tenemos sorpresas…

© Tom Fawcett

En este caso

seleccionamos el B.

Page 28: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

28

La Métrica “AUC”: el Área bajo la Curva ROC

La AUC estima realmente la probabilidad de que si elegimos un ejemplo de la clase 1 y un ejemplo de la clase 0, el clasificador

otorgue más score al primero que al segundo.

• Resulta que la AUC y la estadística de Wilcoxon-Mann-Whitney (WMW) (Wilcoxon 1945) (Mann & Whitney 1947) son equivalentes.

– El test WMW sirve para determinar si una de dos variables aleatorias es estocásticamente mayor que otra.

P[X>Y]

– Si elegimos X como los ejemplos de una clase e Y como los ejemplos de la otra clase, y el valor de X e Y como el score estimado por el clasificador, tenemos que la AUC es equivalente a la WMW.

¿He de alegrarme por ello?

(¡OJO! esto no quiere decir que clasifique bien los dos ejemplos). Pero:

• Sí existe un umbral a partir del cual puede clasificar bien los dos.• No puede clasificar mal los dos, sea cual sea el umbral.

Page 29: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

29

La Métrica “AUC”: el Área bajo la Curva ROC

• La Métrica AUC para clasificadores “soft” o rankers.– Evalúa cuán bien un clasificador realiza un ránking de sus predicciones.

o, dicho de otro modo,– Evalúa cuán bien un clasificador es capaz de ordenar sus predicciones según la fiabilidad

que otorga a las mismas.

– Los ránkings de predicciones son fundamentales en muchas aplicaciones:• Detección de fraudes.• Diseño de campañas publicitarias (mailings).• Detección de spam.• Diagnóstico de fallos, diagnóstico médico.• …

– Y muchos métodos de minería de datos:• Combinación de clasificadores.• Métodos colaborativos. Recommender systems…

Page 30: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

30

Relación entre AUC y error. Elección del umbral

• Hemos visto que AUC es mejor medida de evaluación que el error. Pero, ¿qué relación hay entre ambas?– Lógicamente, un AUC cercano a 1 dará un error cercano a 0.

0 1

1

0FPR

TPR• Sea cual sea la distribución de

clases, se espera un error bajo.

c2 abrir

cerrar

ABRIR 0 0

CERRAR 500 99500

ERROR: 0,005

0 1

1

0FPR

TPR

– Pero un error cercano a 0 no asegura un AUC cercano a 1.• Recordemos el ejemplo de la central nuclear:

AUC = 0,5(Mínimo valor posible)Macromedia= AUC = (0 + 100 ) / 2 = 50%

Page 31: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

31

• Muchos métodos de aprendizaje de clasificadores son “soft” por definición y se convierten a “crisp” para realizar la clasificación.– Por ejemplo, un clasificador bayesiano Naïve, para un problema de dos clases (a y b),

estima dos probabilidades:

P(a|x) y P(b|x).

– La regla de clasificación es la siguiente:

– Esta regla “desaprovecha” los clasificadores bayesianos. Pero ¿qué otra regla podríamos usar? (Lachiche & Flach 2003)

• En primer lugar, convertimos las probabilidades en scores, de la manera siguiente.

s(x) = P(a|x) / P(b|x)

Relación entre AUC y error. Elección del umbral

Si P(a|x) > P(b|x) entonces clase aSi no entonces clase b

Page 32: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

32

• Ahora, simplemente, hagamos análisis ROC.– Dibujamos la curva ROC usando el score.– Calculamos la inclinación según la distribución de clases original

(o la de aplicación y costes si se disponen).– Seleccionamos el umbral de corte entre las dos clases para s(x).

Relación entre AUC y error. Elección del umbral

© Nicolas Lachiche & Peter Flach

Elección usando la regla P(a|x) > P(b|x)

Elección usando análisis ROC y distribución original

Inclinación (slope) dada por la distribución

original (la de entrenamiento o

de test).

Page 33: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

33

• Ejemplo de resultados (accuracy) para 25 datasets:

(Lachiche & Flach 2003)

– Se mejoran los resultados sólo por utilizar bien el clasificador bayesiano.

Relación entre AUC y error. Elección del umbral

© Nicolas Lachiche & Peter Flach

Page 34: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

34

• En el sentido inverso, sería interesante convertir métodos de minería de datos que obtienen clasificadores “crisp” en clasificadores “soft”.– Esto permitiría usarlos como rankers, para combinación, ...

– Permitiría elegir mejor el umbral y obtener mejores resultados.

• Se están rediseñando y repensando muchos métodos clásicos. Por ejemplo, para árboles de decisión.– Se crean métodos de aprendizaje de árboles de decisión que utilizan el AUC como

criterio de partición (Ferri et al. 2002).

– Se suavizan las probabilidades de las hojas (utilizando la corrección de Laplace u otras más sofisticadas) y se comprueba que la poda no es satisfactoria para obtener buenas medidas en AUC (Provost & Domingos 2003) (Ling & Yan 2003) (Ferri et al. 2003a).

Relación entre AUC y error. Elección del umbral

Page 35: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

35

• Campañas de “mailings” (propaganda selectiva):– EJEMPLO: Una compañía quiere hacer un mailing para fomentar la

compra de productos. En caso de respuesta positiva, los clientes suelen comprar productos por valor medio de 100€. Si un 55% suelen ser costes de producción (fijos y variables), tenemos que por cada respuesta positiva hay una ganancia media de 45€.

– Cada mailing cuesta 1€ (portes, folletos) y el conjunto de la campaña (indep. del número) tendría un coste base de 20.000€.

– Con un 1.000.000 de clientes, en el que, mediante una prueba piloto de 1.000 clientes hemos estimado que el 1% responde (compra)...

Aplicaciones

¿Cómo hemos de actuar?

Page 36: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

36

• Campañas de “mailings” (propaganda selectiva):– Calculemos los costes / beneficios.

• COSTES (suponiendo que enviamos a todos el mailing):– 20.000€ diseño de la campaña.– 1.000.000 x 1€ = 1.000.000€ envíos.– TOTAL: 1.020.000€

• BENEFICIOS– 1% de respuestas sobre 1.000.000 son 10.000 respuestas, a

45€ cada una.– TOTAL: 450.000€

Aplicaciones

¿Hemos actuado bien?

– Más costes que beneficios Campaña anulada.

Page 37: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

37

• Campañas de “mailings” (propaganda selectiva):– Entrenemos un clasificador “soft” con los datos piloto y

dibujemos su curva ROC (habiendo separando unos cuantos datos de test).

Aplicaciones

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

• Además, el clasificador no es muy bueno (no muy por encima de la diagonal) para saber qué clientes comprarán y qué clientes no.

no sí

NO 0€ -45€

SÍ 1€ -44€

Compra

Enviado

Matriz de costes

Pero la matriz de confusión tiene una

casilla imposible: “No enviado y sí comprado”

• Pero aún así lo podemos aprovechar...

Page 38: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

38

• Campañas de “mailings” (propaganda selectiva):– Podemos usar el clasificador para determinar a quién

enviar los mailings.

Aplicaciones

Coste Campaña

20.000 --> 20.000

100.000 x 1 --> 100.000

Total: 120.000

Benef. Campaña

3.000 x 45 --> 135.000

Benef. Netos: 15.000

Coste Campaña

20.000 --> 20.000

200.000 x 1 --> 100.000

Total: 220.000

Benef. Campaña

5.000 x 45 --> 225.000

Benef. Netos: 5.000

Page 39: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

39

• Campañas de “mailings” (propaganda selectiva):– Gráfica mostrando el beneficio para tres campañas

diferentes....

Aplicaciones

Page 40: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

40

• Las técnicas presentadas se han elaborado para dos clases:– La evaluación de clasificadores basada en costes se

puede realizar igualmente. • Ejemplo:

Extensión a Más de Dos Clases

ERROR actual low medium high

low 20 0 13 medium 5 15 4

predicted

high 4 7 60

COST actual low medium high

low 0€ 5€ 2€ medium 200€ -2000€ 10€

predicted

high 10€ 1€ -15€ Coste

total:

-29787€

Page 41: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

41

• El análisis ROC, en cambio, no es fácilmente extensible:– Dadas n clases, aparece un espacio de n x (n1)

dimensiones.• Calcular el “convex hull” se hace impracticable.• El contexto viene determinado no por un valor (el slope),

sino n x (n1) 1 valores. – Han aparecido aproximaciones (para tres clases, Mossman

1999) o intentos de abordar el problema general (Srinivasan 1999) (Ferri et al. 2003b).

Extensión a Más de Dos Clases

c

i

c

ijjHT jiAUC

ccAUC

1 ,1

),()1(

1

• La medida AUC, en cambio, sí que se ha extendido.– Extensión de “todos los pares” (Hand & Till 2001).

– Extensión “uno contra todos” (Fawcett)– Otras extensiones (Yan et al. 2003) (AUC*, Ting 2002).

Page 42: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

42

• El Análisis ROC:

– Destaca que la evaluación de clasificadores va mucho más allá de estimar el error de predicción.

– Permite trabajar conociendo los costes y distribuciones, o desconociendo esta información, mejorando la generación, la selección y la aplicación de clasificadores.

– Dispone de un conjunto de métricas y técnicas variadas para evaluar clasificadores según tarea: minimizar el error, minimizar el coste, mejorar un ranking, etc.

• Es una área de gran aplicabilidad en minería de datos, de actualidad y de intenso estudio.

Conclusiones

Page 43: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

43

Algunas Referencias

• Bradley, A.P. (1997) “The use of the area under the ROC curve in the evaluation of machine learning algorithms” Pattern Recognition, 30(7), 1145-1159.

• Egan, J.P. (1975). Signal Detection Theory and ROC Analysis. Series in Cognition and Perception. Academic Press, New York.

• Fawcett, T.(2001). “Using rule sets to maximize ROC performance”.In Proceedings of the IEEE International Conference on Data Mining (ICDM-2001), pp.131-138.

• Fawcett, T., & Provost, F. (1997). “Adaptive fraud detection”. Data Mining and Knowledge Discovery, 1(3),291-316.

• Fawcett,T. (2003). “ROC graphs: Notes and practical considerations for data mining researchers” Tech report HPL-2003-4. HP Laboratories, PaloAlto, CA, USA. Available: http://www.purl.org/net/tfawcett/papers/HPL-2003-4.pdf.

• Ferri, C., Flach, P.; Hernández-Orallo, J. (2002). “Learning Decision Trees using the Area Under the ROC Curve”, in C. Sammut; A. Hoffman (eds.) “The 2002 International Conference on Machine Learning” (ICML2002), IOS Press, Morgan Kaufmann Publishers, pp. 139-146.

• Ferri, C.; Flach, P.A.; Hernández-Orallo, J. (2003a) "Improving the AUC of Probabilistic Estimation Trees". European Conference on Machine Learning, ECML 2003: 121-132

• Ferri, C.; Hernández-Orallo, J.; Salido, M.A. (2003b) "Volume under the ROC Surface for Multi-class Problems". European Conference on Machine Learning, ECML 2003: 108-120

• Flach, P.; Blockeel, H.; Ferri, C.; Hernández-Orallo, J.; Struyf, J. (2003) “Decision Support for Data Mining: Introduction to ROC analysis and its applications” in Data Mining and Decision Support: Integration and Collaboration, Kluwer Academic Publishers, Boston, 2003.

• Flach, P.A. "The Geometry of ROC Space: Understanding Machine Learning Metrics through ROC Isometrics". (2003) International Conference on Machine Learning, ICML 2003: 194-201

• Fürnkranz, J.; Flach, P.A.: An Analysis of Rule Evaluation Metrics. (2003) International Conference on Machine Learning, ICML 2003: 202-209

• Hand, D.J., & Till, R.J. (2001). “A Simple Generalisation of the Area Under the ROC Curve for Multiple Class Classification Problems”, Machine Learning, 45, pp. 171-186.

• Hanley, J.A. , & McNeil, B.J. (1982). “The meaning and use of the area under a receiver operating characteristic (ROC) curve”. Radiology,143,29-36.

Page 44: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

44

Algunas Referencias

• Lachiche, N. & Flach, P.A. (2003). “Improving Accuracy and Cost of Two-class and Multi-class Probabilistic Classifiers Using ROC Curves”. International Conference on Machine Learning, ICML 2003: 416-423

• Lane, T. (2000). “Extensions of ROC analysis to multi-class domains”. In Dietterich, T., Margineantu, D., Provost, F., & Turney, P. (Eds.), ICML-2000 Workshop on Cost-Sensitive Learning

• Ling, C.X.; Yan, R.J. (2003) “Decision Tree with Better Ranking” The 2003 International Conference on Machine Learning (ICML2003), IOS Press, Morgan Kaufmann Publishers, to appear.

• Mann, H. B. & Whitney, D. R. (1947). "On a test whether one of two random variables is stochastically larger than the other". Ann. Math. Statist., 18, pp. 50-60.

• Mossman,D.(1999). “Three-way ROCs”. Medical Decision Making,19,78-89.• Provost, F., & Domingos, P. (2003). “Tree Induction for Probability-based Ranking”, Machine Learning

52:3 (in press), 2003.• Srinivasan, A. (1999) “Note on the Location of Optimal Classifiers in N-dimensional ROC Space”

Technical Report PRG-TR-2-99, Oxford University Computing Laboratory, Oxford.• Swets, J.A. (1988). “Measuring the accuracy of diagnostic systems”. Science, 240,1285-

1293.• Swets, J.A., Dawes, R.M., & Monahan, J. (2000). “Better decisions through science”.

Scientific American, 283, 82-87. http://www.psychologicalscience.org/pdf/pspi/sciam.pdf.• Ting, Kai Ming (2002). “Issues in Classifier Evaluation using Optimal Cost Curves” The Proceedings of

the International Conference on Machine Learning" International Conference on Machine Learning, ICML 2002, pp. 642-649.

• Turney, P. (2000) “Types of Cost in Inductive Concept Learning” Proceedings Workshop on Cost-Sensitive Learning at the Seventeenth International Conference on Machine Learning (WCSL at ICML-2000), 15-21.

• Weiss, G. and Provost, F. “The Effect of Class Distribution on Classifier Learning: An Empirical Study” Technical Report ML-TR-44, Department of Computer Science, Rutgers University, 2001.

• Wilcoxon, F. (1945). "Individual comparisons by ranking methods". Biometrics, 1, pp. 80-83.• Yan, L., Dodier, R., Mozer, M. C., & Wolniewicz, R. (2003). "Optimizing classifier performance via the

Wilcoxon-Mann-Whitney statistic. In The Proceedings of the International Conference on Machine Learning" International Conference on Machine Learning, ICML (pp. 848-855). http://www.cs.colorado.edu/~mozer/papers/

• Zweig, M.H.; Campbell, G. (1993) “Receiver-operating characteristic (ROC) plots: a fundamental evaluation tool in clinical medicine”, Clin. Chem, 1993; 39: 561-77.

Page 45: 1 Evaluación del Aprendizaje César Hervás Martínez José Hernández Orallo Técnicas estadísticas para el análisis de experimentos. ¿Cómo se compara? Evaluación.

45

Algunas Sitios para Saber Más

• Página de Tom Fawcett sobre Análisis ROC:http://www.hpl.hp.com/personal/Tom_Fawcett/ROCCH/

• Software de Análisis ROChttp://epiweb.massey.ac.nz/ROC_analysis_software.htm

http://cs.bris.ac.uk/~farrand/rocon/

• Bibliografía extensa de Análisis ROC:http://splweb.bwh.harvard.edu:8000/pages/ppl/zou/roc.html

• 1st Workshop on “ROC Analysis in AI”, Valencia, 22 agosto 2004 (dentro de ECAI’2004)

http://www.dsic.upv.es/~flip/ROCAI2004/