Aprendizaje con atributos no booleanos
“Porque del corazón salen los malos pensamientos, los homicidios, los adulterios, las fornicaciones, los hurtos, los falsos testimonio, las blasfemias”Jesucristo
Recordando el árbol de decisión
• Use todos los datos para construir un árbol de preguntas con respuestas en las hojas
precipita
lluvia
ningunanieva
formalcasual
compras?
sisi
siFin de
semana?Temp > 90?
camina
camina camina
maneja
maneja
manejamaneja
Ropa?
Atributos numéricos• Evaluación en los nodos puede ser de la forma
xj > constante
• Divida el espacio en rectángulos alineados al eje (El conjunto de rectángulos y sus valores de salida constituyen nuestra hipótesis)
Atributos numéricos• Evaluación en los nodos puede ser de la forma xj > constante• Divida el espacio en rectángulos
F1 2
f1
f2
1no si
1
2
Atributos numéricos• Evaluación en los nodos puede ser de la forma xj > constante• Divida el espacio en rectángulos alineados al eje
F1 > 2
f2
2 f1
1
11 F2>4
no si
2
4
no
1
Atributos numéricos• Evaluación en los nodos puede ser de la forma xj > constante• Divida el espacio en rectángulos alineados al eje
F1 > 2
f2
2 f1
4
1
1
01 F2>4
1 0
La hipótesis sin alineamiento al eje puede ser más pequeña pero
difícil de encontrar
si
si
no
no
Considerando particiones• Considere una separación entre cada punto en cada dimensión
0 0.5 1 1.5 2 R
8765
L 43210
Si No
Considerando particiones• Considere una separación entre cada punto en cada dimensión
0 0.5 1 1.5 2 R
8765
L 43210
Si No
9 divisiones
Tendría que ser m-1
Considerando particiones• Considere una separación entre cada punto en cada dimensión
0 0.5 1 1.5 2 R
8765
L 43210
Si No
6 divisiones
Considerando particiones• Escoger el separador que minimiza el promedio de entropía de cada nodo hijo
0 0.5 1 1.5 2 R
8765
L 43210
Si No
Ejemplo de la bancarrota
8765
L 43210
0 0.5 1 1.5 2 R
Si No
AE 1.00 1.00 0.98 0.98 0.94 0.98 0.92 0.98 0.92
R< x 0.25 0.40 0.60 0.85 1.05 1.15 1.35 1.60 1.80
L<y NI PI ND PD AE
6.5 7 6 0 1 0.93
5.0 7 4 0 3 0.74
3.5 6 3 1 4 0.85
2.5 5 2 2 5 0.86
1.5 4 0 3 7 0.63
0.5 1 0 6 7 0.93
# d e p os a d er
# d e n eg a d er
# d e p ost a izq
# d e n eg a i zq
Ejemplo de la bancarrota
8765
L 43210
0 0.5 1 1.5 2 R
Si No
AE 1.00 1.00 0.98 0.98 0.94 0.98 0.92 0.98 0.92
R< x 0.25 0.40 0.60 0.85 1.05 1.15 1.35 1.60 1.80
L<y NL
PL
NR
PR
AE
6.5 7 6 0 1 0.93
5.0 7 4 0 3 0.74
3.5 6 3 1 4 0.85
2.5 5 2 2 5 0.86
1.5 4 0 3 7 0.63
0.5 1 0 6 7 0.93
Ejemplo de la bancarrota
8765
L 43210
0 0.5 1 1.5 2 R
Si No
AE 1.00 1.00 0.98 0.98 0.94 0.98 0.92 0.98 0.92
R< x 0.25 0.40 0.60 0.85 1.05 1.15 1.35 1.60 1.80
L<y NL
PL
NR
PR
AE
6.5 7 6 0 1 0.93
5.0 7 4 0 3 0.74
3.5 6 3 1 4 0.85
2.5 5 2 2 5 0.86
1.5 4 0 3 7 0.63
0.5 1 0 6 7 0.93
L >1.5sino
??0
Ejemplo de la bancarrota
8765
L 43210
0 0.5 1 1.5 2 R
Si No
L >1.5sino
??0
L<y NL PL NR PR AE
6.5 6 3 0 1 0.83
5.0 4 3 0 3 0.69
3.5 3 2 4 1 0.85
2.5 2 1 5 2 0.88
AE 0.85 0.88 0.79 0.60 0.69 0.76 0.83
R< x 0.25 0.40 0.60 0.90 1.30 1.60 1.80
Ejemplo de la bancarrota
8765
L 43210
0 0.5 1 1.5 2 R
Si No
L >1.5sino
R >0.90
L<y NL PL NR PR AE
6.5 6 3 0 1 0.83
5.0 4 3 0 3 0.69
3.5 3 2 4 1 0.85
2.5 2 1 5 2 0.88
AE 0.85 0.88 0.79 0.60 0.69 0.76 0.83
R< x 0.25 0.40 0.60 0.90 1.30 1.60 1.80
1??sino
Ejemplo de la bancarrota
8765
L 43210
0 0.5 1 1.5 2 R
Si No
L >1.5sino
R >0.90
1?? AE 1.00 0.92 1.00
R< x 0.25 0.40 0.60
L<y NL PL NR PR AE6.5 3 2 0 1 0.815.0 3 0 0 3 0.003.5 2 0 1 3 0.542.5 1 0 2 3 0.81
Ejemplo de la bancarrota
8765
L 43210
0 0.5 1 1.5 2 R
Si No
L >1.5sino
R >0.90
1L>5.0AE 1.00 0.92 1.00
R< x 0.25 0.40 0.60
L<y NL PL NR PR AE6.5 3 2 0 1 0.815.0 3 0 0 3 0.003.5 2 0 1 3 0.542.5 1 0 2 3 0.81
0 1
Ejemplo de la bancarrota
8765
L 43210
0 0.5 1 1.5 2 R
Si No
L >1.5sino
R >0.90
1L>5.0
0 1
Enfermedades cardíacas• El desempeño del árbol de decisión(.77) no es tan bueno
como el vecino más cercano (.81)
0 10 20 30 40
1
0.8
0.6
0.4
0.2
0
Prec
isió
n
Tamaño de hoja mínima
Enfermedades cardíacas
Thal= 1 : examen normal de la evaluación del thallum
sinoThal= 1
Enfermedades cardíacas
Thal= 1 ; examen para evaluar la presencia de un stress llamado thallum Ca= 0; no hay arterias bloqueadas
sinoThal= 1
Ca =0
sino
Enfermedades cardíacas
Thal= 1 ; examen normal del ejercicio thallum sintigrafyCa= 0; ninguna arteria fue coloreadas por fluroscopio
sinoThal= 1
Ca =0
sino
1Tiene enfermedad
cardiaca
Enfermedades cardíacas
Thal= 1 : examen normal del ejercicio thallum sintigrafyCa= 0 : arterias no coloreadas por fluroscopioExang : ejercicio de angina inducido
sinoThal= 1
Ca =0
sino
1
0 1
exang
Enfermedades cardíacas
Thal= 1 : examen normal del ejercicio thallum sintigrafyCa= 0 : arterias no coloreadas por fluroscopioExang : ejercicio de angina inducido
sino
Thal= 1
Ca =0
sino
1
0 1
exang
Ca = 0
sino
Enfermedades cardíacas
Thal= 1 : examen normal del ejercicio thallum sintigrafyCa= 0 : arterias no coloreadas por fluroscopioExang : ejercicio de angina inducido
sino
Thal= 1
Ca =0
sino
1
0 1
exang
Ca = 0sino
Dolor-pecho
10
Enfermedades cardíacas
Thal= 1 : examen normal del ejercicio thallum sintigrafyCa= 0 : arterias no coloreadas por fluroscopioExang : ejercicio de angina inducido
sino
Thal= 1
Ca =0
sino
1
0 1
exang
Ca = 0sino
Dolor-pecho
10
Edad < 57.5
0
Enfermedades cardíacas
Thal= 1 : examen normal del ejercicio thallum sintigrafyCa= 0 : arterias no coloreadas por fluroscopioExang : ejercicio de angina inducidoOldpk: atributo del cardiograma
sino
Thal= 1
Ca =0
sino
1
0 1
exang
Ca = 0sino
Dolor-pecho
10
Edad < 57.5
0
0 1
Oldpk<3.2
Auto que hace 22 MPG?
0
0
1
1
1
Peso >2775
Año > 78.5
Peso >2224.5
Desplazamiento> 189. 5
sino
si
si
Regresión
• La salida es un valor numérico continuo• Promediando pesos localmente (vecino + cercano)• Árboles de regresión (árboles de decisión)
Promediando localmente
x
y
• Recordando todos los datos
Promediando localmente
x
y
•Recordando todos los datos•Cuando alguien hace una pregunta,
•Encontrar los k puntos de datos viejos
Promediando localmente
x
y
•Recordando todos los datos•Cuando alguien hace una pregunta,
•Encontrar los k puntos de datos viejos•Regrese el promedio de las respuestas asociadas con ellos
y = 1/K (Σ yk ) k
Kernel Epanechnikov
• D es la distancia Euclidiana
K(x, xk) = max 3 1 - D(x, xk)2 , 0 4 2
• X=5,5• =4
Promediando localmente los pesos
• Encuentre todos los puntos dentro de la distancia λ de la meta al punto
• Promedie las salidas, usando como peso la distancia que se encuentran de la meta
Promediando localmente los pesos
Árboles de regresión
• Como árboles de decisión pero con valores reales en las hojas.
Árboles de regresión
• Como los árboles de decisión, pero con salida real valuada en las hojas.
X>2
Y < 4
no si
no si3.2
-1.9 2.42
4
2.4
3.2
-1.9
Valores en las hojas
• Asigne un nodo hoja al promedio de los valores “y” de los puntos datos que caen ahí
Valores en las hojas
• Asigne un nodo hoja el promedio de los valores “y” de los puntos datos que caen aquí
• Nos gustaría tener grupos de puntos en una hoja que tiene similares valores “y”(porque entonces el promedio es una buena representación)
Varianza• Medida de cuan extendidos están los
números de un conjunto
Varianza• Medida de la cantidad de números de un conjunto es
extendido• El promedio de m valores, z1 hasta zm :
m
kkz
m 1
1
Varianza• Medida de la cantidad de números de un conjunto es
extendido• El promedio de m valores, z1 hasta zm :
• Varianza: promedio de las distancias al cuadrado entre los valores individuales z’s y la media.
m
kkz
m 1
1
2
1
2 (1
1
m
kkz
m
Déjenos separarD: -2, 9, 12, -40, 11, 10, -1 (valores y)
σ2 =40.5
Déjenos separarD: -2, 9, 12, -4
0, 11, 10, -1σ2 =40.5
-2, 1, -4, 0, -1
9, 12, 11, 10
-2, 9, 1, 12, -4
0, 11, 10, -1
f3 f20 01 1
σ2 =3.7 σ2 =1.67 σ2 =48.7 σ2 =40.67
Déjenos separarD: -2, 9, 12, -4
0, 11, 10, -1σ2 =40.5
-2, 1, -4, 0, -1
9, 12, 11, 10
-2, 9, 1, 12, -4
0, 11, 10, -1
f3 f20 01 1
σ2 =3.7 σ2 =1.67 σ2 =48.7 σ2 =40.67
AV(j)=pj σ2 (D+j )+ (1 + pj ) σ2 (D-
j )
% de D con fj Subconjunto de D con fj =1
Déjenos separarD: -2, 9, 12, -4
0, 11, 10, -1σ2 =40.5
-2, 1, -4, 0, -1
9, 12, 11, 10
-2, 9, 1, 12, -4
0, 11, 10, -1
f3 f20 01 1
σ2 =3.7 σ2 =1.67 σ2 =48.7 σ2 =40.67
AV=(5/8)*3.7+(4/9)*1.67 =2.8
AV= (5/9)*48.7+(4/9)*40.67 =45.13
Deteniéndose
• Deténgase cuando la varianza en una hoja sea suficientemente pequeño
• O cuando tenga menos que umbral hoja-min en una hoja
Deteniendo• Detenga cuando la varianza en una hoja sea
suficientemente pequeño• O cuando tenga mucho menos que umbral hoja-min en
una hoja• Haga “y” una hoja teniendo el promedio de los
valores “y” de los elementos.
-2, 1-4, 0, -1
9, 12,11, 10
-1.2 10.5
f30 1
• Tomado del Instituto Tecnológico de Massachusetts www.owc.mit.edu6.034 Artificial Intelligence 2004
Archivo: ch6-mach1.pdf
Ejercicios
• •
• 1 2 3 4 5 6 7 8 9 10 11 12 13 f
•Usando este conjunto de datos, muestre el árbol de decisión que seria construido con ellos. Asuma que las evaluaciones en el árbol son de la forma f ≤ c. Para cada evaluación muestre el valor aproximado del promedio de desorden para cada pregunta. Para ayudarle a calcular esto, use la tabla de valores de –(x/y)*log(x/y).
Top Related