Comparación de cuatro técnicas de selección de características envolventes para procesos de...
-
Upload
ximen-calistro -
Category
Documents
-
view
5 -
download
0
Transcript of Comparación de cuatro técnicas de selección de características envolventes para procesos de...
Comparación de cuatro técnicas de selección de características envolventes
para procesos de clasificación.
Samuel Oporto DíazIván Aquino Morales
Jacqueline Chávez CuzcanoCésar Pérez Pinche
erro
r d
el c
lasi
ficad
or
número de características
número de ejemplos
22/45/45
PLANTEAMIENTO DEL PROBLEMA
33/45/45
Selección de Características
La selección de características se encuentra dentro de la etapa de preparación de datos dentro de un proceso de minería de datos.
Comprensión del negocio
Comprensión de los datos
Preparación de los datos
Modelación
Evaluación
Despliegue de resultados
DATOS
Comprensión del negocio
Comprensión de los datos
Preparación de los datos
Modelación
Evaluación
Despliegue de resultados
Comprensión del negocio
Comprensión de los datos
Preparación de los datos
Modelación
Evaluación
Despliegue de resultados
Comprensión del negocio
Comprensión de los datos
Preparación de los datos
Modelación
Evaluación
Despliegue de resultados
DATOS
44/45/45
Selección de Características
Encontrar un subconjunto de características Sm’ del conjunto inicial de características Sm tal que logren minimizar el error de un clasificador.
Se trata de reducir la dimensionalidad de los patrones de entrada Sm.
Sm’ se construye eliminando las variables redundantes o las que no aportan suficiente información al clasificador.
55/45/45
Selección de Características
• Si se evalua todo el espacio de posibles combi-naciones, el costo computacional es muy alto
• Si n es la cantidad de características identificadas y m es la cantidad de características deseadas, el número total de posibles subconjuntos a evaluar es:
Si n = m; 2n
n 2n
10 1,02420 1,048,57630 1,073,741,82440 1,099,511,627,776
66/45/45
PROCEDIMIENTO DE SOLUCION
77/45/45
Proceso de Selección de Características
FiltroEnvolventeHíbrido
e: error del clasificador
B. OptimaB. Sub-optimaB. AleatoriaB. Heurística
Clasificador
88/45/45
Generación del Sub-Conjunto
• Búsqueda exhaustiva
• Búsqueda secuencial hacia delante.• Búsqueda secuencial hacia atrás.
• Búsqueda Aleatoria (BA).• Búsqueda Aleatoria Optimizada (BAO)
• Búsqueda Mejor Primero (BMP)• Búsqueda Genética (BG)
Optima
Sub-optima
Aleatoria
Heurística
99/45/45
Evaluación del Sub-Conjunto
• Filtro. Independientes del algoritmo de aprendizaje.
• Componente principal, entropía.
• Envolvente. Usan el mismo algoritmo para escoger el sub-conjunto como para el aprendizaje.
• Búsqueda Aleatoria, Búsqueda Aleatoria Optimizada, Búsqueda Mejor Primero, Búsqueda Genética.
• Híbridos. Filtro + Envolvente.
1010/45/45
Criterio de Paro
¿Cuándo detener la búsqueda? :
error del clasificador
1111/45/45
ALGORITMOS
1212/45/45
Algoritmos de Búsqueda
• BUSQUEDA ALEATORIA (BA)• Realiza una búsqueda sobre un porcentaje de
todo el espacio de sub-conjuntos posibles, seleccionados aleatoriamente. Es una búsqueda de tipo exhaustivo.
• BUSQUEDA ALEATORIA OPTIMIZADA (BAO)• Dado un subconjunto de características, si al
quitar una característica.– error sube relevante <fracaso>– error baja irrelevente <exito>
• Se pretende eliminar las irrelevantes.
1313/45/45
Algoritmos de Búsqueda
• BUSQUEDA MEJOR PRIMERO (BMP)• Usa un árbol de búsqueda, de tal forma que la
característica de mejor evaluación inicial sea la primera en ser considerada como parte del subconjunto óptimo de características.
• BUSQUEDA GENÉTICA (BG)• Hace uso de un algoritmo genético. El objetivo
consiste en encontrar el sub-conjunto de características (individuos) óptimas mediante la minimización de una función objetivo (tasa de error del clasificador).
1414/45/45
Criterio de Paro
Búsqueda Aleatoria (BA) gradiente error < umbral
Búsqueda Aleatoria Optimizada (BAO) fracasos consecutivos < umbral
Búsqueda Mejor Primero (BMP) error (l) < error (l + k) k = [1, 2, 3, 4, 5]
Búsqueda Genética (BG) minimizar el error del clasificador.
1515/45/45
Algoritmos de Clasificación
Desarrollado por Quinlan. Es un árbol de regresión.Es recursivo, y se basa en la estrategia "divide y vencerás“Mejora del ID3.
Árbol de Decisión C4.5 Naive Bayesian
Aprendizaje probabilístico:Incremental: Cada ejemplo puede incrementar / decrementar la probabilidad de que una hipótesis sea correcta.La predicción probabilística predice múltiples hipótesis ponderadas
Tiempo P N Humedad P Nsoleado 2/9 3/5 alta 3/9 4/5cubierto 4/9 0 normal 6/9 1/5lluvia 3/9 2/5Temperatura Vientocalor 2/9 2/5 si 3/9 3/5suave 4/9 2/5 no 6/9 2/5fresco 3/9 1/5
1616/45/45
Algoritmos de Clasificación
Presentadas en 1992. Vapnik y Chervonenkis.Crea nuevas características linealmente separables.Busca un hiperplano que puede separar el espacio en dos partes
Maquinas de Vector Soporte
Red de Retropropagación
Trabaja con datos continuos o discretosLa salida puede ser vector de valores reales o discretos.Aprende por modificación de los pesos.Largo tiempo de entrenamiento Es difícil entender el significado de los pesos.
1717/45/45
FUENTES DE DATOS
1818/45/45
Datos
Nombre inst
anci
as
cara
cter
ístic
as
clases % nom % num 1% 0%ADULT 48,842 14 2 57 43 23.5 76.5BANDS 512 39 2 50 50 35.5 64.5MUSHROOM 8,124 22 2 100 0 37.3 62.7
UCI Repository of Machine Learning DatabaseUniversity of California
1919/45/45
DISEÑO DE EXPRIMENTO
2020/45/45
Diseño de Experimentos
DATOS
AL
GO
RIT
MO
D
E B
US
QU
ED
AC
LA
SIF
ICA
DO
RE
S
ADULT, BANDS, MUSHROOM
• Árbol de Decisión C4.5
• Naive Bayesian
• Maquinas de Vector Soporte
• Red de Retropropagación
• Búsqueda Aleatoria
• Búsqueda Aleatoria Optimizada
• Búsqueda Mejor Primero
• Búsqueda Genética
48experimentos
K-fold
K = 10
Validación cruzadaANOVAVoting
2121/45/45
RESULTADOS EXPERIMENTALES
2222/45/45
Resultados Experimentales
2323/45/45
BANDS BA BAO BMP BG Puntaje ( e )BA 0 1 2 2 5
BAO 3 0 3 4 10BMP 2 1 0 3 6BG 2 0 1 0 3
ADULT BA BAO BMP BG Puntaje ( e )BA 0 0 2 1 3
BAO 4 0 1 1 6BMP 2 3 0 1 6BG 3 3 3 0 9
MUSHROOM BA BAO BMP BG Puntaje ( e )BA 0 1 1 1 3
BAO 3 0 3 3 9BMP 3 1 0 3 7BG 3 1 1 0 5
Tablas de Votación (error)Puntajes en función a la tasa de error promedio del clasificador
2424/45/45
Tablas de Votación (reducción)Puntajes en función al porcentaje de reducción promedio de las características de las bases de datos
BANDS BA BAO BMP BG Puntaje ( % red )BA 0 3 2 1 6
BAO 1 0 2 1 4BMP 2 2 0 2 6BG 3 3 2 0 8
ADULT BA BAO BMP BG Puntaje ( % red )BA 0 4 2 3 9
BAO 0 0 2 0 2BMP 2 2 0 2 1BG 1 4 2 0 7
MUSHROOM BA BAO BMP BG Puntaje ( % red )BA 0 3 2 1 6
BAO 1 0 0 0 1BMP 1 4 0 1 6BG 3 4 3 0 10
2525/45/45
Conclusión Voting
Reducción del error• No se puede concluir quién es el peor (2BA y 1BG)• No se puede concluir quién es el mejor (2 BAO y 1BG)
Reducción de la dimensionalidad.• El peor es BAO para la data usada (3 BAO)• No se puede concluir quién es el mejor (2 BG, 1 BA)
2626/45/45
ANOVA: Error
24,4 22,4 23,4 26,275BA BAO BMP BG
24,4 BA 0,93680459 0,1475422 2,10833222,4 BAO 0,6632365 2,7093123,4 BMP 1,919958
26,275 BG
ERROR (%)
4,125 2,5 2,7 2,6BA BAO BMP BG
4,125 BA 0,88402 0,79302 1,292422,5 BAO 0,04872 0,064872,7 BMP 0,067022,6 BG
ERROR (%)
t(5%,6)=1.9432
23,6 22,4 23,4 26,275BA BAO BMP BG
23,6 BA 1,692829 0,277184 3,3248622,4 BAO 1,961948 6,2333323,4 BMP 4,51995
26,275 BG
ERROR (%)
BANDS
ADULT
MUSHROOM
2727/45/45
ANOVA: Reducción t(5%,6)=1.9432
BANDS
ADULT
MUSHROOM 48,8635 28,409 51,13625 60,2275BA BAO BMP BG
48,8635 BA 2,17217 0,26262 1,8678028,409 BAO 0,93658 3,0430151,1363 BMP 0,9300360,2275 BG
REDUCCIÓN (%)
44,9998 20,0000 23,3335 31,6668BA BAO BMP BG
44,9998 BA 3,38232 1,832351 1,7597220,0000 BAO 0,333352 2,7815323,3335 BMP 0,82231,6668 BG
REDUCCIÓN (%)
50,8065 49,1935 57,25825 61,29025BA BAO BMP BG
50,8065 BA 0,25132383 0,8193583 1,03313449,1935 BAO 1,1840049 1,294193
57,25825 BMP 0,38766261,29025 BG
REDUCCIÓN (%)
2828/45/45
Conclusión ANOVA
Reducción del error• El peor es el BG para la data usada• Los mejores son BAO y BA para la data usada,
pero entre los no se de puede concluir una diferencia.
Reducción de la dimensionalidad.• El peor es el BAO para la data usada• Los mejores son BA y BG para la data usada,
pero entre los no se de puede concluir una diferencia.
2929/45/45
GRACIAS