Análisis de Conglomerados (Cluster Analysis )
description
Transcript of Análisis de Conglomerados (Cluster Analysis )
![Page 1: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/1.jpg)
ANÁLISIS DE CONGLOMERADOS
(CLUSTER ANALYSIS)
![Page 2: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/2.jpg)
AGRUPAMIENTOS
Claudia Jiménez R
![Page 3: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/3.jpg)
¿Cuál agrupamiento es mejor?
![Page 4: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/4.jpg)
MÉTODOS DE AGRUPACIÓN
Métodos jerárquicos: • Los objetos se agrupan (dividen) por partes hasta clasificar todos los
objetos.• No requiere fijar un número de clústeres o grupos (menos
supervisado).
Métodos de capa única:• Se tiene un número de grupos predefinidos y cada objeto se ubica en
un grupo hasta alcanzar estabilidad en los valores de los centroides.• Requiere, generalmente, fijar a priori un número de clústeres.
Claudia Jiménez R
![Page 5: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/5.jpg)
MÉTODOS JERÁRQUICOS
DendogramaVarios niveles de agrupamiento
Claudia Jiménez R
![Page 6: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/6.jpg)
Métodos aglomerativos
Esquema general algoritmo:1. Cada objeto corresponde a un grupo.2. En cada iteración se juntan los dos grupos más
cercanos bajo algún criterio de cercanía entre grupos.
3. Los dos grupos recién unidos forman un único grupo.4. Iterar hasta formar un único grupo.
El método jerárquico aglomerativo más utilizado es el de Ward, por el nombre de su autor.
Claudia Jiménez R
![Page 7: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/7.jpg)
Método de Ward
• Este procedimiento trata de identificar grupos de casos, tratando de minimizar la varianza dentro de los grupos.
• Se minimiza la distancia euclideana cuadrada a las medias del conglomerado o grupo.
Claudia Jiménez R
![Page 8: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/8.jpg)
Dendogramas
Un dendograma es un árbol en el que el largo de las ramas está asociado inversamente a la fortaleza de la relación.
Claudia Jiménez R
Debajo de la línea roja
![Page 9: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/9.jpg)
Métodos divisivos
• Esquema general algoritmo:
1. Todos los objetos corresponde a un grupo.2. Cada grupo se separa bajo algún criterio de
maximización de varianza entre grupos.3. Dividir cada uno de los grupos hasta que:
– Todos los grupos sean tan homogéneos que no vale la pena seguir dividiendo.
– Los grupos son tan pequeños que no vale la pena seguir dividiendo.
Claudia Jiménez R
![Page 10: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/10.jpg)
Métodos de una sola capa o particionales
Algoritmos iterativos: en cada iteración ubican a los objetos en el grupo más cercano a él, de acuerdo con los valores de los centroides.
Claudia Jiménez R
![Page 11: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/11.jpg)
• La función kmeans trata a cada observación como un objeto localizado en el espacio. Se pueden escoger cinco medidas de distancia.
• Cada clúster es definido por sus miembros y por su centroide. El centroide es aquel que minimiza la suma de las desviaciones desde cualquier punto del grupo a ese punto central. La función kmeans minimiza una función diferente dependiendo de la medida de distancia que se utilice.
• Se pueden controlar los detalles de la minimización como incluir los valores iniciales de los centroides o el máximo número de iteraciones.
La técnica k-medias en Matlab
Claudia Jiménez R
[idx,ctrs] = kmeans(X,2,... 'Distance','city’);
![Page 12: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/12.jpg)
MEDIDAS DE DISTANCIA EN MATLAB ENTRE OBJETOS (PDIST(X))
![Page 13: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/13.jpg)
Tiempo_fac Gasto Horas ocio
36 min $20.500 22 horas
Clúster Tiempo Gasto Horas ocio
1 60 41.750 23.52 36.5 24.200 26.33 28 10.380 18.4
Clúster Tiempo Gasto Horas ocio
1 45 30000 242 30 18000 183 20 10000 17
Tamaños de clústeres:[1] "4 10 12“Suma de cuadrados en clúster:[1] 116752251 251603917 221327040
Ejemplos usando Rattle y Matlab
Medida de distancia: City blockMedida de distancia: Euclidiana
![Page 14: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/14.jpg)
Ejemplo usando Rattle
![Page 15: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/15.jpg)
Tiempo_fac Gasto Horas ocio
36 min $20.500 22 horas
Ejemplos creando dos grupos
Medida de distancia: Euclidiana
Clúster Tiempo_fac Gasto Horas.ocio
1 45 35875 23
2 32 13698 22
Tamaños de clústers:[1] "8 18“
Suma de cuadrados en clúster:[1] 392880110 644939334
![Page 16: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/16.jpg)
Ejemplo usando Weka
![Page 17: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/17.jpg)
Agrupamiento probabilista
Función gmdistribution en Matlab: funciones normales
Claudia Jiménez R
![Page 18: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/18.jpg)
Comparación de agrupamientos con los lirios, usando una interfaz de
Matlab
Clustering sustractivo Fuzzy C-means
findcluster('iris.dat')
![Page 19: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/19.jpg)
Interpretar y elaborar un perfil de cada grupo
• Debe buscarse una semántica que diferencie a los objetos de cada grupo.
• Enfoques complementarios:• Análisis y comparación de los
centroides de cada grupo.• Análisis gráfico para determinar la
variables que marcan diferencias significativas.
![Page 20: Análisis de Conglomerados (Cluster Analysis )](https://reader036.fdocumento.com/reader036/viewer/2022081501/56813b34550346895da40188/html5/thumbnails/20.jpg)
EVALUACIÓN VISUAL DE AGRUPAMIENTOS
Datos originales K-medias Probabilístico EM
Claudia Jiménez R