Análisis de conglomerados (Cluster analysis)

43
Análisis de conglomerados (Cluster analysis)

description

Análisis de conglomerados (Cluster analysis). Métodos de partición Dividir los datos en grupos disjuntos Métodos jerárquicos Construir una jerarquía de los datos y deducir de alli los grupos. K medias. Criterios. Mismo criterio con vectores. Justificación del criterio. - PowerPoint PPT Presentation

Transcript of Análisis de conglomerados (Cluster analysis)

Page 1: Análisis de conglomerados (Cluster analysis)

Análisis de conglomerados(Cluster analysis)

Page 2: Análisis de conglomerados (Cluster analysis)

• Métodos de partición

Dividir los datos en grupos disjuntos

• Métodos jerárquicos

Construir una jerarquía de los datos y deducir de alli los grupos

Page 3: Análisis de conglomerados (Cluster analysis)

K medias

Page 4: Análisis de conglomerados (Cluster analysis)

Criterios

Page 5: Análisis de conglomerados (Cluster analysis)

Mismo criterio con vectores

Page 6: Análisis de conglomerados (Cluster analysis)

Justificación del criterio• La justificación es el análisis de la varianza. Para

una variable escalar esto es la descomposición:

VT=VNE+VE

Y para vectores

Minimizar la variabilidad internar es maximizar las diferencias entre grupos.

Page 7: Análisis de conglomerados (Cluster analysis)

Algoritmo de K medias

Page 8: Análisis de conglomerados (Cluster analysis)

Numero de grupos

Page 9: Análisis de conglomerados (Cluster analysis)

Problemas de estandarización

Page 10: Análisis de conglomerados (Cluster analysis)

Ejemplo Ruspini

Page 11: Análisis de conglomerados (Cluster analysis)
Page 12: Análisis de conglomerados (Cluster analysis)
Page 13: Análisis de conglomerados (Cluster analysis)
Page 14: Análisis de conglomerados (Cluster analysis)
Page 15: Análisis de conglomerados (Cluster analysis)

Problemas de k-medias

• Muy sensible a datos atípicos (k-medias recortadas)

• Distancias euclídeas. Mal para cluster esféricos

• No determinar el número de grupos que

debe obtenerse por algúna medida de ajuste.

Page 16: Análisis de conglomerados (Cluster analysis)

Algoritmos jerárquicos

Page 17: Análisis de conglomerados (Cluster analysis)

Aglomerativos

Page 18: Análisis de conglomerados (Cluster analysis)

vecino más proximo

Page 19: Análisis de conglomerados (Cluster analysis)

Vecino más alejado

Page 20: Análisis de conglomerados (Cluster analysis)

media

Page 21: Análisis de conglomerados (Cluster analysis)

centroide

Page 22: Análisis de conglomerados (Cluster analysis)

Método de Ward

Page 23: Análisis de conglomerados (Cluster analysis)

Dendogramas

Page 24: Análisis de conglomerados (Cluster analysis)

Ejemplo

Page 25: Análisis de conglomerados (Cluster analysis)
Page 26: Análisis de conglomerados (Cluster analysis)
Page 27: Análisis de conglomerados (Cluster analysis)
Page 28: Análisis de conglomerados (Cluster analysis)
Page 29: Análisis de conglomerados (Cluster analysis)
Page 30: Análisis de conglomerados (Cluster analysis)
Page 31: Análisis de conglomerados (Cluster analysis)
Page 32: Análisis de conglomerados (Cluster analysis)

Problemas cluster jerárquico

• Con muchos datos lento, cada vez n(n-1)/2 comparaciones.

• Distancias euclideas pueden no ser apropiadas

• Con muchos datos dificil de interpretar el dendograma

Page 33: Análisis de conglomerados (Cluster analysis)

Un nuevo enfoque para cluster (The SAR procedure, Peña and Tiao, 2003)

Buscar para cada dato su discriminante. Definido por el punto que maximiza

This is equivalent to

And for large samples

Page 34: Análisis de conglomerados (Cluster analysis)
Page 35: Análisis de conglomerados (Cluster analysis)
Page 36: Análisis de conglomerados (Cluster analysis)

We can split the sample in this way and computeSome global statistic at each step as the SCDG To see if more splitting is needed

Page 37: Análisis de conglomerados (Cluster analysis)
Page 38: Análisis de conglomerados (Cluster analysis)

Conglomerados por variablesDistancias entre variables cuantitativas

Page 39: Análisis de conglomerados (Cluster analysis)

Distancias entre variables cuantitativas (2)

Page 40: Análisis de conglomerados (Cluster analysis)

Distancias entre variables cualitativas

Page 41: Análisis de conglomerados (Cluster analysis)

Similaridad entre atributos cualitativos

Page 42: Análisis de conglomerados (Cluster analysis)
Page 43: Análisis de conglomerados (Cluster analysis)