ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos...

28
ANÁLISIS DE CONGLOMERADOS

Transcript of ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos...

Page 1: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOS

Page 2: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOS

Otros nombres son:

En Inglés Cluster análisis

Análisis de cúmulos

Análisis de agrupación

Page 3: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSObjetivos

El objetivo del análisis de conglomerados es agrupar las unidades en subgrupos SIGNIFICATIVOS. A partir de las distancias existentes entre los vectores de las observaciones

La idea central es llegar a una organización ende grupos que desplieguen la mayor variación ENTRE ellos y la menor variación DENTRO de ellos.

Al final todas las unidades pertenecen aun sólo grupo.

Page 4: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSAplicaciones en Biología

En biología se ha usado mucho sobre todo en taxonomía numérica, pero también en ecología en la llamada Escuela de la clasificación de las comunidades (opuesta a la ordenación), también es muy usado en Biogeografía para determinar las relaciones entre ambientes o zonas. En general en todo proceso que requiera agrupación de unidades a las que se le hayan medido varias variables.

Page 5: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSDefinición

No existe una definición clara de lo que es un conglomerado o Cluster. En inglés se refiere a una agrupación (en ocasiones informe) de unidades que sólo se pueden visualizar en 2D o 3D

Un ejemplo típico sería un “Muégano” una bola formada por subunidades adheridas.

Page 6: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSDefinición Cont.

No se imponen restricciones “a priori” ( como lo hace el Análisis Discriminante). Se parte de la base que todas las unidades pueden ser independientes o bien todas las unidades pueden tener algo en común para formar un solo cúmulo.

Page 7: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOS

Page 8: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSProblemas

Por ser tan laxa la definición de un cúmulo existen muchos algoritmos que pretenden resolver e problema sin embargo la mayoría de ellos sólo se aboca a la búsqueda de conglomerado esféricos y es difícil detectar conglomerados no esféricos.

Page 9: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSProblemas

Page 10: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSCriterios

Hay un sin-número de algoritmos la distancia ENTRE-CLUSTER se puede determinar por las distancia entre centroides

Como el objetivo es reducir de n unidades a g grupos donde

n>g

Page 11: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSSimilaridades

El análisis de cúmulos esta ligado a las medidas de similaridad (que tan cerca o lejos se encuentran las unidades en el espacio n-dimensional.

Cuando se trata de medidas métricas (que siguen la distribución normal) se usan las Medidas de distancia. Mientras que si se cuenta con distancias no- paramétricas los llamados tipos de acercamiento son mejores.

Page 12: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSMedidas de distancia

Page 13: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSDistancia Euclidiana Concepto.

Ejemplo de dos dimensiones con p= 2 (similar al teorema de Pitágoras)

Page 14: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSDistancia Euclidiana Concepto.

Ejemplo de tres dimensiones con p= 3

Page 15: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSDistancia de Manhatan .

La distancia de Manhatan o distancia de “cuadras” se maneja como una distancia alternativa en la que la distancia se mide como unidades fijas de distancia. Como lo son las cuadras de una ciudad.

Este es una medida que se encuentra disponible en el NCSS.

Page 16: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSVariables Nominales

En el caso de la variables nominales o dicotómicas se presentan varios índices, llamados generalmente índices de asociación (estos son las bases de medidas de similaridad de Sorensen o Jacard entre otros).

Page 17: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSVariables Nominales

Specie

Page 18: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSCoeficientes mas usados.

Page 19: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSCoeficientes mas usados.

Page 20: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSTécnicas de asociación Jerárquica

Las técnicas jerárquicas desarrollan un fusión sucesiva (o divisiones) de los datos. Una de las principales ventajas es que la asignación de una unidad es irrevocable (una vez que se asocian no tiene otra opción)

Métodos aglomerativos proceden desarrollando una serie de fusiones

Métodos Divisivos parten de un grupo de objetos y lo van dividiendo poco a poco.

Ambos se presentan en forma de un dendrograma (diagrama de árbol)

Page 21: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSMétodos aglomerativos 1

LIGA SIMPLE (Single Linkage) o VECINO MÁS PRÓXIMO:

Este método utiliza la DISTANCIA mínima procede encontrando las dos unidades que poseen la menor distancia. Estas conforman el primer conglomerado (cluster) y trabajan juntos como una sola unidad para los subsiguientes análisis. En el siguiente ciclo dos cosas pueden pasar, que una tercera unidad se una al ciclo o bien que otras dos unidades independientes tengan la menor distancia restante. Este proceso continua hasta que todas las unidades se encuentran en un solo cluster.

Page 22: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSMétodos aglomerativos 1

Page 23: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSTécnicas de asociación Jerárquica 1

Page 24: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSMétodos aglomerativos 2

LIGA COMPLETA (Complete Linkage) o el MÉTODO DEL VECINO MÁS LEJANO:

Este método es exactamente lo opuesto del anterior en el sentido que la distancia buscado es la mayor que exista entre un par de unidades. A pesar de que los dendrogramas son similares las distancias pueden cambiar rápidamente.

Page 25: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSMétodos aglomerativos 2

Page 26: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSMétodos aglomerativos 3

MÉTODO DE LA LIGA PROMEDIO (Average Linkage) Otro método alternativo a los anteriores es el método promedio. Este algoritmo sigue la misma aproximación excepto que la distancia entre los conglomeraos es definida por el promedio de la distancia entre dos conglomerados.

Page 27: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSMétodos aglomerativos 4

Método de Ward o de la Suma de cuadrados del Error:

Este Método (Desarrollado por Ward(1963) se basa en la pérdida de información resultante de la agrupación de individuos en conglomerados en medida como por el total de la suma de cuadrados a partir de las desviaciones de cada observación a la media del conglomerado al que pertenece. La regla de asignación procede por el incremento en la suma de cuadrados del error inducido por la combinación de cada posible par de cluster. Este valor es usada como una función objetiva.

Page 28: ANÁLISIS DE CONGLOMERADOS. Otros nombres son: En Inglés Cluster análisis Análisis de cúmulos Análisis de agrupación.

ANÁLISIS DE CONGLOMERADOSMétodos aglomerativos 4 Cont.

El algoritmo desarrollado por Ward es usado como método jerárquico. El proceso de agrupamiento procede de la siguiente manera,. Empieza por considerar K grupos de sujetos , un sujeto por grupo, el primer grupo es formado por la selección de dos de esos K grupos que, cuando se unen, producen el menor desapareamiento en el valor de la función objetiva. Estos K-1 grupos es reexaminados para determinar los siguientes dos de esos K-1 grupos para unirse mientras minimizan el incremento en la función objetiva. Así se repite el proceso hasta tener un sólo grupo. En cada paso se reevalúa función objetiva. Los cambios en esta función es importante para determinar cual es el número de grupos naturales.