Análisis conglomerados JMP -

Andrea Escortell Miguel Silva Silvia LópezUAB 2013

ANÁLISIS DE CONGLOMERADOS JMP

- SEGMENTACIÓN DE PAÍSES

¿QUÉ ES EL ANÁLISIS CLUSTER Y PARA QUÉ NOS PUEDE SERVIR?

“El análisis de conglomedrados o análisis cluster es una técnica estadística multivariante cuya finalidad es dividir un conjunto de objetos en grupos de forma que los perfiles de los objetos en un mismo grupo sean muy similares entre sí y los de los objetos de clusters diferentes sean distintos. El análisis cluster se utiliza en marketing con diversos propósticos (segmentación del mercado, comprensión del comportamiento del consumidor...”

NIVEL TEÓRICO

CON NUESTRO EJEMPLO

“A través del análisis cluster tratamos de agrupar los países de forma que puda ser interesante para plantear políticas similares entre los países que forman parte de un mismo grupo según las variables asociadas, consiste en este caso en una segmentación de la UE con fines políticos”

¿QUÉ TIPOS DE ANÁLISIS CLUSTERS REALIZAREMOS?

En el presente ejemplo compararemos un primer análisis cluster K-medias y posteriormente realizamos, para contrasta, un análisis

cluster utilizando el algoritmo de agrupación jerárquico (el cual desarrolla una jerarquía de árbol)

1º ANÁLISIS CLUSTER K-MEDIAS

2º ANÁLISIS CLUSTER JERÁRQUICO

0 PRESENTACIÓN DEL CASO

PRESENTACIÓN DEL CASO

Disponemos 7 variables que se muestran en la tabla inferior. La información de estas 8 variables están tomadas de 30 países distintos, 27 de los cuales son de la UE.

Los datos son del año 2010.

Las variables que seleccionamos para el análisis son:

Tasa de suicidios

Macromagnitudes% Gasto público dedicado a educación

MacromagnitudesTasa de paro

Macromagnitudes

Renta per capita

Macromagnitudes

Índice de satisfacciónSociocultural

Tasa de creencia en Dios Sociocultural

Número de ovejas por km2 Aparentemente absurdo

ANÁLISIS CLUSTER K-MEDIAS

Analize > multivariate methods > ClusterApartado options: Kmeans Los clusters de K-medias es una herramienta

diseñada para asignar casos a un número fijo de grupos cuyas características no son conocidas pero están basadas en un conjunto de variables espcíficas.

Es muy útil este tipo de cluster cuando se desea agrupar grandes datos.

Su procedimiento comienza con la construcción de centros iniciales de los clusters mediante la definición de las medias (k) de los grupos. Al haber obtenido los datos iniciales, el algoritmo asigna casos a clusters basado en las distancias de los clusters iniciales y actualiza la localización de los cluster iniciales basados en las medias de los valores en cada uno de ellos.

Este proceso, se hará de forma iterada hasta que los casos en cada cluster tenga similitud al interior de su grupo.

NIVEL TEÓRICOCON NUESTRO EJEMPLO

Seleccionamos las variables las cuales se van a tener en cuenta para la creación de grupos.

En el apartado opciones, marcamos el método K-means y por último en Labels (etiquetas) arrastramos la variable “país” pues serán los países los que queremos que figuren como grupos.

Por defecto, JMP realizará 3 clusters; podemos seleccionar el número de clusters y de hecho, una vez tengamos los resultados de este primer análisis realizaremos lo mismo pero cambiando el valor de 3 por un número superior de clusters, para considerar la diferencia entre la realización de más o menos clusters.

Marcamos la pertaña de “use within-cluster standar deviations”.

>Go

Aparecerá entonces los resultados del algoritmo. En nuestro caso ha realizado 3 clusters (como por defecto se especificaba), en el apartado de “Cluster Means” aparecen las medias de las 8 variables asociados países que componen cada grupo. En el cuadro de “Cluster Standard Deviations” podemos observar las desviaciones estandards entre los casos que componen el cluster. Analizamos a continuación estos dos tipos de información complementándolo con el gráfico “Biplot”.

Para obtener el “Biplot” y tener de esta forma representados los clusters gráficamente: Hot Spot > Biplot

Si pulsamos sobre la opción “save Colors to Table” que aparece debajo del propio gráfico, en nuestra tabla de datos quedarán marcados los países que están englobados en cada cluster mediante la técnica utilizada.

En nuestro caso observamos: El cluster 1: está compuesto por países que de media tienen una tasa de suicidios de 9,5; los países que componen el cluster tienen variabilidad en dicha tasa de 2,9 y en diversas variables el cluster 1 tiene valores muy cercanos al cluster número 3 (de ahí que en el Biplot) queden representados de esa forma.

El mismo análisis descriptivo de los resultados podríamos realizar para los clusters 2 y 3. Lo interesante sería que los clusters presentaran medias entre ellos muy distintas pero que las desviaciones estándares fueran pequeñas, para de esta forma disponer de grupos homogeneos por lo que hace a sus componentes y muy distintos al compararlos con otros clusters.

A continuación, visto que el cluster 1 y 3 tienen aspectos similares. Realizamos el mismo proceso pero indicando k=2.

Forzando la realización de 2 clusters, observamos que mientras las medias son muy dispares entre clusters (por lo que hace referencias a variables como la tasa de suicidios o la renta per cápita de los países que componen el cluster) las variabilidad de los países que componen los grupos ha aumentado. De esta forma, la elección de uno o dos clusters de países a nivel de segmentación para la aplicación de determinadas políticas, depende del grado de importancia de ambos aspectos: la homogeneidad entre los casos y la heterogeneidad entre los grupos, aquello que tenga mayor importancia llevará a concluir un tipo de segmentación de los países u otra.

RESULTADOS Y CONCLUSIONES ANÁLISIS CLUSTERK-MEDIAS

Mediante este primer método, los datos se han agrupado respecto a cercanía de las medias. Ventaja del método: un determinado dato que se asignó a un cluster, puede ser reasignado a un cluster diferente durante la iteración. Desventaja: hemos de especificar un número de clusters por adelantado.

No hay una solución consensuada como válida. A veces se determina arbitráriamente y a veces el propio problema determina la k o número de clusters.

Hemos visto cómo al pasar de 3 clusters a 2, en definitiva el algoritmo ha dado como resultado la “unión” de los clusters con mayor similitud, el cluster 3 en en el primer análisis de conglomerados contenía muy pocas observaciones; con la reducción de clusters, los grupos están compuestos por un número similar de países.

¿QUÉ NÚMERO DE CLUSTERS ESPECIFICAR?

España

Francia

Portugal

Bulgaria

Eslovaquia

Hungría

Lituania

Polonia

Rumanía

Alemania

Irlanda

Países Bajos

Austria

Reino Unido

Chipre

Malta

cluster 1 cluster 2 cluster 3

España

Alemania

Irlanda

Francia

Italia

Países Bajos

Austria

Portugal

Reino Unido

Bulgaria Chipre

Eslovaquia

Hungría

Lituania

Malta

Polonia

Rumanía

cluster A cluster B

ANÁLISIS K=3 ANÁLISIS K=2

ANÁLISIS CLUSTER JERÁRQUICO

Analize > multivariate methods > ClusterApartado options: HierarchicalApartado Method: Ward

CON NUESTRO EJEMPLO

El análisis cluster jerárquico es una herramienta exploratoria diseñada para revelar las agrupaciones naturales dentro de un conjunto de datos. Es el más útil cuando queremos agrupar un número pequeño de objetos.

Este análisis comienza separando cada objeto en un clúster por sí mismo. En cada etapa del análisis, el criterio por el que los objetos son separados se relaja en orden a enlazar los dos conglomerados más similares hasta que todos los objetos sean agrupados en un árbol de clasificación completo.

Además, seleccionamos:

WARDEn el método de mínima varianza de Ward, la distancia entre dos grupos es la suma ANOVA de cuadrados entre los dos grupos añadido a lo largo de todas las variables.

STANDARIZE DATALos datos normalizados primero por la media y la desviación estándar de la columna.

NIVEL TEÓRICO

Con el dendograma podemos analizar lo siguiente:

La observación más distante al resto es la de Italia, ya que es la última (mayor distancia) en incorporarse al cluster final, seguida del Reino Unido.

Por el contrario, las observaciones más cercanas entre sí son Chipre y Malta, que forman el primer grupo (distancia más próxima a 0), y Polonia y Portugal, que forman el segundo.

La secuencia de la agrupación se visualiza fácilmente con la ayuda del dendrograma, que se muestra en el Informe de conglomerados jerárquico.

Un dendrograma es un diagrama de árbol que muestra cada observación, y muestra cada caso en qué cluster está agrupado y cuando se formó.

Se puede arrastrar la pequeña asa en forma de diamante en la parte superior o inferior de la dendrograma para identificar un determinado número de clusteres.

El eje de ordenadas es la distancia que hace de puente para unirse a los grupos en cada paso. A menudo hay una ruptura natural donde la distancia salta de repente. Estos saltos sugieren puntos de corte naturales para determinar el número de conglomerados.

El dendograma nos sirve para para saber la composición de cada clúster en cada paso.

En los comandos que visualizamos desplegando el “Hotspot” encontramos la opción: “Number of clusteres”; en la que podemos pedir el número de clústeres en que queremos que se divida el dendograma,. Si ponemos un 5 vemos que los diamantes se posicionan a la distancia en la que obtenemos los 5 clusteres.

También está la opción “Color clusters” que nos pinta las líneas que corresponden a cada clúster de un color distinto, distinguiendo claramente qué observaciones componen cada cluster.

El gráfico de sedimentación debajo del dendrograma tiene un punto cuando cada grupo se une.

Determinamos 5 clusters y les damos color, viendo así, que los clusters quedan distinguidos por colores.

Como hemos podido ver en la división anterior de 5 clusters, ninguna observación quedaba aislada, por lo que no hay ningún cluster de tamaño 1.

Si seleccionamos la división en 8 clusteres obtenemos las siguientes agrupaciones del dendograma a la derecha, viendo que quedan 3 clusters de tamaño 1.

El número de grupos comienza con 16.

Se puede ver que los dos puntos más cercanos, Chipre (5) y Malta (21), se unen para reducir el número de grupos existentes a 15. Los siguientes dos puntos más cercanos son Polonia(24) y Portugal(25).

El mayor salto se da entre las 2 últimas etapas, indicando una solución de 2 clusters, la siguiente seria en 8 clusters.

Abrimos la tabla Historial de Clustering para ver los resultados que se muestran en la Historia de clústeres.

Cuando hay muchos casos, la tabla puede ser muy larga, pero puede ser más fácil de revisar la columna de distancias para los saltos más grandes que revisar el dendograma.

Una buena solución cluster es aquella que considera un salto repentino (hueco) en el coeficiente de distancia. La solución anterior al salto indica la buena solución.

La solución que obtenemos es insatisfactoria debido a que no hay una clasificación fuerte, por lo que se debe intentar una nueva solución utilizando un método de conglomeración diferente: vecino más lejano o vinculación completa como método de agrupamiento.

En el caso que agrupáramos en el número de clusters que nos sugieren los huecos analizados mediante las distancias en el dendograma y en el histórico obtendríamos posibles soluciones de 2 y 8 clusters formados por los siguientes países:

RESULTADOS Y CONCLUSIONES ANÁLISIS CLUSTERJERÁRQUICO

Andrea Escortell Miguel Silva Silvia LópezUAB 2013

Análisis conglomerados JMP -

Documents

Transcript of Análisis conglomerados JMP -