TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente...

46
Facultade de Psicoloxía. Campus Sur, s/n. 15782 Santiago de Compostela www.usc.es/psicom Dr. Jesús Varela Mallou Dr. Antonio Rial Boubeta Dr. Eduardo Picón Prado Análisis Multivariante Santiago de Compostela, 2018 TEMA 6 ANÁLISIS DE CONGLOMERADOS

Transcript of TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente...

Page 1: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

Facultade de Psicoloxía. Campus Sur, s/n. 15782 Santiago de Compostela www.usc.es/psicom

Dr. Jesús Varela Mallou

Dr. Antonio Rial Boubeta

Dr. Eduardo Picón Prado

Análisis Multivariante

Santiago de Compostela, 2018

TEMA 6 ANÁLISIS DE CONGLOMERADOS

Page 2: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

Lecturas obligatorias

Picón, E. Varela, J. y Real, E. (2003):

Clasificación y Segmentación Post Hoc

mediante el Análisis de Conglomerados.

En J.P. Lévy y J. Varela (Dirs.): Análisis

Multivariante para las Ciencias Sociales.

Madrid: Pearson Educación.

2

TEMA 7 - ANÁLISIS DE CONGLOMERADOS INTRODUCCIÓN

Page 3: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

3

Métodos de Dependencia: Se asume que una variable (Y) depende de (es

causada o determinada por) otras variables (X1, X2 etc.)

Ejemplos: Regresión, ANOVA, Análisis Discriminante

Métodos de Independencia: No se asume que ninguna variable sea causada o

determinada por otras. Básicamente tenemos X1, X2 ….Xn (pero no Y)

Ejemplos: Análisis de Conglomerados, Análisis Factorial, etc.

Contextualización

INTRODUCCIÓN

Cuándo se usan métodos de independencia se deja que los datos

hablen por ellos mismos. No hay modelización previa.

TEMA 7 - ANÁLISIS DE CONGLOMERADOS

Page 4: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

Análisis Factorial: Cuando lo que interesa son agrupar variables.

Análisis Clúster: Cuando lo que interesa son agrupar observaciones.

ANÁLISE MULTIVARIANTE

Contextualización

Principio rector: Maximización de la homogeneidad intra grupos (conglomerados,

segmentos) y simultáneamente Maximización de la heterogeneidad inter grupos.

INTRODUCCIÓN TEMA 7 - ANÁLISIS DE CONGLOMERADOS

Page 5: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

X1 X2 X3 X4 Cluster

Obs1

Obs2

Obs3

Obs4

Obs5

Obs6

Obs7

Obs8

Obs9

Obs10

5

3

2

5

.

.

.

.

.

.

2

3

4

3

.

.

.

.

.

.

1

4

3

2

.

.

.

.

.

.

3

2

5

4

.

.

.

.

.

.

1

2

3

1

2

3

3

1

3

2

Cluster 1

Cluster 2

Cluster 3

Resultado final: En el fichero de datos, una nueva variable que asigna

cada observación a un conglomerado específico.

ANÁLISE MULTIVARIANTE

Dos fases fundamentales. 1ª: Obtención de segmentos

INTRODUCCIÓN TEMA 7 - ANÁLISIS DE CONGLOMERADOS

5

Page 6: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

Resultado final: Una tabla de contingencia entre la variable de agrupamiento y una

serie de variables sociodemográficas o de otro tipo (distintas de las utilizadas para

establecer los conglomerados).

Cluster 1 Cluster 2 Cluster 3

Edad

% Mujeres

Tamaño de la familia

Opinión 1

Opinión 2

Opinión 3

32

31

1.4

3.2

2.1

2.2

44

54

2.9

4.0

3.4

3.3

56

46

2.1

2.6

3.2

3.0

“Jóvenes solteros”

“Familia tradicional”

“Maduros felices”

Dos fases fundamentales. 2ª: Perfilado de segmentos

ANÁLISE MULTIVARIANTE INTRODUCCIÓN TEMA 7 - ANÁLISIS DE CONGLOMERADOS

6

Page 7: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

El análisis estadístico necesita:

1. Una MEDIDA para calcular la distancia entre dos sujetos, lo distintos

que son.

2. Un criterio, una regla, un MÉTODO PARA AGRUPARLOS y asignarlos a

cada conglomerado.

¿Cómo se construyen los conglomerados?

ANÁLISE MULTIVARIANTE ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

Page 8: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

Otras distancias disponibles en SPSS: City-Block (usa de distancias absolutas en

vez de la distancia al cuadrado de las coordenadas), Minkowski, Coseno,

Chebychev, Correlación de Pearson.

El tipo de medida seleccionada influye poco en los resultados finales.

*

A

B

X

Y

(x1, y1)

(x2, y2)

y2-y1

x2-x1

*

d = (x2-x1)2 + (y2-y1)

2

ANÁLISE MULTIVARIANTE

¿La medida? Distancia Euclídea (por defecto en SPSS)

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

8

Page 9: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

¿El método de agrupamiento? Hay muchos y muy diferentes

Nombre en SPSS

1

2

3

4

5

6

7

8

9

Vinculación entre-grupos

Vinculación intra-grupos

Vecino más próximo

Vecino más lejano

Agrupación de centroides

Agrupación de medianas

Método de Ward

Conglomerado de K-medias

Análisis Factorial

Jerárquicos Iterativos

Aglomerativos Divisivos

- Umbral secuencial

- Umbral paralelo

- Redes Neuronales - Partición óptima (8)

Métodos sin solapamiento Métodos con solapamiento

- k-centroides con solapamiento

- k-medias con solapamiento

- Análisis de Clases Latentes

- AC Borroso

- Factorial Tipo-Q (9)

Métodos de

vinculación

Métodos de

centroide

Métodos de

varianza

- Centroide (5) - Mediana (6)

- Promedio - Entre grupos (1) - Intra grupos (2) - Ponderado

- Único - Ordinario (3) - Densidad

- Dos fases

- Completo (4)

- Ward (7)

Nota: Los métodos en cursiva están

disponibles en SPSS. Redes Neuronales

requiere de la herramienta de data

mining Clementine.

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

Page 10: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

Principales tipologías de agrupamiento

Vinculación única:

Mínima distancia * *

Vinculación completa:

Máxima distancia * *

Vinculación media

(inter-grupos):

Distancia media *

*

*

*

Método de Ward:

Minimización de la varianza intragrupos

* *

*

* *

¤ *

* *

* ¤

Método de centroide:

Distancia entre centros

* *

*

* *

* * *

* * ¤ ¤

Sin solapamiento Con solapamiento

Jerárquico No jerárquico

1a 1b

1c

1a 1b

1b1 1b2 2

Aglomerativo Divisivo

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

Page 11: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

* A * B

* H

* G

* D

* E

* C

¿CÓMO FUNCIONAN LOS PROCEDIMIENTOS JERÁRQUICOS (AGLOMERATIVOS)?

¿Qué par de elementos se unirán primero?

ANÁLISE MULTIVARIANTE ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

11

Page 12: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

* A * B

* H

* G

* D

* E

* C

ANÁLISE MULTIVARIANTE

Depende de la medida de distancia que utilicemos, pero supongamos

que A-B y D-E. Surgen así dos conglomerados.

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

12

Page 13: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

* A * B

* C

* H

* G

* D

* E

ANÁLISE MULTIVARIANTE

El siguiente punto más próximo a estos dos conglomerados es C. ¿A

dónde será adscrito?

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

13

Page 14: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

* A * B

* C

* H

* G

* D

* E

ANÁLISE MULTIVARIANTE

A dónde se encuentre más próximo (distancia euclídea), pero... EXISTEN

VARIAS POSIBILIDADES (métodos de agrupamiento).

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

14

Page 15: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

7,0 10,5

9,0

8,5

8,5

9,5

12,0

11,0

* A * B

* C

* H

* G

* D

* E

ANÁLISE MULTIVARIANTE

A dónde se encuentre más próximo (distancia euclídea), pero... EXISTEN

VARIAS POSIBILIDADES (métodos de agrupamiento):

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

15

Page 16: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

10,5

9,5

* A * B

* C

* H

* G

* D

* E

ANÁLISE MULTIVARIANTE

VECINO MÁS LEJANO (COMPLETE LINKAGE): Adscribe C al conglomerado

cuya distancia el caso más alejado de ese conglomerado es menor.

d(C;AB)=max(dCA;dCB)

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

16

Page 17: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

7,0

8,5

* A * B

* C

* H

* G

* D

* E

ANÁLISE MULTIVARIANTE

VECINO MÁS PRÓXIMO (SINGLE LINKAGE): Adscribe C al conglomerado

cuyo distancia al caso más cercano de ese conglomerado es menor.

d(C;AB)=min(dCA;dCB)

Inconvenientes: Encadenamiento

Ventajas: Detecta muy bien “outliers”.

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

17

Page 18: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

9,0

8,5

* A * B

* C

* H

* G

* D

* E

ANÁLISE MULTIVARIANTE

MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al

conglomerado cuya promedio de distancias es menor.

• Vinculación Intragrupos • Vinculación intergrupos

• Mediana • Centroide • Ward Tienden a obtener conglomerados de

tamaño similar. Preferibles al resto de jerárquicos, especialmente WARD y VINCULACIÓN INTERGRUPOS.

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

18

Page 19: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al

conglomerado cuya distancia es menor a...

Vinculación INTERgrupos: Media de todas las distancias entre C y cada uno de los elementos del conglomerado.

Vinculación INTRAgrupos: Incluye además las distancias dentro de cada conglomerado, es decir, todas las posibles.

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

Page 20: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al

conglomerado cuya distancia es menor a...

Centroide: Centro de simetría del cluster, calculado como la media de las

distancias de todos sus elementos:

Mediana: Centroides calculados sólo con valores centrales.

Ward: Proporciona la menor suma de cuadrados intragrupos. En vez de utilizar las distancias entre casos utiliza esta medida de variabilidad.

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

20

Page 21: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

Todos estos métodos JERÁRQUICOS...

... como resultado de su proceso

aglomerativo, ofrecen un

DENDROGRAMA, una representación

gráfica en forma de árbol que

muestra:

1. Qué elementos se han ido

uniendo en cada paso.

2. Cómo se organizan los casos.

3. Cuántos conglomerados

podemos distinguir en los datos.

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

21

Page 22: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

Paso 0:

Cada observación

Es considerada

como un

conglomerado

independiente

Medida de Distancia

OBS 1

OBS 2

OBS 3

OBS 4

OBS 5

OBS 6

0,2 0,4 0,6 0,8 1,0

*

*

*

*

*

*

ANÁLISE MULTIVARIANTE

¿CÓMO SE CREA EL DENDROGRAMA?

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

22

Page 23: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

Paso 1:

Se agrupan los dos

casos más próximos

entre sí.

Cluster 1 OBS 1

OBS 2

OBS 3

OBS 4

OBS 5

OBS 6

0,2 0,4 0,6 0,8 1,0

*

*

*

*

*

*

ANÁLISE MULTIVARIANTE ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

23

Page 24: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

Paso 2:

Se agrupan los

siguientes casos con

menores distancias

entre ellos.

Cluster 1

Cluster 2

OBS 1

OBS 2

OBS 3

OBS 4

OBS 5

OBS 6

*

*

*

*

*

*

0,2 0,4 0,6 0,8 1,0

ANÁLISE MULTIVARIANTE ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

24

Page 25: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

Cluster 1

Cluster 2

Paso 3:

El caso 3 se une al

clúster 1

OBS 1

OBS 2

OBS 3

OBS 4

OBS 5

OBS 6

*

*

*

*

*

*

0,2 0,4 0,6 0,8 1,0

ANÁLISE MULTIVARIANTE ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

25

Page 26: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

OBS 1

OBS 2

OBS 3

OBS 4

OBS 5

OBS 6

*

*

*

*

*

*

Cluster 1-2

Paso 4:

Se juntan los dos

clusters 1 y 2,

quedando un sólo

caso desparejado:

un outlier. 0,2 0,4 0,6 0,8 1,0

ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS

26

¿CÓMO ANALIZA?

Page 27: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

Ejemplos de dendrogramas

Un buen resultado:

2 conglomerados

claros

Un mal resultado:

No hay

conglomerados

claros

Un mal resultado:

Tenemos un outlier (caso 1017)

y el dendrograma muestra

encadenamiento

Dendrograma típico al emplear

Vecino Más Próximo

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

27

Page 28: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

Ejemplos de dendrogramas

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

Page 29: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

¿Y QUÉ HAY DE LOS MÉTODOS ITERATIVOS?

No agrupan los datos por similaridad entre ellos No crean un dendrograma.

Son métodos que van ajustando iterativamente los centroides de un número

fijo de conglomerados k a los datos.

• Cada paso de un método jerárquico va agrupando casos similares en un

mismo cluster.

• Cada paso de un método iterativo va recolocando los centroides para que

estén óptimamente posicionados en el centro real del conglomerado.

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

29

Page 30: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

¿CÓMO FUNCIONA K-MEDIAS?

Supongamos que el

número de grupos

k = 3.

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

30

Page 31: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

¿CÓMO FUNCIONA K-MEDIAS?

Iteración 0

Se comienza con una

posición aleatoria de los

centroides.

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

31

Page 32: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

¿CÓMO FUNCIONA K-MEDIAS?

Iteración 1

Se asigna cada caso

al centroide más

próximo.

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

32

Page 33: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

¿CÓMO FUNCIONA K-MEDIAS?

Iteración 2

Se recoloca el centroide

en el centro de los puntos

asignados.

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

33

Page 34: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

¿CÓMO FUNCIONA K-MEDIAS?

Iteración 3

Se continúa iterativamente

hasta que:

1. La distancia entre

centroides es máxima.

2. La distancia caso-

centroide es mínima.

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

34

Page 35: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

¿QUÉ MÉTODO ES PREFERIBLE?

VENTAJAS DE LOS JERÁRQUICOS

- Proporcionan una fotografía de cómo estan organizados los datos El investigador

puede ver cuántos conglomerados “existen” en los datos.

- Pueden calcularse los centros de esos conglomerados: centroides (medias).

- Vecino Más Próximo es especialmente bueno para localizar outliers.

- Ward y Vinculación INTERgrupos son los preferidos de entre los jerárquicos: estudios

de simulación han comprobado que adscriben cada elemento a su conglomerado

verdadero mejor que el resto (especialmente WARD). Tienden a ofrecer

conglomerados similares en tamaño y dispersión de sus elementos, de forma

redondeada.

DESVENTAJAS DE LOS JERÁRQUICOS

- Cualquiera de los métodos jerárquicos por separado funciona peor que k-medias.

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

35

Page 36: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

¿QUÉ MÉTODO ES PREFERIBLE?

VENTAJAS DE LOS ITERATIVOS

- K medias es el método más robusto respecto a presencia de outliers y errores en

las medidas de distancia.

DESVENTAJAS DE LOS ITERATIVOS

- Requiere que el investigador especifique previamente tanto el número de

conglomerados como sus centros iniciales.

¿SOLUCIÓN? Combinar ambos procedimientos, utilizando:

1. Jerárquico para eliminar outliers, determinar el numero de clusters y sus

centros iniciales.

2. K-medias para obtener la solución conglomerativa final.

¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

36

Page 37: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE

Descripción de los segmentos

Obtención de los segmentos

Etapas preliminares

FA

SE

: M

ÉT

OD

OS

J

ER

AR

QU

ICO

S

PLANTEAMIENTO DEL PROBLEMA

VECINO MÁS PRÓXIMO:

DETECCIÓN Y ELIMINACIÓN DE

OUTLIERS

SELECCIÓN DE VARIABLES

WARD: OBTENCIÓN DEL NÚMERO

DE CONGLOMERADOS

VINCULACIÓN INTRAGRUPOS:

ANÁLISIS DE LA ESTABILIDAD

CREACIÓN DEL FICHERO DE MEDIAS

DE CADA CONGLOMERADO

PERFILADO DE LOS CONGLOMERADOS

2ª FASE: MÉTODO K-MEDIAS:

OBTENCIÓN DE LA SOLUCIÓN

CONGLOMERATIVA FINAL

Fases a la hora de ejecutar un Análisis de Conglomerados

37

FASES DEL ANÁLISS TEMA 7 - ANÁLISIS DE CONGLOMERADOS

Page 38: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE 1

ª F

AS

E:

TO

DO

S

JE

RA

RQ

UIC

OS

PLANTEAMIENTO DEL PROBLEMA

VECINO MÁS PRÓXIMO:

DETECCIÓN Y ELIMINACIÓN DE

OUTLIERS

SELECCIÓN DE VARIABLES

WARD: OBTENCIÓN DEL NÚMERO

DE CONGLOMERADOS

VINCULACIÓN INTRAGRUPOS:

ANÁLISIS DE LA ESTABILIDAD

CREACIÓN DEL FICHERO DE MEDIAS

DE CADA CONGLOMERADO

PERFILADO DE LOS

CONGLOMERADOS

2ª FASE: MÉTODO K-MEDIAS:

OBTENCIÓN DE LA SOLUCIÓN

CONGLOMERATIVA FINAL

ETAPAS PRELIMINARES

38

FASES DEL ANÁLISS

CUESTIONES PREVIAS

¿Cuál es el objetivo de mi estudio?

¿Busco explorar datos o confirmar hipótesis?

¿Quiero encontrar segmentos o grupos?

SELECCIÓN DE VARIABLES

Las variables deben ser independientes, no

correlacionadas. Si son ítems de un test

mejor hacer un análisis factorial antes.

Debe tener sentido agruparlas

Rubbish in, rubbish out.

El número de variables a introducir en el

análisis no es importante (Md = 15).

Sí debe mantenerse un número suficiente de

casos por variable, idealmente 2m (m = nº

variables).

Por lo tanto, mejor muestras grandes y

representativas.

TEMA 7 - ANÁLISIS DE CONGLOMERADOS

Page 39: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE 1

ª F

AS

E:

TO

DO

S

JE

RA

RQ

UIC

OS

PLANTEAMIENTO DEL PROBLEMA

VECINO MÁS PRÓXIMO:

DETECCIÓN Y ELIMINACIÓN DE

OUTLIERS

SELECCIÓN DE VARIABLES

WARD: OBTENCIÓN DEL NÚMERO

DE CONGLOMERADOS

VINCULACIÓN INTRAGRUPOS:

ANÁLISIS DE LA ESTABILIDAD

CREACIÓN DEL FICHERO DE MEDIAS

DE CADA CONGLOMERADO

PERFILADO DE LOS

CONGLOMERADOS

2ª FASE: MÉTODO K-MEDIAS:

OBTENCIÓN DE LA SOLUCIÓN

CONGLOMERATIVA FINAL

OBTENCIÓN DE LOS SEGMENTOS

39

FASES DEL ANÁLISS

Posibles outliers. El número indica la posición que ocupan en el fichero. Se ocultan de los análisis y se vuelve a ejecutar este método para

comprobar el efecto sobre el dendrograma.

TEMA 7 - ANÁLISIS DE CONGLOMERADOS

Page 40: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE 1

ª F

AS

E:

TO

DO

S

JE

RA

RQ

UIC

OS

PLANTEAMIENTO DEL PROBLEMA

VECINO MÁS PRÓXIMO:

DETECCIÓN Y ELIMINACIÓN DE

OUTLIERS

SELECCIÓN DE VARIABLES

WARD: OBTENCIÓN DEL NÚMERO

DE CONGLOMERADOS

VINCULACIÓN INTRAGRUPOS:

ANÁLISIS DE LA FIABILIDAD

ACIÓN DEL FICHERO DE MEDIAS

DE CADA CONGLOMERADO

PERFILADO DE LOS

CONGLOMERADOS

2ª FASE: MÉTODO K-MEDIAS:

OBTENCIÓN DE LA SOLUCIÓN

CONGLOMERATIVA FINAL

OBTENCIÓN DE LOS SEGMENTOS

40

FASES DEL ANÁLISS

Para determinar el número de

conglomerados “natural” existen criterios

numéricos y gráficos.

SPSS no ofrece numéricos y de los gráficos

sólo el dendrograma.

El dendrograma nos muestra 3 grupos

claros:

Para validar esta solución, se recomienda utilizar, además, otro procedimiento

TEMA 7 - ANÁLISIS DE CONGLOMERADOS

Page 41: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE 1

ª F

AS

E:

TO

DO

S

JE

RA

RQ

UIC

OS

PLANTEAMIENTO DEL PROBLEMA

VECINO MÁS PRÓXIMO:

DETECCIÓN Y ELIMINACIÓN DE

OUTLIERS

SELECCIÓN DE VARIABLES

WARD: OBTENCIÓN DEL NÚMERO

DE CONGLOMERADOS

VINCULACIÓN INTRAGRUPOS:

ANÁLISIS DE LA ESTABILIDAD

CREACIÓN DEL FICHERO DE MEDIAS

DE CADA CONGLOMERADO

PERFILADO DE LOS

CONGLOMERADOS

2ª FASE: MÉTODO K-MEDIAS:

OBTENCIÓN DE LA SOLUCIÓN

CONGLOMERATIVA FINAL

OBTENCIÓN DE LOS SEGMENTOS

41

FASES DEL ANÁLISS

El análisis del CAMBIO EN EL COEFICIENTE DE CONGLOMERACIÓN

indica que 3 conglomerados es además la opción mejor desde un

punto de vista estadístico.

TEMA 7 - ANÁLISIS DE CONGLOMERADOS

Page 42: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE 1

ª F

AS

E:

TO

DO

S

JE

RA

RQ

UIC

OS

PLANTEAMIENTO DEL PROBLEMA

VECINO MÁS PRÓXIMO:

DETECCIÓN Y ELIMINACIÓN DE

OUTLIERS

SELECCIÓN DE VARIABLES

WARD: OBTENCIÓN DEL NÚMERO

DE CONGLOMERADOS

VINCULACIÓN INTRAGRUPOS:

ANÁLISIS DE LA ESTABILIDAD

CREACIÓN DEL FICHERO DE MEDIAS

DE CADA CONGLOMERADO

PERFILADO DE LOS

CONGLOMERADOS

2ª FASE: MÉTODO K-MEDIAS:

OBTENCIÓN DE LA SOLUCIÓN

CONGLOMERATIVA FINAL

OBTENCIÓN DE LOS SEGMENTOS

42

FASES DEL ANÁLISS

TEMA 7 - ANÁLISIS DE CONGLOMERADOS

Page 43: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE 1

ª F

AS

E:

TO

DO

S

JE

RA

RQ

UIC

OS

PLANTEAMIENTO DEL PROBLEMA

VECINO MÁS PRÓXIMO:

DETECCIÓN Y ELIMINACIÓN DE

OUTLIERS

SELECCIÓN DE VARIABLES

WARD: OBTENCIÓN DEL NÚMERO

DE CONGLOMERADOS

VINCULACIÓN INTRAGRUPOS:

ANÁLISIS DE LA ESTABILIDAD

CREACIÓN DEL FICHERO DE MEDIAS

DE CADA CONGLOMERADO

PERFILADO DE LOS

CONGLOMERADOS

2ª FASE: MÉTODO K-MEDIAS:

OBTENCIÓN DE LA SOLUCIÓN

CONGLOMERATIVA FINAL

OBTENCIÓN DE LOS SEGMENTOS

43

FASES DEL ANÁLISS

PASOS

Se calculan las medias de cada variable para cada uno de los 3 conglomerados.

Se copian los datos en un fichero de datos, nombrando a las variables exactamente igual e incluyendo una variable que se debe llamar

necesariamente cluster_

TEMA 7 - ANÁLISIS DE CONGLOMERADOS

Page 44: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE 1

ª F

AS

E:

TO

DO

S

JE

RA

RQ

UIC

OS

PLANTEAMIENTO DEL PROBLEMA

VECINO MÁS PRÓXIMO:

DETECCIÓN Y ELIMINACIÓN DE

OUTLIERS

SELECCIÓN DE VARIABLES

WARD: OBTENCIÓN DEL NÚMERO

DE CONGLOMERADOS

VINCULACIÓN INTRAGRUPOS:

ANÁLISIS DE LA ESTABILIDAD

CREACIÓN DEL FICHERO DE MEDIAS

DE CADA CONGLOMERADO

PERFILADO DE LOS

CONGLOMERADOS

2ª FASE: MÉTODO K-MEDIAS:

OBTENCIÓN DE LA SOLUCIÓN

CONGLOMERATIVA FINAL

OBTENCIÓN DE LOS SEGMENTOS

44

FASES DEL ANÁLISS

En esta última fase final especificamos:

1. 3 como número de conglomerados.

2. El fichero de medias recién creado como centros iniciales.

La variable que se crea en el archivo de datos tras un k medias se reconoce bien respecto de un método jerárquico.

Importante informar del % de casos reasignados a otro conglomerado.

TEMA 7 - ANÁLISIS DE CONGLOMERADOS

Page 45: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE 1

ª F

AS

E:

TO

DO

S

JE

RA

RQ

UIC

OS

PLANTEAMIENTO DEL PROBLEMA

VECINO MÁS PRÓXIMO:

DETECCIÓN Y ELIMINACIÓN DE

OUTLIERS

SELECCIÓN DE VARIABLES

WARD: OBTENCIÓN DEL NÚMERO

DE CONGLOMERADOS

VINCULACIÓN INTRAGRUPOS:

ANÁLISIS DE LA ESTABILIDAD

CREACIÓN DEL FICHERO DE MEDIAS

DE CADA CONGLOMERADO

PERFILADO DE LOS

CONGLOMERADOS

2ª FASE: MÉTODO K-MEDIAS:

OBTENCIÓN DE LA SOLUCIÓN

CONGLOMERATIVA FINAL

PERFILADO DE LOS SEGMENTOS

45

FASES DEL ANÁLISS

IMPORTANTÍSIMA FASE

Tenemos ya los conglomerados formados…

pero ahora qué hacemos con ellos??

Debemos cruzarlos con otras variables del

cuestionario (no utilizadas para crear los

grupos) con el fin de perfilarlos, saber un

poco más de ellos.

Para ello se utilizan:

- Contrastes F si se cruza la variable de

conglomerados con una variable métrica.

- Contrastes X2 si se cruzan con una variable

categórica.

TEMA 7 - ANÁLISIS DE CONGLOMERADOS

Page 46: TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018-02-05 · Son métodos que van ajustando iterativamente los centroides de un número fijo de conglomerados k a los datos. •Cada paso de

ANÁLISE MULTIVARIANTE 1

ª F

AS

E:

TO

DO

S

JE

RA

RQ

UIC

OS

PLANTEAMIENTO DEL PROBLEMA

VECINO MÁS PRÓXIMO:

DETECCIÓN Y ELIMINACIÓN DE

OUTLIERS

SELECCIÓN DE VARIABLES

WARD: OBTENCIÓN DEL NÚMERO

DE CONGLOMERADOS

VINCULACIÓN INTRAGRUPOS:

ANÁLISIS DE LA ESTABILIDAD

CREACIÓN DEL FICHERO DE MEDIAS

DE CADA CONGLOMERADO

PERFILADO DE LOS

CONGLOMERADOS

2ª FASE: MÉTODO K-MEDIAS:

OBTENCIÓN DE LA SOLUCIÓN

CONGLOMERATIVA FINAL

PERFILADO DE LOS SEGMENTOS

46

FASES DEL ANÁLISS

TEMA 7 - ANÁLISIS DE CONGLOMERADOS