TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018. 2. 5. · OBS 6 * * * * Cluster 1-2 Paso 4: Se juntan...

46
Facultade de Psicoloxía. Campus Sur, s/n. 15782 Santiago de Compostela www.usc.es/psicom Dr. Jesús Varela Mallou Dr. Antonio Rial Boubeta Dr. Eduardo Picón Prado Análisis Multivariante Santiago de Compostela, 2018 TEMA 6 ANÁLISIS DE CONGLOMERADOS

Transcript of TEMA 6 ANÁLISIS DE CONGLOMERADOS · 2018. 2. 5. · OBS 6 * * * * Cluster 1-2 Paso 4: Se juntan...

  • Facultade de Psicoloxía. Campus Sur, s/n. 15782 Santiago de Compostela www.usc.es/psicom

    Dr. Jesús Varela Mallou

    Dr. Antonio Rial Boubeta

    Dr. Eduardo Picón Prado

    Análisis Multivariante

    Santiago de Compostela, 2018

    TEMA 6 ANÁLISIS DE CONGLOMERADOS

  • ANÁLISE MULTIVARIANTE

    Lecturas obligatorias

    Picón, E. Varela, J. y Real, E. (2003):

    Clasificación y Segmentación Post Hoc

    mediante el Análisis de Conglomerados.

    En J.P. Lévy y J. Varela (Dirs.): Análisis

    Multivariante para las Ciencias Sociales.

    Madrid: Pearson Educación.

    2

    TEMA 7 - ANÁLISIS DE CONGLOMERADOS INTRODUCCIÓN

  • ANÁLISE MULTIVARIANTE

    3

    Métodos de Dependencia: Se asume que una variable (Y) depende de (es

    causada o determinada por) otras variables (X1, X2 etc.)

    Ejemplos: Regresión, ANOVA, Análisis Discriminante

    Métodos de Independencia: No se asume que ninguna variable sea causada o

    determinada por otras. Básicamente tenemos X1, X2 ….Xn (pero no Y)

    Ejemplos: Análisis de Conglomerados, Análisis Factorial, etc.

    Contextualización

    INTRODUCCIÓN

    Cuándo se usan métodos de independencia se deja que los datos

    hablen por ellos mismos. No hay modelización previa.

    TEMA 7 - ANÁLISIS DE CONGLOMERADOS

  • Análisis Factorial: Cuando lo que interesa son agrupar variables.

    Análisis Clúster: Cuando lo que interesa son agrupar observaciones.

    ANÁLISE MULTIVARIANTE

    Contextualización

    Principio rector: Maximización de la homogeneidad intra grupos (conglomerados,

    segmentos) y simultáneamente Maximización de la heterogeneidad inter grupos.

    INTRODUCCIÓN TEMA 7 - ANÁLISIS DE CONGLOMERADOS

  • X1 X2 X3 X4 Cluster

    Obs1

    Obs2

    Obs3

    Obs4

    Obs5

    Obs6

    Obs7

    Obs8

    Obs9

    Obs10

    5

    3

    2

    5

    .

    .

    .

    .

    .

    .

    2

    3

    4

    3

    .

    .

    .

    .

    .

    .

    1

    4

    3

    2

    .

    .

    .

    .

    .

    .

    3

    2

    5

    4

    .

    .

    .

    .

    .

    .

    1

    2

    3

    1

    2

    3

    3

    1

    3

    2

    Cluster 1

    Cluster 2

    Cluster 3

    Resultado final: En el fichero de datos, una nueva variable que asigna

    cada observación a un conglomerado específico.

    ANÁLISE MULTIVARIANTE

    Dos fases fundamentales. 1ª: Obtención de segmentos

    INTRODUCCIÓN TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    5

  • Resultado final: Una tabla de contingencia entre la variable de agrupamiento y una

    serie de variables sociodemográficas o de otro tipo (distintas de las utilizadas para

    establecer los conglomerados).

    Cluster 1 Cluster 2 Cluster 3

    Edad

    % Mujeres

    Tamaño de la familia

    Opinión 1

    Opinión 2

    Opinión 3

    32

    31

    1.4

    3.2

    2.1

    2.2

    44

    54

    2.9

    4.0

    3.4

    3.3

    56

    46

    2.1

    2.6

    3.2

    3.0

    “Jóvenes solteros”

    “Familia tradicional”

    “Maduros felices”

    Dos fases fundamentales. 2ª: Perfilado de segmentos

    ANÁLISE MULTIVARIANTE INTRODUCCIÓN TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    6

  • El análisis estadístico necesita:

    1. Una MEDIDA para calcular la distancia entre dos sujetos, lo distintos

    que son.

    2. Un criterio, una regla, un MÉTODO PARA AGRUPARLOS y asignarlos a

    cada conglomerado.

    ¿Cómo se construyen los conglomerados?

    ANÁLISE MULTIVARIANTE ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

  • Otras distancias disponibles en SPSS: City-Block (usa de distancias absolutas en

    vez de la distancia al cuadrado de las coordenadas), Minkowski, Coseno,

    Chebychev, Correlación de Pearson.

    El tipo de medida seleccionada influye poco en los resultados finales.

    *

    A

    B

    X

    Y

    (x1, y1)

    (x2, y2)

    y2-y1

    x2-x1

    *

    d = (x2-x1)2 + (y2-y1)

    2

    ANÁLISE MULTIVARIANTE

    ¿La medida? Distancia Euclídea (por defecto en SPSS)

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    8

  • ANÁLISE MULTIVARIANTE

    ¿El método de agrupamiento? Hay muchos y muy diferentes

    Nombre en SPSS

    1

    2

    3

    4

    5

    6

    7

    8

    9

    Vinculación entre-grupos

    Vinculación intra-grupos

    Vecino más próximo

    Vecino más lejano

    Agrupación de centroides

    Agrupación de medianas

    Método de Ward

    Conglomerado de K-medias

    Análisis Factorial

    Jerárquicos Iterativos

    Aglomerativos Divisivos

    - Umbral secuencial

    - Umbral paralelo

    - Redes Neuronales - Partición óptima (8)

    Métodos sin solapamiento Métodos con solapamiento

    - k-centroides con solapamiento

    - k-medias con solapamiento

    - Análisis de Clases Latentes

    - AC Borroso

    - Factorial Tipo-Q (9)

    Métodos de

    vinculación

    Métodos de

    centroide

    Métodos de

    varianza

    - Centroide (5) - Mediana (6)

    - Promedio - Entre grupos (1) - Intra grupos (2) - Ponderado

    - Único - Ordinario (3) - Densidad

    - Dos fases

    - Completo (4)

    - Ward (7)

    Nota: Los métodos en cursiva están disponibles en SPSS. Redes Neuronales

    requiere de la herramienta de data

    mining Clementine.

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

  • ANÁLISE MULTIVARIANTE

    Principales tipologías de agrupamiento

    Vinculación única:

    Mínima distancia * *

    Vinculación completa:

    Máxima distancia * *

    Vinculación media

    (inter-grupos):

    Distancia media *

    *

    *

    *

    Método de Ward:

    Minimización de la varianza intragrupos

    * *

    *

    * *

    ¤ *

    * *

    * ¤

    Método de centroide:

    Distancia entre centros

    * *

    *

    * *

    * * *

    * * ¤ ¤

    Sin solapamiento Con solapamiento

    Jerárquico No jerárquico

    1a 1b

    1c

    1a 1b

    1b1 1b2 2

    Aglomerativo Divisivo

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

  • * A * B

    * H

    * G

    * D

    * E

    * C

    ¿CÓMO FUNCIONAN LOS PROCEDIMIENTOS JERÁRQUICOS (AGLOMERATIVOS)?

    ¿Qué par de elementos se unirán primero?

    ANÁLISE MULTIVARIANTE ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    11

  • * A * B

    * H

    * G

    * D

    * E

    * C

    ANÁLISE MULTIVARIANTE

    Depende de la medida de distancia que utilicemos, pero supongamos

    que A-B y D-E. Surgen así dos conglomerados.

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    12

  • * A * B

    * C

    * H

    * G

    * D

    * E

    ANÁLISE MULTIVARIANTE

    El siguiente punto más próximo a estos dos conglomerados es C. ¿A

    dónde será adscrito?

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    13

  • * A * B

    * C

    * H

    * G

    * D

    * E

    ANÁLISE MULTIVARIANTE

    A dónde se encuentre más próximo (distancia euclídea), pero... EXISTEN

    VARIAS POSIBILIDADES (métodos de agrupamiento).

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    14

  • 7,0 10,5

    9,0

    8,5

    8,5

    9,5

    12,0

    11,0

    * A * B

    * C

    * H

    * G

    * D

    * E

    ANÁLISE MULTIVARIANTE

    A dónde se encuentre más próximo (distancia euclídea), pero... EXISTEN

    VARIAS POSIBILIDADES (métodos de agrupamiento):

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    15

  • 10,5

    9,5

    * A * B

    * C

    * H

    * G

    * D

    * E

    ANÁLISE MULTIVARIANTE

    VECINO MÁS LEJANO (COMPLETE LINKAGE): Adscribe C al conglomerado

    cuya distancia el caso más alejado de ese conglomerado es menor.

    d(C;AB)=max(dCA;dCB)

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    16

  • 7,0

    8,5

    * A * B

    * C

    * H

    * G

    * D

    * E

    ANÁLISE MULTIVARIANTE

    VECINO MÁS PRÓXIMO (SINGLE LINKAGE): Adscribe C al conglomerado

    cuyo distancia al caso más cercano de ese conglomerado es menor.

    d(C;AB)=min(dCA;dCB)

    Inconvenientes: Encadenamiento

    Ventajas: Detecta muy bien “outliers”.

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    17

  • 9,0

    8,5

    * A * B

    * C

    * H

    * G

    * D

    * E

    ANÁLISE MULTIVARIANTE

    MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al

    conglomerado cuya promedio de distancias es menor.

    • Vinculación Intragrupos • Vinculación intergrupos

    • Mediana • Centroide • Ward Tienden a obtener conglomerados de

    tamaño similar. Preferibles al resto de jerárquicos, especialmente WARD y VINCULACIÓN INTERGRUPOS.

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    18

  • ANÁLISE MULTIVARIANTE

    MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al

    conglomerado cuya distancia es menor a...

    Vinculación INTERgrupos: Media de todas las distancias entre C y cada uno de los elementos del conglomerado.

    Vinculación INTRAgrupos: Incluye además las distancias dentro de cada conglomerado, es decir, todas las posibles.

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

  • ANÁLISE MULTIVARIANTE

    MÉTODOS BASADOS EN PUNTUACIONES MEDIAS: Adscribe C al

    conglomerado cuya distancia es menor a...

    Centroide: Centro de simetría del cluster, calculado como la media de las

    distancias de todos sus elementos:

    Mediana: Centroides calculados sólo con valores centrales.

    Ward: Proporciona la menor suma de cuadrados intragrupos. En vez de utilizar las distancias entre casos utiliza esta medida de variabilidad.

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    20

  • ANÁLISE MULTIVARIANTE

    Todos estos métodos JERÁRQUICOS...

    ... como resultado de su proceso

    aglomerativo, ofrecen un

    DENDROGRAMA, una representación

    gráfica en forma de árbol que

    muestra:

    1. Qué elementos se han ido

    uniendo en cada paso.

    2. Cómo se organizan los casos.

    3. Cuántos conglomerados

    podemos distinguir en los datos.

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    21

  • Paso 0:

    Cada observación

    Es considerada

    como un

    conglomerado

    independiente

    Medida de Distancia

    OBS 1

    OBS 2

    OBS 3

    OBS 4

    OBS 5

    OBS 6

    0,2 0,4 0,6 0,8 1,0

    *

    *

    *

    *

    *

    *

    ANÁLISE MULTIVARIANTE

    ¿CÓMO SE CREA EL DENDROGRAMA?

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    22

  • Paso 1:

    Se agrupan los dos

    casos más próximos

    entre sí.

    Cluster 1 OBS 1

    OBS 2

    OBS 3

    OBS 4

    OBS 5

    OBS 6

    0,2 0,4 0,6 0,8 1,0

    *

    *

    *

    *

    *

    *

    ANÁLISE MULTIVARIANTE ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    23

  • Paso 2:

    Se agrupan los

    siguientes casos con

    menores distancias

    entre ellos.

    Cluster 1

    Cluster 2

    OBS 1

    OBS 2

    OBS 3

    OBS 4

    OBS 5

    OBS 6

    *

    *

    *

    *

    *

    *

    0,2 0,4 0,6 0,8 1,0

    ANÁLISE MULTIVARIANTE ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    24

  • Cluster 1

    Cluster 2

    Paso 3:

    El caso 3 se une al

    clúster 1

    OBS 1

    OBS 2

    OBS 3

    OBS 4

    OBS 5

    OBS 6

    *

    *

    *

    *

    *

    *

    0,2 0,4 0,6 0,8 1,0

    ANÁLISE MULTIVARIANTE ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    25

  • OBS 1

    OBS 2

    OBS 3

    OBS 4

    OBS 5

    OBS 6

    *

    *

    *

    *

    *

    *

    Cluster 1-2

    Paso 4:

    Se juntan los dos

    clusters 1 y 2,

    quedando un sólo

    caso desparejado:

    un outlier. 0,2 0,4 0,6 0,8 1,0

    ANÁLISE MULTIVARIANTE TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    26

    ¿CÓMO ANALIZA?

  • ANÁLISE MULTIVARIANTE

    Ejemplos de dendrogramas

    Un buen resultado:

    2 conglomerados

    claros

    Un mal resultado:

    No hay

    conglomerados

    claros

    Un mal resultado:

    Tenemos un outlier (caso 1017)

    y el dendrograma muestra

    encadenamiento

    Dendrograma típico al emplear

    Vecino Más Próximo

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    27

  • ANÁLISE MULTIVARIANTE

    Ejemplos de dendrogramas

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

  • ANÁLISE MULTIVARIANTE

    ¿Y QUÉ HAY DE LOS MÉTODOS ITERATIVOS?

    No agrupan los datos por similaridad entre ellos No crean un dendrograma.

    Son métodos que van ajustando iterativamente los centroides de un número

    fijo de conglomerados k a los datos.

    • Cada paso de un método jerárquico va agrupando casos similares en un

    mismo cluster.

    • Cada paso de un método iterativo va recolocando los centroides para que

    estén óptimamente posicionados en el centro real del conglomerado.

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    29

  • ANÁLISE MULTIVARIANTE

    ¿CÓMO FUNCIONA K-MEDIAS?

    Supongamos que el

    número de grupos

    k = 3.

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    30

  • ANÁLISE MULTIVARIANTE

    ¿CÓMO FUNCIONA K-MEDIAS?

    Iteración 0

    Se comienza con una

    posición aleatoria de los

    centroides.

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    31

  • ANÁLISE MULTIVARIANTE

    ¿CÓMO FUNCIONA K-MEDIAS?

    Iteración 1

    Se asigna cada caso

    al centroide más

    próximo.

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    32

  • ANÁLISE MULTIVARIANTE

    ¿CÓMO FUNCIONA K-MEDIAS?

    Iteración 2

    Se recoloca el centroide

    en el centro de los puntos

    asignados.

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    33

  • ANÁLISE MULTIVARIANTE

    ¿CÓMO FUNCIONA K-MEDIAS?

    Iteración 3

    Se continúa iterativamente

    hasta que:

    1. La distancia entre

    centroides es máxima.

    2. La distancia caso-

    centroide es mínima.

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    34

  • ANÁLISE MULTIVARIANTE

    ¿QUÉ MÉTODO ES PREFERIBLE?

    VENTAJAS DE LOS JERÁRQUICOS

    - Proporcionan una fotografía de cómo estan organizados los datos El investigador

    puede ver cuántos conglomerados “existen” en los datos.

    - Pueden calcularse los centros de esos conglomerados: centroides (medias).

    - Vecino Más Próximo es especialmente bueno para localizar outliers.

    - Ward y Vinculación INTERgrupos son los preferidos de entre los jerárquicos: estudios

    de simulación han comprobado que adscriben cada elemento a su conglomerado

    verdadero mejor que el resto (especialmente WARD). Tienden a ofrecer

    conglomerados similares en tamaño y dispersión de sus elementos, de forma

    redondeada.

    DESVENTAJAS DE LOS JERÁRQUICOS

    - Cualquiera de los métodos jerárquicos por separado funciona peor que k-medias.

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    35

  • ANÁLISE MULTIVARIANTE

    ¿QUÉ MÉTODO ES PREFERIBLE?

    VENTAJAS DE LOS ITERATIVOS

    - K medias es el método más robusto respecto a presencia de outliers y errores en

    las medidas de distancia.

    DESVENTAJAS DE LOS ITERATIVOS

    - Requiere que el investigador especifique previamente tanto el número de

    conglomerados como sus centros iniciales.

    ¿SOLUCIÓN? Combinar ambos procedimientos, utilizando:

    1. Jerárquico para eliminar outliers, determinar el numero de clusters y sus

    centros iniciales.

    2. K-medias para obtener la solución conglomerativa final.

    ¿CÓMO ANALIZA? TEMA 7 - ANÁLISIS DE CONGLOMERADOS

    36

  • ANÁLISE MULTIVARIANTE

    Descripción de los segmentos

    Obtención de los segmentos

    Etapas preliminares

    FA

    SE

    : M

    ÉT

    OD

    OS

    J

    ER

    AR

    QU

    ICO

    S

    PLANTEAMIENTO DEL PROBLEMA

    VECINO MÁS PRÓXIMO:

    DETECCIÓN Y ELIMINACIÓN DE

    OUTLIERS

    SELECCIÓN DE VARIABLES

    WARD: OBTENCIÓN DEL NÚMERO

    DE CONGLOMERADOS

    VINCULACIÓN INTRAGRUPOS:

    ANÁLISIS DE LA ESTABILIDAD

    CREACIÓN DEL FICHERO DE MEDIAS

    DE CADA CONGLOMERADO

    PERFILADO DE LOS CONGLOMERADOS

    2ª FASE: MÉTODO K-MEDIAS:

    OBTENCIÓN DE LA SOLUCIÓN

    CONGLOMERATIVA FINAL

    Fases a la hora de ejecutar un Análisis de Conglomerados

    37

    FASES DEL ANÁLISS TEMA 7 - ANÁLISIS DE CONGLOMERADOS

  • ANÁLISE MULTIVARIANTE 1

    ª F

    AS

    E:

    TO

    DO

    S

    JE

    RA

    RQ

    UIC

    OS

    PLANTEAMIENTO DEL PROBLEMA

    VECINO MÁS PRÓXIMO:

    DETECCIÓN Y ELIMINACIÓN DE

    OUTLIERS

    SELECCIÓN DE VARIABLES

    WARD: OBTENCIÓN DEL NÚMERO

    DE CONGLOMERADOS

    VINCULACIÓN INTRAGRUPOS:

    ANÁLISIS DE LA ESTABILIDAD

    CREACIÓN DEL FICHERO DE MEDIAS

    DE CADA CONGLOMERADO

    PERFILADO DE LOS

    CONGLOMERADOS

    2ª FASE: MÉTODO K-MEDIAS:

    OBTENCIÓN DE LA SOLUCIÓN

    CONGLOMERATIVA FINAL

    ETAPAS PRELIMINARES

    38

    FASES DEL ANÁLISS

    CUESTIONES PREVIAS

    ¿Cuál es el objetivo de mi estudio?

    ¿Busco explorar datos o confirmar hipótesis?

    ¿Quiero encontrar segmentos o grupos?

    SELECCIÓN DE VARIABLES

    Las variables deben ser independientes, no

    correlacionadas. Si son ítems de un test

    mejor hacer un análisis factorial antes.

    Debe tener sentido agruparlas

    Rubbish in, rubbish out.

    El número de variables a introducir en el

    análisis no es importante (Md = 15).

    Sí debe mantenerse un número suficiente de

    casos por variable, idealmente 2m (m = nº

    variables).

    Por lo tanto, mejor muestras grandes y

    representativas.

    TEMA 7 - ANÁLISIS DE CONGLOMERADOS

  • ANÁLISE MULTIVARIANTE 1

    ª F

    AS

    E:

    TO

    DO

    S

    JE

    RA

    RQ

    UIC

    OS

    PLANTEAMIENTO DEL PROBLEMA

    VECINO MÁS PRÓXIMO:

    DETECCIÓN Y ELIMINACIÓN DE

    OUTLIERS

    SELECCIÓN DE VARIABLES

    WARD: OBTENCIÓN DEL NÚMERO

    DE CONGLOMERADOS

    VINCULACIÓN INTRAGRUPOS:

    ANÁLISIS DE LA ESTABILIDAD

    CREACIÓN DEL FICHERO DE MEDIAS

    DE CADA CONGLOMERADO

    PERFILADO DE LOS

    CONGLOMERADOS

    2ª FASE: MÉTODO K-MEDIAS:

    OBTENCIÓN DE LA SOLUCIÓN

    CONGLOMERATIVA FINAL

    OBTENCIÓN DE LOS SEGMENTOS

    39

    FASES DEL ANÁLISS

    Posibles outliers. El número indica la posición que ocupan en el fichero. Se ocultan de los análisis y se vuelve a ejecutar este método para

    comprobar el efecto sobre el dendrograma.

    TEMA 7 - ANÁLISIS DE CONGLOMERADOS

  • ANÁLISE MULTIVARIANTE 1

    ª F

    AS

    E:

    TO

    DO

    S

    JE

    RA

    RQ

    UIC

    OS

    PLANTEAMIENTO DEL PROBLEMA

    VECINO MÁS PRÓXIMO:

    DETECCIÓN Y ELIMINACIÓN DE

    OUTLIERS

    SELECCIÓN DE VARIABLES

    WARD: OBTENCIÓN DEL NÚMERO

    DE CONGLOMERADOS

    VINCULACIÓN INTRAGRUPOS:

    ANÁLISIS DE LA FIABILIDAD

    ACIÓN DEL FICHERO DE MEDIAS

    DE CADA CONGLOMERADO

    PERFILADO DE LOS

    CONGLOMERADOS

    2ª FASE: MÉTODO K-MEDIAS:

    OBTENCIÓN DE LA SOLUCIÓN

    CONGLOMERATIVA FINAL

    OBTENCIÓN DE LOS SEGMENTOS

    40

    FASES DEL ANÁLISS

    Para determinar el número de

    conglomerados “natural” existen criterios

    numéricos y gráficos.

    SPSS no ofrece numéricos y de los gráficos

    sólo el dendrograma.

    El dendrograma nos muestra 3 grupos

    claros:

    Para validar esta solución, se recomienda utilizar, además, otro procedimiento

    TEMA 7 - ANÁLISIS DE CONGLOMERADOS

  • ANÁLISE MULTIVARIANTE 1

    ª F

    AS

    E:

    TO

    DO

    S

    JE

    RA

    RQ

    UIC

    OS

    PLANTEAMIENTO DEL PROBLEMA

    VECINO MÁS PRÓXIMO:

    DETECCIÓN Y ELIMINACIÓN DE

    OUTLIERS

    SELECCIÓN DE VARIABLES

    WARD: OBTENCIÓN DEL NÚMERO

    DE CONGLOMERADOS

    VINCULACIÓN INTRAGRUPOS:

    ANÁLISIS DE LA ESTABILIDAD

    CREACIÓN DEL FICHERO DE MEDIAS

    DE CADA CONGLOMERADO

    PERFILADO DE LOS

    CONGLOMERADOS

    2ª FASE: MÉTODO K-MEDIAS:

    OBTENCIÓN DE LA SOLUCIÓN

    CONGLOMERATIVA FINAL

    OBTENCIÓN DE LOS SEGMENTOS

    41

    FASES DEL ANÁLISS

    El análisis del CAMBIO EN EL COEFICIENTE DE CONGLOMERACIÓN

    indica que 3 conglomerados es además la opción mejor desde un

    punto de vista estadístico.

    TEMA 7 - ANÁLISIS DE CONGLOMERADOS

  • ANÁLISE MULTIVARIANTE 1

    ª F

    AS

    E:

    TO

    DO

    S

    JE

    RA

    RQ

    UIC

    OS

    PLANTEAMIENTO DEL PROBLEMA

    VECINO MÁS PRÓXIMO:

    DETECCIÓN Y ELIMINACIÓN DE

    OUTLIERS

    SELECCIÓN DE VARIABLES

    WARD: OBTENCIÓN DEL NÚMERO

    DE CONGLOMERADOS

    VINCULACIÓN INTRAGRUPOS:

    ANÁLISIS DE LA ESTABILIDAD

    CREACIÓN DEL FICHERO DE MEDIAS

    DE CADA CONGLOMERADO

    PERFILADO DE LOS

    CONGLOMERADOS

    2ª FASE: MÉTODO K-MEDIAS:

    OBTENCIÓN DE LA SOLUCIÓN

    CONGLOMERATIVA FINAL

    OBTENCIÓN DE LOS SEGMENTOS

    42

    FASES DEL ANÁLISS

    TEMA 7 - ANÁLISIS DE CONGLOMERADOS

  • ANÁLISE MULTIVARIANTE 1

    ª F

    AS

    E:

    TO

    DO

    S

    JE

    RA

    RQ

    UIC

    OS

    PLANTEAMIENTO DEL PROBLEMA

    VECINO MÁS PRÓXIMO:

    DETECCIÓN Y ELIMINACIÓN DE

    OUTLIERS

    SELECCIÓN DE VARIABLES

    WARD: OBTENCIÓN DEL NÚMERO

    DE CONGLOMERADOS

    VINCULACIÓN INTRAGRUPOS:

    ANÁLISIS DE LA ESTABILIDAD

    CREACIÓN DEL FICHERO DE MEDIAS

    DE CADA CONGLOMERADO

    PERFILADO DE LOS

    CONGLOMERADOS

    2ª FASE: MÉTODO K-MEDIAS:

    OBTENCIÓN DE LA SOLUCIÓN

    CONGLOMERATIVA FINAL

    OBTENCIÓN DE LOS SEGMENTOS

    43

    FASES DEL ANÁLISS

    PASOS

    Se calculan las medias de cada variable para cada uno de los 3 conglomerados.

    Se copian los datos en un fichero de datos, nombrando a las variables exactamente igual e incluyendo una variable que se debe llamar

    necesariamente cluster_

    TEMA 7 - ANÁLISIS DE CONGLOMERADOS

  • ANÁLISE MULTIVARIANTE 1

    ª F

    AS

    E:

    TO

    DO

    S

    JE

    RA

    RQ

    UIC

    OS

    PLANTEAMIENTO DEL PROBLEMA

    VECINO MÁS PRÓXIMO:

    DETECCIÓN Y ELIMINACIÓN DE

    OUTLIERS

    SELECCIÓN DE VARIABLES

    WARD: OBTENCIÓN DEL NÚMERO

    DE CONGLOMERADOS

    VINCULACIÓN INTRAGRUPOS:

    ANÁLISIS DE LA ESTABILIDAD

    CREACIÓN DEL FICHERO DE MEDIAS

    DE CADA CONGLOMERADO

    PERFILADO DE LOS

    CONGLOMERADOS

    2ª FASE: MÉTODO K-MEDIAS:

    OBTENCIÓN DE LA SOLUCIÓN

    CONGLOMERATIVA FINAL

    OBTENCIÓN DE LOS SEGMENTOS

    44

    FASES DEL ANÁLISS

    En esta última fase final especificamos:

    1. 3 como número de conglomerados.

    2. El fichero de medias recién creado como centros iniciales.

    La variable que se crea en el archivo de datos tras un k medias se reconoce bien respecto de un método jerárquico.

    Importante informar del % de casos reasignados a otro conglomerado.

    TEMA 7 - ANÁLISIS DE CONGLOMERADOS

  • ANÁLISE MULTIVARIANTE 1

    ª F

    AS

    E:

    TO

    DO

    S

    JE

    RA

    RQ

    UIC

    OS

    PLANTEAMIENTO DEL PROBLEMA

    VECINO MÁS PRÓXIMO:

    DETECCIÓN Y ELIMINACIÓN DE

    OUTLIERS

    SELECCIÓN DE VARIABLES

    WARD: OBTENCIÓN DEL NÚMERO

    DE CONGLOMERADOS

    VINCULACIÓN INTRAGRUPOS:

    ANÁLISIS DE LA ESTABILIDAD

    CREACIÓN DEL FICHERO DE MEDIAS

    DE CADA CONGLOMERADO

    PERFILADO DE LOS

    CONGLOMERADOS

    2ª FASE: MÉTODO K-MEDIAS:

    OBTENCIÓN DE LA SOLUCIÓN

    CONGLOMERATIVA FINAL

    PERFILADO DE LOS SEGMENTOS

    45

    FASES DEL ANÁLISS

    IMPORTANTÍSIMA FASE

    Tenemos ya los conglomerados formados…

    pero ahora qué hacemos con ellos??

    Debemos cruzarlos con otras variables del

    cuestionario (no utilizadas para crear los

    grupos) con el fin de perfilarlos, saber un

    poco más de ellos.

    Para ello se utilizan:

    - Contrastes F si se cruza la variable de

    conglomerados con una variable métrica.

    - Contrastes X2 si se cruzan con una variable

    categórica.

    TEMA 7 - ANÁLISIS DE CONGLOMERADOS

  • ANÁLISE MULTIVARIANTE 1

    ª F

    AS

    E:

    TO

    DO

    S

    JE

    RA

    RQ

    UIC

    OS

    PLANTEAMIENTO DEL PROBLEMA

    VECINO MÁS PRÓXIMO:

    DETECCIÓN Y ELIMINACIÓN DE

    OUTLIERS

    SELECCIÓN DE VARIABLES

    WARD: OBTENCIÓN DEL NÚMERO

    DE CONGLOMERADOS

    VINCULACIÓN INTRAGRUPOS:

    ANÁLISIS DE LA ESTABILIDAD

    CREACIÓN DEL FICHERO DE MEDIAS

    DE CADA CONGLOMERADO

    PERFILADO DE LOS

    CONGLOMERADOS

    2ª FASE: MÉTODO K-MEDIAS:

    OBTENCIÓN DE LA SOLUCIÓN

    CONGLOMERATIVA FINAL

    PERFILADO DE LOS SEGMENTOS

    46

    FASES DEL ANÁLISS

    TEMA 7 - ANÁLISIS DE CONGLOMERADOS