Ejemplo an Lisis de Cluster

9
1 Ejercicio Tema 5: Análisis Cluster Problema y objetivos de investigación Sobre los datos de un fichero que recoge las notas de 30 alumnos en las asignaturas de Física, Matemáticas, Francés e Inglés, en una escala de 0 a 100 puntos, se pide la aplicación de un análisis cluster para clasificar a los estudiantes en grupos con aptitudes similares y que se describa cuáles son las características de esos grupos. Selección de las variables Se considera que las cuatro variables son relevantes al objetivo de medir la aptitud de los estudiantes, por lo que en principio todas serán incluidas en el mismo. Revisión preliminar de los Datos Outliers EXAMINE VARIABLES=math phy eng fre /STATISTICS EXTREME. Extreme Values 5 100 30 100 1 100 27 100 4 , a 2 31 19 32 20 35 8 36 9 38 16 100 10 100 13 100 24 100 23 , a 11 36 6 40 3 40 27 40 9 42 16 100 13 100 3 100 29 100 25 , a 24 38 11 39 30 40 6 42 5 44 26 100 13 100 17 100 25 100 5 , a 21 33 18 33 7 41 23 53 29 53 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 Highest Lowest Highest Lowest Highest Lowest Highest Lowest nota en matematicas nota en fisica nota en ingles nota en frances Case Number Value Only a partial list of cases with the value 100 are shown in the table of upper extremes. a. No se aprecian valores extremos individuales que pudieran afectar la validez del análisis.

description

Ejemplo an Lisis de Cluster

Transcript of Ejemplo an Lisis de Cluster

Page 1: Ejemplo an Lisis de Cluster

1

Ejercicio Tema 5: Análisis Cluster

Problema y objetivos de investigación

Sobre los datos de un fichero que recoge las notas de 30 alumnos en las asignaturas de Física, Matemáticas,

Francés e Inglés, en una escala de 0 a 100 puntos, se pide la aplicación de un análisis cluster para clasificar

a los estudiantes en grupos con aptitudes similares y que se describa cuáles son las características de esos

grupos.

Selección de las variables

Se considera que las cuatro variables son relevantes al objetivo de medir la aptitud de los estudiantes, por lo

que en principio todas serán incluidas en el mismo.

Revisión preliminar de los Datos

Outliers

EXAMINE

VARIABLES=math phy eng fre

/STATISTICS EXTREME.

Extreme Values

5 100

30 100

1 100

27 100

4 ,a

2 31

19 32

20 35

8 36

9 38

16 100

10 100

13 100

24 100

23 ,a

11 36

6 40

3 40

27 40

9 42

16 100

13 100

3 100

29 100

25 ,a

24 38

11 39

30 40

6 42

5 44

26 100

13 100

17 100

25 100

5 ,a

21 33

18 33

7 41

23 53

29 53

1

2

3

4

5

1

2

3

4

5

1

2

3

4

5

1

2

3

4

5

1

2

3

4

5

1

2

3

4

5

1

2

3

4

5

1

2

3

4

5

Highest

Lowest

Highest

Lowest

Highest

Lowest

Highest

Lowest

nota en matematicas

nota en fisica

nota en ingles

nota en frances

Case

Number Value

Only a partial list of cases with the value 100 are shown in the

table of upper extremes.

a.

No se aprecian valores extremos individuales que pudieran afectar la validez del análisis.

Page 2: Ejemplo an Lisis de Cluster

2

Estandarización

Todas las variables están en la misma unidad de medida, por lo que la estandarización no es necesaria

Condiciones de Aplicabilidad

Se asume que la muestra es representativa de la población de estudiantes de la que fue extraída.

CORRELATIONS

/VARIABLES=math phy eng fre

/PRINT=TWOTAIL NOSIG

/MISSING=PAIRWISE .

Correlations

1 ,158 -,036 ,046

, ,406 ,851 ,808

30 30 30 30

,158 1 -,028 ,028

,406 , ,885 ,883

30 30 30 30

-,036 -,028 1 ,129

,851 ,885 , ,497

30 30 30 30

,046 ,028 ,129 1

,808 ,883 ,497 ,

30 30 30 30

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

nota en matemat icas

nota en fisica

nota en ingles

nota en frances

nota en

matematicas

nota en

fisica

nota en

ingles

nota en

frances

Se observa que no existe correlación significativa entre ninguna de las variables, por lo que se descarta la

posibilidad de multicolinealidad.

Análisis - Aplicación del modelo

CLUSTER math phy eng fre

/METHOD WARD

/MEASURE= SEUCLID

/PRINT SCHEDULE CLUSTER(4)

/PLOT DENDROGRAM VICICLE

/SAVE CLUSTER(4) .

Page 3: Ejemplo an Lisis de Cluster

3

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Ward Method

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

20

25

9

14

8

17

6

11

2

28

22

7

21

12

19

1

18

23

26

30

5

24

15

16

10

13

4

27

3

29

Se observa en el Dendograma que una selección de 4 grupos (línea roja) parece ofrecer la mejor solución.

(Opcionalmente una solución de 3 grupos también podría ser factible y debería ser examinada.)

ONEWAY

math phy eng fre BY clu4_1

/STATISTICS DESCRIPTIVES HOMOGENEITY

/MISSING ANALYSIS

/POSTHOC = TUKEY ALPHA(.05).

Page 4: Ejemplo an Lisis de Cluster

4

Descriptives

7 90,71 16,600 6,274 75,36 106,07 59 100

7 43,00 9,092 3,436 34,59 51,41 31 55

8 90,00 11,916 4,213 80,04 99,96 71 100

8 46,88 12,369 4,373 36,53 57,22 35 67

30 67,70 26,024 4,751 57,98 77,42 31 100

7 82,14 19,506 7,372 64,10 100,18 56 100

7 82,43 14,718 5,563 68,82 96,04 61 100

8 72,63 28,500 10,076 48,80 96,45 40 100

8 50,63 12,420 4,391 40,24 61,01 36 69

30 71,27 23,098 4,217 62,64 79,89 36 100

7 47,29 8,321 3,145 39,59 54,98 38 63

7 75,29 17,960 6,788 58,68 91,90 46 100

8 96,75 5,825 2,059 91,88 101,62 83 100

8 69,75 23,082 8,161 50,45 89,05 39 100

30 73,00 23,178 4,232 64,35 81,65 38 100

7 75,86 26,605 10,056 51,25 100,46 33 100

7 64,00 22,627 8,552 43,07 84,93 33 99

8 81,38 17,598 6,222 66,66 96,09 53 100

8 93,00 10,596 3,746 84,14 101,86 72 100

30 79,13 21,599 3,943 71,07 87,20 33 100

1

2

3

4

Total

1

2

3

4

Total

1

2

3

4

Total

1

2

3

4

Total

nota en matematicas

nota en fisica

nota en ingles

nota en frances

N Mean

Std.

Deviation Std. Error

Lower

Bound

Upper

Bound

95% Confidence Interval for

Mean

Minimum Maximum

Se toman las medias de cada variable en cada grupo como centroides para la realización de un segundo

análisis no jerárquico (K-Medias).

Nota: Sobre un análisis ANOVA de los 4 clusters resultante del paso anterior se observa que existe

diferencia significativa entre las medias, aunque la variable “nota en física” y “nota en inglés” no son

homoscedásticas.

Aplicación del método No Jerárquico

QUICK CLUSTER

math phy eng fre

/INITIAL=(90,71 82,14 47,29 75,86 43,00 82,43 75,29 64,00 90,00 72,63 96,75 81,38 46,88 50,63

69,75 93,00)

/MISSING=LISTWISE

/CRITERIA= CLUSTER(4) MXITER(10) CONVERGE(0)

/METHOD=KMEANS(NOUPDATE)

/SAVE CLUSTER

/PRINT ANOVA.

Initial Cluster Centers

90.71 43.00 90.00 46.88

82.14 82.43 72.63 50.63

47.29 75.29 96.75 69.75

75.86 64.00 81.38 93.00

nota en matematicas

nota en fisica

nota en ingles

nota en frances

1 2 3 4

Cluster

Input from INITIAL Subcommand

Final Cluster Centers

91 43 90 47

82 82 73 51

47 75 97 70

76 64 81 93

nota en matematicas

nota en fisica

nota en ingles

nota en frances

1 2 3 4

Cluster

Page 5: Ejemplo an Lisis de Cluster

5

No se aprecia diferencia entre las medias iniciales y finales, por lo que ambos métodos arrojan el mismo

resultado. Igual conclusión se obtiene de examinar la clasificación de todos los casos en clusters para cada

método, siendo ambas idénticas.

ONEWAY

math phy eng fre BY qcl_1

/STATISTICS DESCRIPTIVES HOMOGENEITY

/MISSING ANALYSIS

/POSTHOC = TUKEY ALPHA(.05).

ANOVA

15425,996 3 5141,999 31,723 ,000

4214,304 26 162,089

19640,300 29

5123,545 3 1707,848 4,291 ,014

10348,321 26 398,012

15471,867 29

9262,143 3 3087,381 12,706 ,000

6317,857 26 242,995

15580,000 29

3256,735 3 1085,578 2,748 ,063

10272,732 26 395,105

13529,467 29

Between Groups

Within Groups

Total

Between Groups

Within Groups

Total

Between Groups

Within Groups

Total

Between Groups

Within Groups

Total

nota en matematicas

nota en fisica

nota en ingles

nota en frances

Sum of

Squares df Mean Square F Sig.

Test of Homogeneity of Variances

1,164 3 26 ,342

8,406 3 26 ,000

4,360 3 26 ,013

2,733 3 26 ,064

nota en matematicas

nota en fisica

nota en ingles

nota en frances

Levene

Statistic df1 df2 Sig.

Se observa que las medias son significativamente diferentes excepto para la variable “nota en francés”.

Page 6: Ejemplo an Lisis de Cluster

6

Multiple Comparisons

Tukey HSD

47,71 * 6,805 ,000 29,05 66,38

,71 6,589 1,000 -17,36 18,79

43,84 * 6,589 ,000 25,76 61,92

-47,71 * 6,805 ,000 -66,38 -29,05

-47,00 * 6,589 ,000 -65,08 -28,92

-3,88 6,589 ,935 -21,95 14,20

-,71 6,589 1,000 -18,79 17,36

47,00 * 6,589 ,000 28,92 65,08

43,13 * 6,366 ,000 25,66 60,59

-43,84 * 6,589 ,000 -61,92 -25,76

3,88 6,589 ,935 -14,20 21,95

-43,13 * 6,366 ,000 -60,59 -25,66

-,29 10,664 1,000 -29,54 28,97

9,52 10,325 ,793 -18,81 37,84

31,52 * 10,325 ,025 3,19 59,84

,29 10,664 1,000 -28,97 29,54

9,80 10,325 ,779 -18,52 38,13

31,80 * 10,325 ,023 3,48 60,13

-9,52 10,325 ,793 -37,84 18,81

-9,80 10,325 ,779 -38,13 18,52

22,00 9,975 ,148 -5,36 49,36

-31,52 * 10,325 ,025 -59,84 -3,19

-31,80 * 10,325 ,023 -60,13 -3,48

-22,00 9,975 ,148 -49,36 5,36

-28,00 * 8,332 ,012 -50,86 -5,14

-49,46 * 8,068 ,000 -71,60 -27,33

-22,46 * 8,068 ,046 -44,60 -,33

28,00 * 8,332 ,012 5,14 50,86

-21,46 8,068 ,060 -43,60 ,67

5,54 8,068 ,901 -16,60 27,67

49,46 * 8,068 ,000 27,33 71,60

21,46 8,068 ,060 -,67 43,60

27,00 * 7,794 ,009 5,62 48,38

22,46 * 8,068 ,046 ,33 44,60

-5,54 8,068 ,901 -27,67 16,60

-27,00 * 7,794 ,009 -48,38 -5,62

11,86 10,625 ,683 -17,29 41,00

-5,52 10,287 ,949 -33,74 22,70

-17,14 10,287 ,361 -45,36 11,08

-11,86 10,625 ,683 -41,00 17,29

-17,38 10,287 ,350 -45,60 10,85

-29,00 * 10,287 ,042 -57,22 -,78

5,52 10,287 ,949 -22,70 33,74

17,38 10,287 ,350 -10,85 45,60

-11,63 9,939 ,651 -38,89 15,64

17,14 10,287 ,361 -11,08 45,36

29,00 * 10,287 ,042 ,78 57,22

11,63 9,939 ,651 -15,64 38,89

(J) Cluster

Number of Case2

3

4

1

3

4

1

2

4

1

2

3

2

3

4

1

3

4

1

2

4

1

2

3

2

3

4

1

3

4

1

2

4

1

2

3

2

3

4

1

3

4

1

2

4

1

2

3

(I) Cluster

Number of Case1

2

3

4

1

2

3

4

1

2

3

4

1

2

3

4

Dependent Variablenota en matematicas

nota en fisica

nota en ingles

nota en frances

Mean

Difference

(I-J) Std. Error Sig.

Lower

Bound

Upper

Bound

95% Confidence Interval

The mean difference is significant at the .05 level.*.

Page 7: Ejemplo an Lisis de Cluster

7

nota en matematicas

Tukey HSDa,b

7 43,00

8 46,88

8 90,00

7 90,71

,935 1,000

Cluster Number

of Case2

4

3

1

Sig.

N 1 2

Subset for alpha = .05

Means for groups in homogeneous subsets are display ed.

Uses Harmonic Mean Samp le Size = 7,467.a.

The group sizes are unequal. The harmonic mean of

the group sizes is used. Type I error levels are not

guaranteed.

b.

nota en fisica

Tukey HSDa,b

8 50,63

8 72,63 72,63

7 82,14

7 82,43

,170 ,779

Cluster Number

of Case4

3

1

2

Sig.

N 1 2

Subset for alpha = .05

Means for groups in homogeneous subsets are display ed.

Uses Harmonic Mean Samp le Size = 7,467.a.

The group sizes are unequal. The harmonic mean of

the group sizes is used. Type I error levels are not

guaranteed.

b.

nota en ingles

Tukey HSDa,b

7 47,29

8 69,75

7 75,29 75,29

8 96,75

1,000 ,901 ,060

Cluster Number

of Case1

4

2

3

Sig.

N 1 2 3

Subset for alpha = .05

Means for groups in homogeneous subsets are displayed.

Uses Harmonic Mean Samp le Size = 7,467.a.

The group sizes are unequal. The harmonic mean of

the group sizes is used. Type I error levels are not

guaranteed.

b.

nota en frances

Tukey HSDa,b

7 64,00

7 75,86 75,86

8 81,38 81,38

8 93,00

,350 ,361

Cluster Number

of Case2

1

3

4

Sig.

N 1 2

Subset for alpha = .05

Means for groups in homogeneous subsets are display ed.

Uses Harmonic Mean Samp le Size = 7,467.a.

The group sizes are unequal. The harmonic mean of

the group sizes is used. Type I error levels are not

guaranteed.

b.

Sobre la solución se 4 clusters obtenida, observando el análisis post-hoc de las medias para cada variable en

cada uno se pueden apreciar las diferencias significativas que los caracterizan. En la siguiente tabla se

indican las medias significativamente diferentes con colores distintos.

Medias (Final Cluster Centers)

Cluster 1 2 3 4

nota en matemáticas 91 43 90 47

nota en física 82 82 73/73 51

nota en inglés 47 75/75 97 70

nota en francés 76/76 64 81/81 93

Page 8: Ejemplo an Lisis de Cluster

8

Las medias repetidas (#/#) indican que son estadísticamente similares a dos grupos (subsets en el análisis

post-hoc) y que son compartidas por estos.

Interpretación

Nota: al no saber cuál es la lengua materna de los estudiantes de la muestra, y si esta es común o no entre

todos ellos o entre los que resultan agrupados en los Clusters, la interpretación de las variables “nota en

inglés” y “nota en francés” podría cambiar sustancialmente. Se asume para la interpretación que todos

los estudiantes tienen como lengua nativa el español.

Con respecto a los clusters, la solución de 4 grupos parece ser adecuada y estadísticamente válida. Además

la cantidad de alumnos agrupados en cada uno es muy pareja, con 7 casos en los clusters 1 y 2 y 8 casos en

los clusters 3 y 4., con lo que no se pueden identificar grupos mayoritarios.

Diferencias entre los grupos

El cluster 4 es el que muestra la diferencia más clara sobre el resto, ya que sus medias se decantan

claramente hacia los valores bajos, medios o altos. Su característica distintiva es la mas alta puntuación en

francés y la baja puntuación en matemáticas y física, con un desempeño intermedio en inglés. Se puede

decir que son estudiantes con facilidad para los idiomas, especialmente el francés, y bajo desempeño en

materias relacionadas con el cálculo numérico.

El cluster 3 muestra calificaciones altas en todas las variables, por lo que puede decirse que es el de los

estudiantes mas regulares, además de mejor preparados. Destaca su alta puntuación en inglés, la mayor de

todos los grupos con diferencia.

El cluster 2 es el mas difícil de caracterizar, ya que obtiene notas medias a bajas en general pero no se

decanta ni hacia las materias de extracción matemática ni hacia las de tipo lingüístico.

El cluster 1 destaca por sus altas calificaciones en matemáticas y física y por sus valores medios a bajos en

francés y especialmente inglés. Puede decirse que es el “opuesto” al cluster 4, ya que muestran facilidad

para las materias cuantitativas y alguna dificultar para las lingüísticas.

Observando las variables, el desempeño en matemáticas es claramente la que mejor diferencia los grupos,

aunque solo diferenciando los que tienen un desempeño bueno de uno malo. El desempeño en inglés parece

ser el mas diferente entre los 4 grupos y tanto el desempeño en física como en francés se muestra

homogéneo entre los grupos 1, 2 y 3.

Validación del modelo

QUICK CLUSTER

math phy eng fre

/MISSING=LISTWISE

/CRITERIA= CLUSTER(4) MXITER(10) CONVERGE(0)

/METHOD=KMEANS(NOUPDATE)

/PRINT INITIAL.

TABLES

/FORMAT BLANK MISSING('.')

/TABLES qcl_1 BY qcl_2 > (STATISTICS)

/STATISTICS

count( ( F5.0 )).

Page 9: Ejemplo an Lisis de Cluster

9

Final Cluster Centers

50 44 94 90

56 74 49 94

56 86 88 68

64 89 74 87

nota en matematicas

nota en fisica

nota en ingles

nota en frances

1 2 3 4

Cluster

1 1 5

3 4

4 4

4 4

1

2

3

4

Cluster Number of

Case (Soluci—n)

Count

1

Count

2

Count

3

Count

4

Cluster Number of Case

(Validaci—n Jerarq. Aleat.)

Se realizó un análisis jerárquico para 4 clusters con centroides iniciales aleatorios para validar el modelo.

Se observa que la cantidad de casos agrupados en cada cluster es ligeramente diferente, pero además se

observa que los casos agrupados según la solución propuesta (en filas) no se vuelven a concentrar en un

mismo cluster en la validación aleatoria, excepto quizás el cluster 1 original, que reúne a 5 de sus 7 casos en

el cluster 4 de la validación. Esto hace que los valores de las medias también difieran, por lo que la validez

de la agrupación parece no lo suficientemente válida para poder extraer conclusiones sólidas sobre las

diferencias entre los grupos.