Ejemplo an Lisis de Cluster
-
Upload
genaro-cesar-marileo-m -
Category
Documents
-
view
214 -
download
0
description
Transcript of Ejemplo an Lisis de Cluster
1
Ejercicio Tema 5: Análisis Cluster
Problema y objetivos de investigación
Sobre los datos de un fichero que recoge las notas de 30 alumnos en las asignaturas de Física, Matemáticas,
Francés e Inglés, en una escala de 0 a 100 puntos, se pide la aplicación de un análisis cluster para clasificar
a los estudiantes en grupos con aptitudes similares y que se describa cuáles son las características de esos
grupos.
Selección de las variables
Se considera que las cuatro variables son relevantes al objetivo de medir la aptitud de los estudiantes, por lo
que en principio todas serán incluidas en el mismo.
Revisión preliminar de los Datos
Outliers
EXAMINE
VARIABLES=math phy eng fre
/STATISTICS EXTREME.
Extreme Values
5 100
30 100
1 100
27 100
4 ,a
2 31
19 32
20 35
8 36
9 38
16 100
10 100
13 100
24 100
23 ,a
11 36
6 40
3 40
27 40
9 42
16 100
13 100
3 100
29 100
25 ,a
24 38
11 39
30 40
6 42
5 44
26 100
13 100
17 100
25 100
5 ,a
21 33
18 33
7 41
23 53
29 53
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
Highest
Lowest
Highest
Lowest
Highest
Lowest
Highest
Lowest
nota en matematicas
nota en fisica
nota en ingles
nota en frances
Case
Number Value
Only a partial list of cases with the value 100 are shown in the
table of upper extremes.
a.
No se aprecian valores extremos individuales que pudieran afectar la validez del análisis.
2
Estandarización
Todas las variables están en la misma unidad de medida, por lo que la estandarización no es necesaria
Condiciones de Aplicabilidad
Se asume que la muestra es representativa de la población de estudiantes de la que fue extraída.
CORRELATIONS
/VARIABLES=math phy eng fre
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE .
Correlations
1 ,158 -,036 ,046
, ,406 ,851 ,808
30 30 30 30
,158 1 -,028 ,028
,406 , ,885 ,883
30 30 30 30
-,036 -,028 1 ,129
,851 ,885 , ,497
30 30 30 30
,046 ,028 ,129 1
,808 ,883 ,497 ,
30 30 30 30
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
nota en matemat icas
nota en fisica
nota en ingles
nota en frances
nota en
matematicas
nota en
fisica
nota en
ingles
nota en
frances
Se observa que no existe correlación significativa entre ninguna de las variables, por lo que se descarta la
posibilidad de multicolinealidad.
Análisis - Aplicación del modelo
CLUSTER math phy eng fre
/METHOD WARD
/MEASURE= SEUCLID
/PRINT SCHEDULE CLUSTER(4)
/PLOT DENDROGRAM VICICLE
/SAVE CLUSTER(4) .
3
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Dendrogram using Ward Method
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
20
25
9
14
8
17
6
11
2
28
22
7
21
12
19
1
18
23
26
30
5
24
15
16
10
13
4
27
3
29
Se observa en el Dendograma que una selección de 4 grupos (línea roja) parece ofrecer la mejor solución.
(Opcionalmente una solución de 3 grupos también podría ser factible y debería ser examinada.)
ONEWAY
math phy eng fre BY clu4_1
/STATISTICS DESCRIPTIVES HOMOGENEITY
/MISSING ANALYSIS
/POSTHOC = TUKEY ALPHA(.05).
4
Descriptives
7 90,71 16,600 6,274 75,36 106,07 59 100
7 43,00 9,092 3,436 34,59 51,41 31 55
8 90,00 11,916 4,213 80,04 99,96 71 100
8 46,88 12,369 4,373 36,53 57,22 35 67
30 67,70 26,024 4,751 57,98 77,42 31 100
7 82,14 19,506 7,372 64,10 100,18 56 100
7 82,43 14,718 5,563 68,82 96,04 61 100
8 72,63 28,500 10,076 48,80 96,45 40 100
8 50,63 12,420 4,391 40,24 61,01 36 69
30 71,27 23,098 4,217 62,64 79,89 36 100
7 47,29 8,321 3,145 39,59 54,98 38 63
7 75,29 17,960 6,788 58,68 91,90 46 100
8 96,75 5,825 2,059 91,88 101,62 83 100
8 69,75 23,082 8,161 50,45 89,05 39 100
30 73,00 23,178 4,232 64,35 81,65 38 100
7 75,86 26,605 10,056 51,25 100,46 33 100
7 64,00 22,627 8,552 43,07 84,93 33 99
8 81,38 17,598 6,222 66,66 96,09 53 100
8 93,00 10,596 3,746 84,14 101,86 72 100
30 79,13 21,599 3,943 71,07 87,20 33 100
1
2
3
4
Total
1
2
3
4
Total
1
2
3
4
Total
1
2
3
4
Total
nota en matematicas
nota en fisica
nota en ingles
nota en frances
N Mean
Std.
Deviation Std. Error
Lower
Bound
Upper
Bound
95% Confidence Interval for
Mean
Minimum Maximum
Se toman las medias de cada variable en cada grupo como centroides para la realización de un segundo
análisis no jerárquico (K-Medias).
Nota: Sobre un análisis ANOVA de los 4 clusters resultante del paso anterior se observa que existe
diferencia significativa entre las medias, aunque la variable “nota en física” y “nota en inglés” no son
homoscedásticas.
Aplicación del método No Jerárquico
QUICK CLUSTER
math phy eng fre
/INITIAL=(90,71 82,14 47,29 75,86 43,00 82,43 75,29 64,00 90,00 72,63 96,75 81,38 46,88 50,63
69,75 93,00)
/MISSING=LISTWISE
/CRITERIA= CLUSTER(4) MXITER(10) CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/SAVE CLUSTER
/PRINT ANOVA.
Initial Cluster Centers
90.71 43.00 90.00 46.88
82.14 82.43 72.63 50.63
47.29 75.29 96.75 69.75
75.86 64.00 81.38 93.00
nota en matematicas
nota en fisica
nota en ingles
nota en frances
1 2 3 4
Cluster
Input from INITIAL Subcommand
Final Cluster Centers
91 43 90 47
82 82 73 51
47 75 97 70
76 64 81 93
nota en matematicas
nota en fisica
nota en ingles
nota en frances
1 2 3 4
Cluster
5
No se aprecia diferencia entre las medias iniciales y finales, por lo que ambos métodos arrojan el mismo
resultado. Igual conclusión se obtiene de examinar la clasificación de todos los casos en clusters para cada
método, siendo ambas idénticas.
ONEWAY
math phy eng fre BY qcl_1
/STATISTICS DESCRIPTIVES HOMOGENEITY
/MISSING ANALYSIS
/POSTHOC = TUKEY ALPHA(.05).
ANOVA
15425,996 3 5141,999 31,723 ,000
4214,304 26 162,089
19640,300 29
5123,545 3 1707,848 4,291 ,014
10348,321 26 398,012
15471,867 29
9262,143 3 3087,381 12,706 ,000
6317,857 26 242,995
15580,000 29
3256,735 3 1085,578 2,748 ,063
10272,732 26 395,105
13529,467 29
Between Groups
Within Groups
Total
Between Groups
Within Groups
Total
Between Groups
Within Groups
Total
Between Groups
Within Groups
Total
nota en matematicas
nota en fisica
nota en ingles
nota en frances
Sum of
Squares df Mean Square F Sig.
Test of Homogeneity of Variances
1,164 3 26 ,342
8,406 3 26 ,000
4,360 3 26 ,013
2,733 3 26 ,064
nota en matematicas
nota en fisica
nota en ingles
nota en frances
Levene
Statistic df1 df2 Sig.
Se observa que las medias son significativamente diferentes excepto para la variable “nota en francés”.
6
Multiple Comparisons
Tukey HSD
47,71 * 6,805 ,000 29,05 66,38
,71 6,589 1,000 -17,36 18,79
43,84 * 6,589 ,000 25,76 61,92
-47,71 * 6,805 ,000 -66,38 -29,05
-47,00 * 6,589 ,000 -65,08 -28,92
-3,88 6,589 ,935 -21,95 14,20
-,71 6,589 1,000 -18,79 17,36
47,00 * 6,589 ,000 28,92 65,08
43,13 * 6,366 ,000 25,66 60,59
-43,84 * 6,589 ,000 -61,92 -25,76
3,88 6,589 ,935 -14,20 21,95
-43,13 * 6,366 ,000 -60,59 -25,66
-,29 10,664 1,000 -29,54 28,97
9,52 10,325 ,793 -18,81 37,84
31,52 * 10,325 ,025 3,19 59,84
,29 10,664 1,000 -28,97 29,54
9,80 10,325 ,779 -18,52 38,13
31,80 * 10,325 ,023 3,48 60,13
-9,52 10,325 ,793 -37,84 18,81
-9,80 10,325 ,779 -38,13 18,52
22,00 9,975 ,148 -5,36 49,36
-31,52 * 10,325 ,025 -59,84 -3,19
-31,80 * 10,325 ,023 -60,13 -3,48
-22,00 9,975 ,148 -49,36 5,36
-28,00 * 8,332 ,012 -50,86 -5,14
-49,46 * 8,068 ,000 -71,60 -27,33
-22,46 * 8,068 ,046 -44,60 -,33
28,00 * 8,332 ,012 5,14 50,86
-21,46 8,068 ,060 -43,60 ,67
5,54 8,068 ,901 -16,60 27,67
49,46 * 8,068 ,000 27,33 71,60
21,46 8,068 ,060 -,67 43,60
27,00 * 7,794 ,009 5,62 48,38
22,46 * 8,068 ,046 ,33 44,60
-5,54 8,068 ,901 -27,67 16,60
-27,00 * 7,794 ,009 -48,38 -5,62
11,86 10,625 ,683 -17,29 41,00
-5,52 10,287 ,949 -33,74 22,70
-17,14 10,287 ,361 -45,36 11,08
-11,86 10,625 ,683 -41,00 17,29
-17,38 10,287 ,350 -45,60 10,85
-29,00 * 10,287 ,042 -57,22 -,78
5,52 10,287 ,949 -22,70 33,74
17,38 10,287 ,350 -10,85 45,60
-11,63 9,939 ,651 -38,89 15,64
17,14 10,287 ,361 -11,08 45,36
29,00 * 10,287 ,042 ,78 57,22
11,63 9,939 ,651 -15,64 38,89
(J) Cluster
Number of Case2
3
4
1
3
4
1
2
4
1
2
3
2
3
4
1
3
4
1
2
4
1
2
3
2
3
4
1
3
4
1
2
4
1
2
3
2
3
4
1
3
4
1
2
4
1
2
3
(I) Cluster
Number of Case1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
Dependent Variablenota en matematicas
nota en fisica
nota en ingles
nota en frances
Mean
Difference
(I-J) Std. Error Sig.
Lower
Bound
Upper
Bound
95% Confidence Interval
The mean difference is significant at the .05 level.*.
7
nota en matematicas
Tukey HSDa,b
7 43,00
8 46,88
8 90,00
7 90,71
,935 1,000
Cluster Number
of Case2
4
3
1
Sig.
N 1 2
Subset for alpha = .05
Means for groups in homogeneous subsets are display ed.
Uses Harmonic Mean Samp le Size = 7,467.a.
The group sizes are unequal. The harmonic mean of
the group sizes is used. Type I error levels are not
guaranteed.
b.
nota en fisica
Tukey HSDa,b
8 50,63
8 72,63 72,63
7 82,14
7 82,43
,170 ,779
Cluster Number
of Case4
3
1
2
Sig.
N 1 2
Subset for alpha = .05
Means for groups in homogeneous subsets are display ed.
Uses Harmonic Mean Samp le Size = 7,467.a.
The group sizes are unequal. The harmonic mean of
the group sizes is used. Type I error levels are not
guaranteed.
b.
nota en ingles
Tukey HSDa,b
7 47,29
8 69,75
7 75,29 75,29
8 96,75
1,000 ,901 ,060
Cluster Number
of Case1
4
2
3
Sig.
N 1 2 3
Subset for alpha = .05
Means for groups in homogeneous subsets are displayed.
Uses Harmonic Mean Samp le Size = 7,467.a.
The group sizes are unequal. The harmonic mean of
the group sizes is used. Type I error levels are not
guaranteed.
b.
nota en frances
Tukey HSDa,b
7 64,00
7 75,86 75,86
8 81,38 81,38
8 93,00
,350 ,361
Cluster Number
of Case2
1
3
4
Sig.
N 1 2
Subset for alpha = .05
Means for groups in homogeneous subsets are display ed.
Uses Harmonic Mean Samp le Size = 7,467.a.
The group sizes are unequal. The harmonic mean of
the group sizes is used. Type I error levels are not
guaranteed.
b.
Sobre la solución se 4 clusters obtenida, observando el análisis post-hoc de las medias para cada variable en
cada uno se pueden apreciar las diferencias significativas que los caracterizan. En la siguiente tabla se
indican las medias significativamente diferentes con colores distintos.
Medias (Final Cluster Centers)
Cluster 1 2 3 4
nota en matemáticas 91 43 90 47
nota en física 82 82 73/73 51
nota en inglés 47 75/75 97 70
nota en francés 76/76 64 81/81 93
8
Las medias repetidas (#/#) indican que son estadísticamente similares a dos grupos (subsets en el análisis
post-hoc) y que son compartidas por estos.
Interpretación
Nota: al no saber cuál es la lengua materna de los estudiantes de la muestra, y si esta es común o no entre
todos ellos o entre los que resultan agrupados en los Clusters, la interpretación de las variables “nota en
inglés” y “nota en francés” podría cambiar sustancialmente. Se asume para la interpretación que todos
los estudiantes tienen como lengua nativa el español.
Con respecto a los clusters, la solución de 4 grupos parece ser adecuada y estadísticamente válida. Además
la cantidad de alumnos agrupados en cada uno es muy pareja, con 7 casos en los clusters 1 y 2 y 8 casos en
los clusters 3 y 4., con lo que no se pueden identificar grupos mayoritarios.
Diferencias entre los grupos
El cluster 4 es el que muestra la diferencia más clara sobre el resto, ya que sus medias se decantan
claramente hacia los valores bajos, medios o altos. Su característica distintiva es la mas alta puntuación en
francés y la baja puntuación en matemáticas y física, con un desempeño intermedio en inglés. Se puede
decir que son estudiantes con facilidad para los idiomas, especialmente el francés, y bajo desempeño en
materias relacionadas con el cálculo numérico.
El cluster 3 muestra calificaciones altas en todas las variables, por lo que puede decirse que es el de los
estudiantes mas regulares, además de mejor preparados. Destaca su alta puntuación en inglés, la mayor de
todos los grupos con diferencia.
El cluster 2 es el mas difícil de caracterizar, ya que obtiene notas medias a bajas en general pero no se
decanta ni hacia las materias de extracción matemática ni hacia las de tipo lingüístico.
El cluster 1 destaca por sus altas calificaciones en matemáticas y física y por sus valores medios a bajos en
francés y especialmente inglés. Puede decirse que es el “opuesto” al cluster 4, ya que muestran facilidad
para las materias cuantitativas y alguna dificultar para las lingüísticas.
Observando las variables, el desempeño en matemáticas es claramente la que mejor diferencia los grupos,
aunque solo diferenciando los que tienen un desempeño bueno de uno malo. El desempeño en inglés parece
ser el mas diferente entre los 4 grupos y tanto el desempeño en física como en francés se muestra
homogéneo entre los grupos 1, 2 y 3.
Validación del modelo
QUICK CLUSTER
math phy eng fre
/MISSING=LISTWISE
/CRITERIA= CLUSTER(4) MXITER(10) CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/PRINT INITIAL.
TABLES
/FORMAT BLANK MISSING('.')
/TABLES qcl_1 BY qcl_2 > (STATISTICS)
/STATISTICS
count( ( F5.0 )).
9
Final Cluster Centers
50 44 94 90
56 74 49 94
56 86 88 68
64 89 74 87
nota en matematicas
nota en fisica
nota en ingles
nota en frances
1 2 3 4
Cluster
1 1 5
3 4
4 4
4 4
1
2
3
4
Cluster Number of
Case (Soluci—n)
Count
1
Count
2
Count
3
Count
4
Cluster Number of Case
(Validaci—n Jerarq. Aleat.)
Se realizó un análisis jerárquico para 4 clusters con centroides iniciales aleatorios para validar el modelo.
Se observa que la cantidad de casos agrupados en cada cluster es ligeramente diferente, pero además se
observa que los casos agrupados según la solución propuesta (en filas) no se vuelven a concentrar en un
mismo cluster en la validación aleatoria, excepto quizás el cluster 1 original, que reúne a 5 de sus 7 casos en
el cluster 4 de la validación. Esto hace que los valores de las medias también difieran, por lo que la validez
de la agrupación parece no lo suficientemente válida para poder extraer conclusiones sólidas sobre las
diferencias entre los grupos.