Tareas de la minería de datos: análisis factorial

54
Tareas de la minería de datos: análisis factorial CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Transcript of Tareas de la minería de datos: análisis factorial

Tareas de la minería de datos: análisis factorial

CI-2352 Intr. a la minería de datosProf. Braulio José Solano Rojas

ECCI, UCR

Tareas de la minería de datos: análisis factorial

● Descubrimiento de factores (análisis factorial)● El análisis factorial es un nombre genérico que se

da a una clase de métodos multivariantes cuyo propósito principal es encontrar la estructura subyacente en una tabla de datos (factores ocultos).

● Generalmente hablando, aborda el problema de cómo analizar la estructura de las interrelaciones (correlaciones) entre un gran número de variables con la definición de una serie de dimensiones subyacentes comunes, conocidas como factores.

2 de 54

Tareas de la minería de datos: análisis factorial

● Descubrimiento de factores (análisis factorial)● Se puede considerar cada factor como una variable

dependiente que es función del conjunto entero de las variables observadas.

● El objetivo central es el resumen y la reducción de datos.

● Métodos● Análisis en componentes principales (ACP).● Análisis factorial de correspondencias simples y

múltiples (AFC).● Análisis canónico (AC).● Análisis discriminante (AD).

3 de 54

Análisis en componentesprincipales (ACP)

● El ACP es el método de minería de datos más utilizado en algunos países, como por ejemplo, Francia.

● Fue propuesto en 1933 por Hostelling.

● La primera implementación computacional se dio en los años 60.

● Fue aplicado para analizar encuestas de opinión pública por Jean Pages.

4 de 54

Análisis en componentes principales● Objetivo: construir un pequeño número de

nuevas variables (componentes) en las cuales se concentre la mayor cantidad posible de información, tal como se muestra en la figura:

5 de 54

ACP: datos de entrada

X=(x11 … x1 j … x1m⋮ ⋱ ⋮ ⋮ ⋮xi 1 … xi j … xi m⋮ ⋮ ⋮ ⋱ ⋮xn1 … xn j … xnm

)6 de 54

● Se parte de una tabla de datos:

Individuo i

Variable j

ACP: ejemplo de datosMatemáticas Ciencias Español Historia Educación

FísicaLucía 7,0 6,5 9,2 8,6 8,0Pedro 7,5 9,4 7,3 7,0 7,0

Inés 7,6 9,2 8,0 8,0 7,5Luis 5,0 6,5 6,5 7,0 9,0

Andrés 6,0 6,0 7,8 8,9 7,3Ana 7,8 9,6 7,7 8,0 6,5

Carlos 6,3 6,4 8,2 9,0 7,2José 7,9 9,7 7,5 8,0 6,0

Sonia 6,0 6,0 6,5 5,5 8,7María 6,8 7,2 8,7 9,0 7,0

7 de 54

ACP: nubes de puntos

Español9,27,38,06,57,87,78,27,56,58,7

Luis 5,0 6,5 6,5 7,0 9,0

● Individuos – filas:

● Variables – columnas:∈ℝ5

∈ℝ10

8 de 54

ACP: nubes de puntos

9 de 54

ACP: nube de puntos

10 de 54

ACP: componentes principales

Matemá-ticas

Ciencias Español Historia Educación Física

Lucía 7,0 6,5 9,2 8,6 8,0

Pedro 7,5 9,4 7,3 7,0 7,0

Inés 7,6 9,2 8,0 8,0 7,5

Luis 5,0 6,5 6,5 7,0 9,0

Andrés 6,0 6,0 7,8 8,9 7,3

Ana 7,8 9,6 7,7 8,0 6,5

Carlos 6,3 6,4 8,2 9,0 7,2

José 7,9 9,7 7,5 8,0 6,0

Sonia 6,0 6,0 6,5 5,5 8,7

María 6,8 7,2 8,7 9,0 7,0

C1 C2 C3 C4 C5

Lucia 0,3231 1,7725 1,1988 -0,055 0,0036

Pedro 0,6654 -1,6387 0,1455 -0,0231 -0,1234

Ines 1,0025 -0,5157 0,6289 0,5164 0,1429

Luis -3,1721 -0,2628 -0,382 0,6778 -0,0625

Andres -0,4889 1,3654 -0,8352 -0,1558 0,1234

Ana 1,7086 -1,0217 -0,1271 0,0668 0,0253

Carlos 0,0676 1,4623 -0,5062 -0,1179 0,0131

Jose 2,0119 -1,2759 -0,5422 -0,1978 0,0174

Sonia -3,042 -1,2549 0,4488 -0,64 0,0379

Maria 0,9239 1,3694 -0,0293 -0,0715 -0,1777

Datos Componentes

11 de 54

ACP: componentes principales

Datos Componentes

12 de 54

C1 C2

Lucia 0,3231 1,7725

Pedro 0,6654 -1,6387

Ines 1,0025 -0,5157

Luis -3,1721 -0,2628

Andres -0,4889 1,3654

Ana 1,7086 -1,0217

Carlos 0,0676 1,4623

Jose 2,0119 -1,2759

Sonia -3,042 -1,2549

Maria 0,9239 1,3694

Matemá-ticas

Ciencias Español Historia Educación Física

Lucía 7,0 6,5 9,2 8,6 8,0

Pedro 7,5 9,4 7,3 7,0 7,0

Inés 7,6 9,2 8,0 8,0 7,5

Luis 5,0 6,5 6,5 7,0 9,0

Andrés 6,0 6,0 7,8 8,9 7,3

Ana 7,8 9,6 7,7 8,0 6,5

Carlos 6,3 6,4 8,2 9,0 7,2

José 7,9 9,7 7,5 8,0 6,0

Sonia 6,0 6,0 6,5 5,5 8,7

María 6,8 7,2 8,7 9,0 7,0

ACP: plano principal

Componentes

C1 C2

Lucia 0,3231 1,7725

Pedro 0,6654 -1,6387

Ines 1,0025 -0,5157

Luis -3,1721 -0,2628

Andres -0,4889 1,3654

Ana 1,7086 -1,0217

Carlos 0,0676 1,4623

Jose 2,0119 -1,2759

Sonia -3,042 -1,2549

Maria 0,9239 1,3694

13 de 54

ACP: círculo de correlaciones

14 de 54

ACP: punto de vista óptimo● Objetivo: encontrar el mejor plano

(subespacio) para ver la nube de puntos.

15 de 5415 de 5415 de 5415 de 54

ACP: punto de vista óptimo

16 de 5416 de 5416 de 5416 de 54

ACP: el problema

17 de 54

Análisis en componentes principales

18 de 54

ACP: cálculo de los factores y de los componentes principales

19 de 54

Análisis en componentes principales

20 de 54

Análisis en componentes principales

21 de 54

Análisis en componentes principales

22 de 54

Análisis en componentes principales

23 de 54

ACP: representación de los individuos

24 de 54

ACP: representación de los individuos

25 de 54

ACP: representación de los individuos

26 de 54

ACP: representación de los individuos

Datos Componentes

27 de 54

Matemá-ticas

Ciencias Español Historia Educación Física

Lucía 7,0 6,5 9,2 8,6 8,0

Pedro 7,5 9,4 7,3 7,0 7,0

Inés 7,6 9,2 8,0 8,0 7,5

Luis 5,0 6,5 6,5 7,0 9,0

Andrés 6,0 6,0 7,8 8,9 7,3

Ana 7,8 9,6 7,7 8,0 6,5

Carlos 6,3 6,4 8,2 9,0 7,2

José 7,9 9,7 7,5 8,0 6,0

Sonia 6,0 6,0 6,5 5,5 8,7

María 6,8 7,2 8,7 9,0 7,0

C1 C2 C3 C4 C5

Lucia 0,3231 1,7725 1,1988 -0,055 0,0036

Pedro 0,6654 -1,6387 0,1455 -0,0231 -0,1234

Ines 1,0025 -0,5157 0,6289 0,5164 0,1429

Luis -3,1721 -0,2628 -0,382 0,6778 -0,0625

Andres -0,4889 1,3654 -0,8352 -0,1558 0,1234

Ana 1,7086 -1,0217 -0,1271 0,0668 0,0253

Carlos 0,0676 1,4623 -0,5062 -0,1179 0,0131

Jose 2,0119 -1,2759 -0,5422 -0,1978 0,0174

Sonia -3,042 -1,2549 0,4488 -0,64 0,0379

Maria 0,9239 1,3694 -0,0293 -0,0715 -0,1777

ACP: representación de los individuos

Matemá-ticas

Ciencias Español Historia Educación Física

Lucía 7,0 6,5 9,2 8,6 8,0

Pedro 7,5 9,4 7,3 7,0 7,0

Inés 7,6 9,2 8,0 8,0 7,5

Luis 5,0 6,5 6,5 7,0 9,0

Andrés 6,0 6,0 7,8 8,9 7,3

Ana 7,8 9,6 7,7 8,0 6,5

Carlos 6,3 6,4 8,2 9,0 7,2

José 7,9 9,7 7,5 8,0 6,0

Sonia 6,0 6,0 6,5 5,5 8,7

María 6,8 7,2 8,7 9,0 7,0

C1 C2 C3 C4 C5

Lucia 0,3231 1,1988

Pedro 0,6654 0,1455

Ines 1,0025 0,6289

Luis -3,1721 -0,382

Andres -0,4889 -0,8352

Ana 1,7086 -0,1271

Carlos 0,0676 -0,5062

Jose 2,0119 -0,5422

Sonia -3,042 0,4488

Maria 0,9239 -0,0293

28 de 54

ACP: representación de los individuos

29 de 54

C1 C2 C3 C4 C5

Lucia 0,3231 1,1988

Pedro 0,6654 0,1455

Ines 1,0025 0,6289

Luis -3,1721 -0,382

Andres -0,4889 -0,8352

Ana 1,7086 -0,1271

Carlos 0,0676 -0,5062

Jose 2,0119 -0,5422

Sonia -3,042 0,4488

Maria 0,9239 -0,0293

ACP: espacio de las variables

30 de 54

ACP: espacio de las variables

31 de 54

ACP: espacio de las variables

32 de 54

ACP: representación de las variables

33 de 54

ACP: representación de las variables

34 de 54

ACP: representación de las variables

C1 C2 C3 C4 C5

Lucia 0,3231 1,7725 1,1988 -0,055 0,0036Pedro 0,6654 -1,6387 0,1455 -0,0231 -0,1234

Ines 1,0025 -0,5157 0,6289 0,5164 0,1429Luis -3,1721 -0,2628 -0,382 0,6778 -0,0625

Andres -0,4889 1,3654 -0,8352 -0,1558 0,1234Ana 1,7086 -1,0217 -0,1271 0,0668 0,0253

Carlos 0,0676 1,4623 -0,5062 -0,1179 0,0131Jose 2,0119 -1,2759 -0,5422 -0,1978 0,0174

Sonia -3,042 -1,2549 0,4488 -0,64 0,0379Maria 0,9239 1,3694 -0,0293 -0,0715 -0,1777

35 de 54

ACP: representación de las variables

C1 C2 C3 C4 C5

Lucia 0,3231 1,7725Pedro 0,6654 -1,6387

Ines 1,0025 -0,5157Luis -3,1721 -0,2628

Andres -0,4889 1,3654Ana 1,7086 -1,0217

Carlos 0,0676 1,4623Jose 2,0119 -1,2759

Sonia -3,042 -1,2549Maria 0,9239 1,3694

36 de 54

ACP: representación de las variables

37 de 54

ACP: calidad de los gráficos

38 de 54

ACP: calidad de los gráficos

39 de 54

Calidad de los gráficos

40 de 54

Inercia Explicada = 90.43%

Inercia Explicada = 64.79%

Inercia explicada por los ejes

autovalor porcentaje de varianza porcentaje de varianza

acumulativaC1 2.893249673 57.8649935 57.86499C2 1.628650425 32.5730085 90.43800C3 0.346596049 6.9319210 97.36992C4 0.122612460 2.4522492 99.82217C5 0.008891393 0.1778279 100.00000

Análisis en componentes principales

44 de 54

Análisis en componentes principales● Relaciones de dualidad:

● Equivalencia de los dos análisis:

45 de 54

Análisis en componentes principales

46 de 54

Análisis en componentes principales

47 de 54

ACP: algoritmo

48 de 54

ACP: algoritmo

ACP: algoritmo

ACP: algoritmo

Individuos suplementarios

Variables suplementarias

¡Gracias por su atención!

¿Preguntas?