comunalidade

11
1 Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. [email protected]; [email protected]; http://www.pucrs.br/famat/viali; http://www.mat.ufrgs.br/~viali/ Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Factor Analysis (FACAN) Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Abrir o arquivo ven_car.sav Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Utilizar as 10 variáveis a partir de “Vehicle Type”. Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Clique “Extraction

description

documento de estatistica multivariada

Transcript of comunalidade

1

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Prof. Lorí Viali, Dr.

[email protected];

[email protected];

http://www.pucrs.br/famat/viali;

http://www.mat.ufrgs.br/~viali/

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Factor Analysis (FACAN)

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Abrir o arquivo ven_car.sav

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Utilizar as 10 variáveis a partir de “Vehicle Type”.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Clique “Extraction”

2

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Clique “Rotation”

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Clique “Scores”

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Esta seleção produz uma solução que utiliza

a extração através de “componentes principais”

que são então girados para facilitar a

interpretação. Componentes com “autovalores”

acima de “um” são salvos em um arquivo de

trabalho.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Comunalidade representa a proporção da variância de uma variável que é compartilhada com os fatores comuns na análise de fatores.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Comunalidades iniciais são estimativas da

variância que cada variável apresenta em comum

com cada fator. Para a extração por

“componentes principais” elas são sempre

inicialmente iguais a um.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

3

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Comunalidades de extração são estimativas da variância em cada variável compartilha com os fatores. As comunalidades na tabela são todas altas indicando que os componentes extraídos representam bem as variáveis. Se qualquer comunalidade for baixa, neste método, será preciso extrair outro componente.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A tabela mostra autovalores iniciais, o percentual da variância que cada componente explica e percentual da variância acumulada.

∑=10

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Na solução inicial existem tantas componentes quanto variáveis. Na análise de correlação a soma dos autovetores é igual ao número de componentes. Foi solicitado que o número que autovalores maiores do que um fossem extraídos, assim os três primeiros componentes formam a solução.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A segunda coluna da tabela mostra os componentes extraídos. Eles explicam aproximadamente 88% da variabilidade das dez variáveis originais. Assim a complexidade dos dados pode ser bastante reduzida pela utilização destes componentes com perda de apenas 12 da informação.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A rotação mantém o % acumulado da variação

explicada pelos componentes extraídos, mas esta

variação está agora distribuída de maneira mais

uniforme. As grandes mudanças nos totais individuais

sugerem que a matriz dos componentes rotacionados

será mais simples de interpretar do que a matriz

original.

4

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O gráfico da declividade (scree plot) ajuda na determinação do número ótimo de componentes, plotando os autovalores de cada componente da solução inicial.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Os componentes da parte mais plana do gráfico contribuem com muito pouco na solução.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A última grande queda (declive) ocorre entre o terceiro e o quarto componentes. Assim a escolha de três componentes é a mais natural.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A matriz dos componentes rotacionados ajuda na interpretação do que os componentes significam.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Assim o primeiro componente apresenta correlações mais altas com o “Preço” (Price in thousands) e “Potência” (Horsepower). O preço é um representante melhor, pois está menos correlacionado com os demais componentes.

5

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O segundo componente está correlacionado de forma mais alta com o “Comprimento” (Lenght).

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O terceiro componente está mais altamente correlacionado com o “Tipo de veículo” (Vehicle type).

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A últimas três variáveis (curb weight, fuel

capacity e fuel efficiency) não estão separando

muito bem, pois apesar de apresentam correlações

mais altas com o terceiro componente também

apresentam correlações elevadas com os outros dois

componentes.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A sugestão é, então, que as dez variáveis sejam representadas pelas seguintes três fatores: preço, comprimento e tipo.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

6

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A análise hierárquica de aglomerados (HCA -Hierarchical Cluster Analysis) é uma ferramenta exploratória que objetiva revelar agrupamentos naturais (clusters) dentro de conjuntos que aparentemente não apresenta grupos. Ela é mais útil quando se quer agrupar um pequeno número (algumas centenas) de casos. Os objetos podem ser casos ou variáveis.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O critério básico para qualquer agrupamento é

a distância. Os objetos que estão próximos um do

outro pertencem ao mesmo grupo e se estão

distantes pertencem a grupos diferentes. Para um

dado conjunto de dados os agrupamentos são

construídos dependendo da especificação dos

seguintes parâmetros:

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Método. Define as regras para a formação dos

grupos. Por exemplo, quando se calcula a distância

entre dois grupos, pode-se utilizar o par de objetos

mais próximos ou o par de objetos mais distantes

ou alguma combinação dos dois.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Medidas. Define a fórmula para o cálculo das

distâncias. Por exemplo, a distância Euclidiana que

mede a distância em linha reta entre os dois grupos.

Medidas Intervalares assumem que as variáveis

são ordinais.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Medidas de contagem assumem que elas são

numéricas discretas. Medidas binárias assumem que

eles assumem apenas dois valores.

Padronização. Permite que sejam equalizados os

efeitos das variáveis medidas em escalas diferentes.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O arquivo ven_car.sav apresenta

informações sobre vários modelos de veículos.

Utilize a Análise Hierárquica de Aglomerados

para agrupar os carros de valores de vendas mais

altos de acordo com suas propriedades físicas.

7

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Abrir o arquivo ven_car.sav. Selecionar os carros com vendas acima de 100 milunidades.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Para isto utilize o condicional “If”

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Qualquer análise agora, será executada apenas sobre os carros com vendas maiores que 100 mil unidades.

Digite as duas condições: tipo = carro (type = 0) e vendas > 100 (sales > 100) , na janela que se abrir.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Observe que os carros que apresentam vendas “sales”abaixo de 100 estão eliminados (marcados) na planilha.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Rodar o análise através

do procedimento: Classify –

Hierarchical Cluster.

8

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Utilize o modelo do carro como rótulo (label)

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Clique em “Plots” e marque o diagrama

“Dendograma”.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Clique em “Method” e escolha o do vizinho mais próximo (Nearest neighbor)

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O dendograma é um resumo gráfico da solução dada pela “análise de agrupamento”.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Os casos ficam listados à esquerda.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O eixo horizontal mostra a distância entre os grupos quando eles são ligados.

9

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Examinar a árvore de classificação para

determinar o número de grupos (clusters) é um

processo subjetivo. Geralmente deve-se observar os

espaços vazios (gaps) entre as junções ao longo do

eixo horizontal.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Iniciando pela direita, observa-se o primeiro “gap”entre as distâncias 20 e 25, que divide os carros em dois grupos.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Existe outro “gap” entre as distâncias 10 e 15, que sugere a existência de seis grupos.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A planilha de aglomeração é um resumo numérico da solução. No primeiro estágio os casos 8 e 11 são combinados, pois são eles que apresentam a menor distância.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O grupo criado por eles aparece somente no estágio

sete. No estágio sete os grupos criados no estágio um e

três são unidos. O resultado aparece após no estágio oito.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Quando existem muitos casos esta tabela se tornará

longa. Mas pode ser mais fácil procurar por “gaps” na

coluna dos coeficientes do que no dendograma.

10

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Uma boa solução é a que percebe mudanças súbitas nos coeficientes. A solução antes do gapindica a melhor solução.

GapCoeficienteEstágio

0,9445,718100,2694,77490,0854,50580,7504,42071,0513,67060,3012,61950,6932,31840,0461,62530,3191,57921,2601,2601

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O maior gap entre

os coeficientes ocorre

entre os estágios cinco e

seis, indicando uma

solução de seis grupos e

entre os estágios nove e

dez indicando uma

solução de dois grupos.

GapCoeficienteEstágio

0,9445,718100,2694,77490,0854,50580,7504,42071,0513,67060,3012,61950,6932,31840,0461,62530,3191,57921,2601,2601

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Esta não é uma solução totalmente satisfatória,

pois não representa uma classificação forte. Tente

uma análise utilizando encadeamento completo

(complete linkage) com o vizinho mais distante

(Furthest neighbor) como método de agrupamento.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Utilize novamente a caixa de diálogo da Análise Hierárquica.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Em método de agrupamento escolha “Furthestneighbor”.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Os primeiros estágios não diferem do método anterior, mas nos finais ela é bem diferente, pois este método fornece uma classificação forte em dois ou três grupos.

11

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A eficácia desta classificação é refletida no dendograma.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A divisão inicial da árvore forma dois grupos distintos. O primeiro contendo os carros pequenos e o segundo os carros maiores.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O grupo dos carros pequenos pode ainda ser dividido em dois. O dos carros pequenos e o dos econômicos. O Civic e o Corolla são pequenos e mais baratos que o Accord e o Camry por exemplo.

Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A solução por este método é satisfatória porque os

grupos são distintos, enquanto que no anterior a

solução não era tão evidente. Utilizando o

encadeamento completo pode-se determinar a

competição por veículos na fase de projeto. Basta entrar

com suas especificações como novos casos no conjunto

de dados e, então, refazer a análise.