1
TÓPICOS ESPECIAIS:
ANÁLISE ESTATÍSTICA DE
DADOS AMBIENTAIS
MULTIVARIADOS”
Paulo M. Barbosa Landim [email protected]
1
07/julho
Análise estatística espacial de dados multivariados. Regressão linear múltipla. Exercício 01
08/julho Análise de agrupamentos. Escalonamento multidimensional. Exercício 02
10/julho Análise de componentes principais. Análise fatorial. Exercício 03
11/julho Análise de correspondências. Análise de correlações canônicas. Exercício 04
14/julho
Análise discriminante. Classificação regionalizada. Exercício 05
15/julho Solução dos exercícios 01-05
17/julho Envio dos exercícios 01-05
19/julho Envio do exercício final Todos exercícios enviados: conceito A
2
http://igce.rc.unesp.br/#!/departamentos/geologia-aplicada/curso-prof-landim/
Calvin e Haroldo
3
Os fenômenos naturais não podem ser explicados por crenças. A Matemática não é uma crença. A Matemática pode ser usada para explicar os fenômenos naturais.
Amostragem para o teor de um painel
● ● ●
Mapeamento de solos
4
MODELAGEM DE FENÔMENOS NATURAIS
modelo conceitual
modelo escalar
modelo matemático:
determinístico
estocástico (estatístico)
5 6
População visada e população amostrada Parâmetros e estatísticas Planos de amostragem
2
Como obter dados?
Amostragem
População e amostra
7
AMOSTRAGEM CASUAL SIMPLES
Necessário preliminarmente construir um sistema de referência, isto é, a relação completa e numerada de todos os elementos n que compõe a população.
Em seguida utiliza-se uma tabela de números ao acaso para a escolha dos n números que comporão a amostra. Essa amostragem será com reposição se os elementos de população puderem entrar mais de uma vez para a amostra e, neste caso, a amostragem é estatisticamente independente. Caso contrário, a amostragem será sem reposição e estatisticamente dependente.
8
Números ao acaso
17 80 97 28 17 80
43 36 15 57 72 08
39 90 73 63 66 29
20 69 82 65 87 36
29 81 05 90 19 91
12 82 89 64 53 98
69 33 71 24 66 68
58 84 26 36 57 10
1 2 3 4 5 6 7 8 9 10
11 12 13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40
41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60
61 62 63 64 65 66 67 68 69 70
71 72 73 74 75 76 77 78 79 80
81 82 83 84 85 86 87 88 89 90
91 92 93 94 95 96 97 98 99 100
1 2 3 4 5 6 7 8 9 10
11 12 13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40
41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60
61 62 63 64 65 66 67 68 69 70
71 72 73 74 75 76 77 78 79 80
81 82 83 84 85 86 87 88 89 90
91 92 93 94 95 96 97 98 99 100
AMOSTRAGEM SISTEMÁTICA
Quando o sistema de referência geral para
toda a população é dispensado e por sorteio amostras são sistematicamente coletadas segundo um padrão pré-determinado.
10
1 2 3 4 5 6 7 8 9 10
11 12 13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40
41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60
61 62 63 64 65 66 67 68 69 70
71 72 73 74 75 76 77 78 79 80
81 82 83 84 85 86 87 88 89 90
91 92 93 94 95 96 97 98 99 100 11
AMOSTRAGEM POR AGRUPAMENTOS
Quando a construção do sistema de referência,
dada uma certa unidade de amostragem, é inexeqüível.
Escolhe-se então uma amostra casual simples de uma unidade de amostragem maior que englobe um certo número de indivíduos, os quais serão todos considerados.
12
3
5 10 15 20 25 30 35 40 45
5
10
15
20
25
30
35
40
45
5 10 15 20 25 30 35 40 45
5
10
15
20
25
30
35
40
45
13
AMOSTRAGEM ESTRATIFICADA
Usada quando se supõe presente uma grande variabilidade nas observações. Neste caso a população é dividida em sub-populações e cada uma delas é submetida a uma amostragem casual simples.
O efeito dessa amostragem é que apesar de existir uma grande variabilidade entre as sub-populações, consegue-se encontrar dentro de cada uma dela uma variabilidade menor.
14
15
AMOSTRAGEM HIERÁRQUICA O sistema de referência é construído no
sentido de unidades de amostragem maiores para menores através de sucessivas amostragens casuais.
16
17
SEQÜÊNCIA EM UM ESTUDO QUANTITATIVO
Enfoque do problema.
Modelo conceitual.
Seleção de variáveis.
Coleta e análise de dados.
Seleção de variáveis.
Refinamento do modelo.
Uso do modelo em previsão.
Aceitação, rejeição ou melhoria do modelo.
Retorno ao estágio apropriado. 18
4
Dados univariados
19
Observações quantitativas
Observações qualitativas
20
Dados Multivariados
21
água esgoto lixo educação renda
sim não não secundário R$ 500.00
não não sim primário R$ 500.00
não sim não secundário R$ 1,000.00
sim não não secundário R$ 1,000.00
não não não primário R$ 500.00
não sim não secundário R$ 500.00
não não não primário R$ 1,000.00
sim sim simuniversitário R$ 2,000.00
não não não secundário R$ 500.00
não não não primário R$ 500.00
não não sim primário R$ 1,000.00
sim não não primário R$ 500.00
não sim não secundário R$ 500.00
não não não primário R$ 500.00
não não sim primário R$ 1,000.00
sim sim não secundário R$ 500.00
sim sim simuniversitário R$ 2,000.00
não sim não primário R$ 500.00
não não não secundário R$ 1,000.00
sim não sim secundário R$ 500.00
22
TiposTipos de dados e de dados e escalasescalas de de medidasmedidas
DadosDados
QuantitativosQuantitativos QualitativosQualitativos
EscalaEscala nominalnominal
EscalaEscala ordinalordinal
EscalaEscala dede intervalointervalo
EscalaEscala de de razãorazão
23
MATRIZ DE DADOS = [XIJ]
66192479
09824454
61377001
22347587
34452223
24 Álgebra matricial: matrizes e métodos estatísticos multivariados
5
Análise de dados: descrição interpretação estimação*
*Este é o grande desafio da análise multivariada de dados espaciais, a estimativa de valores para situações de previsão quantitativa.
25
MÉTODOS ESTATÍSTICOS MULTIVARIADOS Análise de agrupamentos
Análise de componentes principais
Análise de correspondências
Análise de correlações canônicas
Análise discriminante
26
Análise multivariada: exemplos
27
Exemplo 1 Medidas cranianas foram obtidas em 7 espécies fósseis de oreodontes (mamífero do Eoceno-Oligoceno dos Estados Unidos da América).
28
BC-W: largura da caixa craniana na altura da região parietal-escamosal TR-L: comprimento máximo dos dentes molariformes Bu-L: comprimento máximo da “bulla” timpânica Bu-HP: comprimento máximo da “bulla” timpânica medida do bordo dorsal até o processo paroxipital.
Subdesmatochoerus sp. (Su), Megoreodon gigas loomisi (Me), O. osborni (Oo), Psuedodesmatochoerus (Ps), Desmatochoerus hatcheri (De), M. culbertsoni (Mc) e Prodesmatochoerus . meeki (Pr).
Espécie
BC-W TR-L Bu-L Bu-HP
Su 47.0 99.0 26.0 15.0
Su 42.0 93.0 26.0 16.0
Su 40.0 90.0 22.0 13.0
Su 46.0 100.0 22.0 11.0
Su 46.0 96.0 24.0 16.0
Su 42.0 88.0 26.0 15.0
Su 43.0 89.0 23.0 14.0
Su 44.0 78.0 23.0 13.0
Su 44.0 90.0 25.0 11.0
Su 47.0 99.0 27.0 15.0
Su 47.0 92.0 27.0 13.0
Me 78.0 165.0 35.0 18.0
Me 77.0 165.0 37.0 19.0
29 30
6
4 grupos indicados pela Análise Discriminante:
1: Prodesmatochoerus meeki + Merychoidodon culbertsoni + O. osborni
2: Subdesmatochoerus sp
3: Desmatochoerus hatcheri + Psuedodesmatochoerus
4: Megoreodon gigas loomisi
31
? 32
Exemplo 2: Óxidos em rochas magmáticas
Rochas SiO2 Al2O3 Fe2O3 FeO MgO CaO Na2O K2O
01Sienito 61.7 15.1 2 2.3 3.7 4.6 4.4 4.5
02Sienito 58.3 17.9 3.2 1.7 1.5 3.7 5.9 5.3
03Sienito 51.2 17.6 3.5 4.3 3.2 4.5 5.7 4.4
04Monzonito 54.4 14.3 3.3 4.1 6.1 7.7 3.4 4.2
05Diorito 58 15.7 0.7 2.8 5 10.9 3 3.2
06Diorito 46.9 15.9 2.9 10 7 9.6 2.7 0.7
07Diorito 58 17.3 2.2 3.8 2.2 4.3 4.3 4.1
08QDiorito 55.5 16.5 1.7 4.6 6.7 6.7 3.2 2.5
09Gabro 55.4 15.3 2.7 5.5 5.8 9.9 2.9 1.5
10Gabro 55.9 13.5 2.7 5.9 6.5 8.9 2.4 1.7
11Norito 47.2 14.5 1.6 13.8 5.2 8.1 3.1 1.2
12Norito 48.2 18.3 1.3 6.1 10.8 9.4 1.3 0.7
13HipGabro 44.8 18.8 2.2 4.7 11.3 14.6 0.9 0.1
14HipGabro 47 14.1 0.8 15 16 2.3 0.4 1.7
15Sienito 59.8 17.3 3.6 1.6 1.2 3.8 5 5.1
16QSienito 66.2 16.2 2 0.2 0.8 1.3 6.5 5.8
17SienitoAlt 50 9.9 3.5 5 11.9 8.3 2.4 5
18Monzonito 57.4 18.5 3.7 2.1 1.7 6.8 4.5 3.7
19Monzonito 59.8 15.8 3.8 3.3 2.2 3.9 3 4.4
20Diabasio 52.2 18.2 3.3 4.4 4.7 6.5 4.6 1.9 33
16QSienito
01Sienito
18Monzonito
02Sienito
15Sienito
07Diorito
19Monzonito
03Sienito
20Diabasio
05Diorito
09Gabro
10Gabro
04Monzonito
08QDiorito
14HipGabro
17SienitoAlt
06Diorito
11Norito
12Norito
13HipGabro
-5 0 5 10 15 20
34
Si: ↑
Fe3: ↑
Fe2: ↓
Mg: ↓
Na: ↑
K: ↑
35
T = 1000 °C
Comp. = A
T = 900 °C
Comp. = B
T = 800 °C
Comp. = C
T = 700 °C
Comp. = D
T = 600 °C
Comp. = E
Formação de minerais
36
7
37
Distribuição espacial das rochas
20Diabasio
19Monzonito
18Monzonito
17SienitoAlt
16QSienito
15Sienito
14HipGabro
13HipGabro
12Norito
11Norito 10Gabro
09Gabro
08QDiorito 07Diorito
06Diorito
05Diorito
04Monzonito
03Sienito 02Sienito
01Sienito
-3
-2
-1
0
1
2
3
-5 -4 -3 -2 -1 0 1 2 3 4 5
siálicos
máficos
Diferenciação magmática 38
Diferença entre os dois exemplos
1. Análise de dados: metodologia
2. Interpretação final: conhecimento
39 40
•Imensa quantidade de informações coletadas. •Basta ver os relatórios de pesquisa e mesmo os bancos de dados com um grande número de matrizes de informações não trabalhadas. •A sua análise, porem, esta muito aquém.
•Verbas e tempo são gastos com essa coleta que precisa ser devidamente manuseada e para essa análise dos dados o emprego de técnicas estatísticas multidimensionais torna-se uma ferramenta fundamental.
41
•Fenômenos naturais (pedológicos) são resultantes de diversos fatores condicionantes
e o seu entendimento é facilitado quando o estudo é submetido a um enfoque quantitativo multidimensional.
•Deve ser enfatizado, porem, que a pura utilização de técnicas estatísticas, e hoje em
dia bastante facilitado graças à vasta disposição de programas computacionais, não é condição suficiente se o estudo não for embasado num sólido conhecimento específico
Análise Estatística Espacial de Dados Multivariados
4
2
8
Dados univariados
43
Dados univariados georreferenciados
44
Modelagem de fenômenos espaciais Usando informações pontuais conhecidas, como estimar um valor em local não amostrado?
4
5
4
6
ESTATÍSTICA ESPACIAL E INTERPOLAÇÃO DE VALORES
Valores são coletados (amostra) para estimar o comportamento espacial do fenomeno em estudo (população)
Interpolação: procedimento matemático de ajuste de uma função à pontos não amostrados, baseando-se em valores obtidos em pontos amostrados.
Produto final: Mapas (Modelo digital) 4
7
ESTIMATIVA DO RETICULADO
0 10 20 30 40 50 60 70 80 90 100
0
10
20
30
40
50
60
70
80
90
100
0 20 40 60 80 100
0
20
40
60
80
100
0 10 20 30 40 50 60 70 80 90 1000
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50 60 70 80 90 100
0
10
20
30
40
50
60
70
80
90
100
48
9
ALGORÍTMOS PARA INTERPOLAÇÃO inverso do quadrado da distância
curvatura mínima
vizinho natural
regressão polinomial
krigagem
4
9
Krigagem: método univariado
E para dados multivariados?
Análises geoquímicas de elementos maiores e/ou traços;
Bandas espectrais em imagens de satélites;
Caracteres morfológicos de fósseis;
Características geotécnicas de rochas;
Conteúdo mineralógico em rochas;
Eletrofácies para classificação litológica de poços;
Variáveis pedológicas, etc. 5
0
359 amostras de solo (Goovaerts, 1997)
51
Distribuição dos pontos Em cada ponto: “n”variáveis
52
53
Comportamentos espaciais diferentes
54
10
n,m2,m1,m
n,32,31,3
n,22,21,2
n,12,11,1
j,i
zzz
zzz
zzz
zzz
Z
1,m1,m
1,31,3
1,21,2
1,11,1
yx
yx
yx
yx
XY
Modelagem espacial de fenômenos multivariados
+ =? 55
Análise de Agrupamentos
56
Análise de Componentes Principais
57
Análise Discriminante
58
59
Métodos clássicos da análise estatística multivariada não levam em consideração a localização dos pontos de amostragem, nem as suas relações espaciais e também não refletem as diferenças quanto ao suporte das amostras ou com relação ao domínio regional onde o estudo esta sendo realizado. A metodologia geoestatística univariada, tem essas propriedades, mas não é capaz de tratar da correlação espacial entre diversas variáveis. Ferramentas se tornam, então, necessárias para incorporar essas importantes feições e daí a necessidade de métodos estatísticos que enfoquem a análise espacial de dados multivariados.
60
11
Duas soluções propostas
Metodologia geoestatística multivariada
Krigagem fatorial (Castrignanò, Goovaerts, Wackernagel).
Metodologia estatístca multivariada “adaptada”
Classificação regionalizada (Harff and Davis, Voronin, Olea)
6
1
Estudos em aberto. Grande potencial de pesquisa. Diversas possibilidades de aplicação Modelos “Causa-e-efeito”.
Análise estatística multivariada de dados espaciais
6
2
Exemplo: Mapeamento de solos
FATORES
CLIMA
ORGANISMOS
RELÊVO
MATERIAL DE
ORIGEM
VARIÁVEIS
AREIA
SILTE
ARGILA
SOMA DE BASES
CAPACIDADE DE
TROCA DE CÁTIONS
SATURAÇÃO DE
BASES
SATURAÇÃO DE
ALUMÍNIO.
TEMPO
ESPAÇO
63
BIBLIOGRAFIA DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3rd ed.,
John Wiley and Sons.
LANDIM, P.M.B. (2011) – Análise estatística de dados geológicos multivariados: Editora Oficina de textos
LEGENDRE, P. & LEGENDRE, L. (1998) – Numerical Ecology, 2nd ed.: Elsevier
KRZANOWSKI, W. J. (200) – Prrinciples of Multivariate Analysis. A User’s Perspective: Oxford University Press
MANLY, B.J.F. (2008) – Métodos estatísticos multivariados. Uma Introdução (Tradução Carmona, S. I. C.): Artmed Editora S. A.
MINGOTI, S. A. (2005) - Análise de dados através de métodos de estatística multivariada: uma abordagem aplicada : Editora UFMG.
VALENTIN, J. L. (2000) - Ecologia numérica: Introdução à análise multivariada de dados ecológicos: Editora Interciência Ltda.
6
4
SOFTWARES
SAS
S-Plus
Statistica
Systat
Matlab (algebra matricial)
PAST (http://folk.uio.no/ohammer/past)
XLStat/Excel (www.xlstat.com)
6
5
66
Top Related