Medidas de associa˘c~ao entre duas vari aveis qualitativasmarcas de chocolate. A distribui˘c~ao de...
Transcript of Medidas de associa˘c~ao entre duas vari aveis qualitativasmarcas de chocolate. A distribui˘c~ao de...
Medidas de associacao entre duas variaveis
qualitativas
Hoje vamos analisar duas variaveis qualitativas
(categoricas) conjuntamente com o objetivo
de verificar se existe alguma relacao entre elas.
Vamos definir uma medida de associacao en-
tre duas variaveis qualitativas chamada Qui-
quadrado, denotada por χ2.
Vamos tambem apresentar testes de hipoteses
para verificar as hipoteses formuladas quanto
as variaveis sob investigacao.
1
A analise de relacionamento entre variaveis qua-
litativas (categoricas) inclui os seguintes topi-
cos:
- contagens das frequencias observadas para
cada categoria de resposta, que sao registradas
em tabelas de frequencia;
- testes estatısticos de aderencia, de independencia
e de homogeneidade para verficar nossas hipoteses
de relacionamento entre as variaveis.
Para definir a medida de Qui-quadrado vamos
comecar com a analise de apenas uma variavel
categorica.
2
Exemplo 1: Preferencia por chocolate
Uma amostra de 110 pessoas foi solicitada amanifestar suas preferencias com respeito a 4marcas de chocolate. A distribuicao de frequen-cias das respostas obtidas no levantamento es-ta na tabela a seguir.
chocolate A chocolate B chocolate C chocolate D total20 60 10 20 110
Queremos verificar se algumas marcas (ou umamarca) sao preferidas em detrimento de ou-tras.
Observe que se nao ha preferencia por marcas,devemos esperar que o numero de pessoas porcada resposta seja o mesmo.
E claro que numa amostra, mesmo que a hipo-tese seja verdadeira, sera muito improvavel ob-servar o mesmo numero de pessoas em cadaresposta, mas se a hipotese for verdadeira, es-ses numeros deverao ser proximos uns dos ou-tros.
3
Se a hipotese de que nao ha preferencia por
marcas for verdadeira, como sao 110 pessoas,
devemos esperar110
4= 27,5 pessoas em cada
cela.frequencias choc. A choc. B choc. C choc. Dobservadas 20 60 10 20esperadas sob H0 27,5 27,5 27,5 27,5
A medida de Qui-quadrado χ2 que vamos
definir, compara as frequencias observadas, que
denotaremos por Oi - frequencia observada da
i-esima categoria de resposta - e as frequencias
esperadas sob H0, que denotaremos por Ei -
frequencia esperada da i-esima categoria de re-
sposta sob a hipotese nula.
No exemplo 1, observe que ha 4 tipos de res-
posta tal que i = 1,2,3,4.
4
Definicao de χ2:
Suponha que existam c categorias de resposta
e que O1, O2,..., Oc sao as frequencias ob-
servadas, enquando que E1, E2,..., Ec sao as
frequencias esperadas sob a hipotese nula.
Entao a medida de Qui-quadrado e definida
por
χ2 =c∑
i=1
(Oi − Ei)2
Ei
No exemplo 1, temos
χ2 = (20−27,5)2
27,5 +(60−27,5)2
27,5 +(10−27,5)2
27,5 +(20−27,5)2
27,5
' 2,05 + 38,41 + 11,14 + 2,05 = 53,65
5
Como avaliar a magnitude do valor amostralde χ2?
Se a hipotese nula for verdadeira e a frequenciaesperada em todas as celas e maior ou igual a5, a estatıstica χ2 tem uma distribuicao apro-ximada de Qui-quadrado com c − 1 graus deliberdade.
Assim, a um nıvel de signifcancia α rejeitare-mos H0 se o valor amostral cair na cauda supe-rior de area α dessa distribuicao como mostraa figura a seguir.
6
No caso do exemplo 1, temos uma distribuicao
aproximada de qui-quadrado com 4 − 1 = 3
graus de liberdade sob a hipotese nula. Con-
sultando o Excel, vemos que o valor crıtico,
a um nıvel de 5% de significancia e, aproxi-
madamente, 7,815 (usando a funcao INVCHI
do Excel).
Logo, vemos que o valor amostral de 53,65 e
muito maior do que o valor crıtico, indicando
que devemos rejeitar a hipotese nula de que as
frequencias sao iguais em todas as categorias
de resposta.
Usando o EXCEL tambem e facil avaliar o p-
valor desse teste (funcao CHIDIST) que re-
sulta ser muito inferior a 0.0001, indicando
fortıssima evidencia contra a hipotese nula.
7
Como usar o Bioestat para esse problema?
Entre na coluna 1 com as frequencias obser-
vadas de cada cela.
Depois escolha Estatısticas, seguida de Qui-
quadrado, seguida de Uma amostra:aderencia.
Havera duas opcoes, a saber, proporcoes es-
peradas iguais e proporcoes esperadas desiguais.
Observe que no exemplo 1, nossa hipotese e de
que as proporcoes esperadas sao iguais. Logo
devera ser essa a nossa escolha.
8
A seguir, temos a saıda do Bioestat
9
O Bioestat tambem apresenta o seguinte grafico,
util, para avaliarmos de onde vem as maiores
discrepancias.
10
Nem sempre a hipotese nula sera de proporcoes
esperadas iguais.
Suponha que queremos verificar a hipotese de
que as proporcoes esperadas na distribuicao de
genero dos filhos de famılias com dois filhos
seja 1/4 para ambos do genero feminino(FF),
1/4 para ambos do genero masculino (MM) e
1/2 para filhos de generos diferentes(D).
Suponha tambem que uma amostra de 100
famılias com dois filhos tenha resultado na se-
guinte distribuicao
FF D MMobservada 32 52 16
esperada 25 50 25
11
Usando o Bioestat nesse caso:
Pela saıda vemos que a um nıvel de significancia
de 5%, nao rejeitamos a hipotese nula. O p-
valor e aproximdadamete 7%.
Observe que nesse caso devemos digitar, numa
coluna, as frequencias esperadas.
12
O grafico desses dados pelo Bioestat e apre-
sentado a seguir.
13
O χ2 permite que se descubra se existe um
relacionamento ou associacao entre duas varia-
veis categoricas, por exemplo, a associacao en-
tre fumar (fumante/nao fumante) e habito de
beber (bebedor/nao bebedor).
Essas informacoes sao consideradas qualita-
tivas, pois nao esta se perguntando quantos
cigarros a pessoa fuma por dia ou quanta be-
bida alcoolica ela toma por dia. Simplesmente
pergunta-se se a pessoa fuma ou nao e se a
pessoa bebe ou nao bebida alcoolica.
Os dados nesse caso, costumam ser represen-
tados em tabelas de dupla entrada, tambem
conhecidas como tabelas de contingencia, da
seguinte forma:
fuma? bebe nao bebesim O11 O12nao O21 O22
14
Na tabela anterior,
Oij e a frequencia observada na i-esima linha
e j-esima coluna.
Nesse exemplo i = 1,2 e j = 1,2. Ou seja
cada variavel tem apenas duas categorias de
resposta.
Por essa razao esta tabela de contingencia e
chamada uma tabela 2× 2, pois existem duas
linhas e duas colunas.
Adiante estudaremos o caso mais geral de uma
tabela de contingencia l × c com l linhas e c
colunas.
15
Exemplo 2: Associacao entre fumar e beber
Existe um relacionamento entre os habitos de
fumar e de beber na populacao de estudantes
universitarios? Se nao existe uma associacao
significativa, nos concluıremos que as variaveis
(ser fumante ou nao e ser bebedor ou nao) sao
independentes.
Suponha que numa amostra aleatoria de 110
estudantes universitarios tenha se obtido os
seguintes resultados.
fuma? bebe nao bebesim 50 20nao 15 25
16
Perfis-linha
Observe que podemos olhar a tabela de da-
dos de maneiras diferentes. Os perfis-linha
referem-se a uma distribuicao condicional das
respostas em relacao a cada linha da tabela.
Observe na tabela a seguir os perfis-linha. In-
cluımos tambem uma linha com os totais.
fuma? bebe nao bebe totalsim 71,4% 28,6% 100%nao 37,5% 62,5% 100%
total 59,1% 40,9% 100%
Voce diria que o perfil dos fumantes em relacao
a bebida e semelhante ao perfil dos nao-fumantes
em relacao a bebida?
A resposta parece ser nao. Percebemos da
tabela que entre os fumantes, a maioria bebe
e, entre os nao fumantes, a maioria nao bebe!
17
Perfis-coluna
Observe que tambem poderıamos olhar os perfis-
coluna: distribuicao condicional das respostas
em relacao a cada coluna da tabela. Observe
na tabela a seguir os perfis-coluna. Incluımos
tambem uma coluna de totais.
fuma? bebe nao bebe totalsim 76,9% 44,4% 63,6%nao 23,1% 55,6% 36,4%
total 100% 100% 100%
Voce diria que o perfil dos bebedores em relacao
ao habito de fumar e semelhante ao perfil dos
nao-bebedores em relacao ao habito de fumar?
Claramente nao! Percebemos da tabela que
entre os bebedores, a maioria fuma e, entre os
nao bebedores, a maioria nao fuma!
18
Frequencias esperadas sob a hipotese de
Independencia
Vimos, na aula de probabilidade, que dois even-
tos A e B sao independentes se
P (A ∩B) = P (A)× P (B),
isto e, se a probabilidade de ocorrencia simulta-
nea dos dois for igual ao produto das probabi-
lidades individuais.
Para calcular as frequencias esperadas sob a
hipotese de que as as variaveis habito de fumar
e habito de beber sao independentes, usaremos
esse mesmo princıpio.
19
Observe da tabela de frequencias observadas
(escritas em forma de frequencias relativas em
relacao ao numero total de observacoes) que
fuma? bebe nao bebe total
sim 50110
20110
70
110︸︷︷︸pr. estimada de fumar
nao 15110
25110
40
110︸︷︷︸pr. estimada de nao fumar
total65
110︸︷︷︸pr. estimada de beber
45
110︸︷︷︸pr. estimada de nao beber
1
20
Logo, se as variaveis sao independentes espe-ra-se que o percentual de fumantes e bebedo-res seja
70110 ×
65110 = 4550
1102 ' 37,6%
Assim, o numero esperado de fumantes e bebedoressob a hipotese de independencia e 37,6% de 110 '41,4.
A tabela a seguir indica as proporcoes espe-radas sob H0 entre parenteses. Observe queos totais das linhas e colunas sao fixos e, dadaum valor esperado, os outros sao facilmenteobtidos por diferencas.
fuma? bebe nao bebesim 50 (41,4) 20 (28,6)nao 15 (23,6) 25 (16,4)
χ2 =(50−41,4)2
41,4 + (20−28,6)2
28,6 + (15−23,6)2
23,6 + (25−16,4)2
16,4
' 1,79 + 2,59 + 3,13 + 4,51 = 12,02
21
Nao ha necessidade de se preocupar com essescalculos, pois o Bioestat tem uma funcao quefaz isso para voce.
Mas, antes de ver como fazer esses calculospelo Bioestat temos que responder a seguintequestao: “‘Como avaliar a magnitude do valoramostral obtido de χ2?”
Distribuicao de χ2 sob H0:
Sob a hipotese nula de que as variaveis sao in-dependentes, a distribuicao de χ2 em tabelas2×2 e aproximadamente uma qui-quadradocom 1 grau de liberdade. Portanto, pode-mos obter uma regiao crıtica a um nıvel designificancia fixado ou calcular o p-valor.
No caso especıfico deste exemplo, usando oExcel obtemos um p-valor muito pequeno in-dicando fortıssima evidencia contra H0, comoja tınhamos percebido pela analise dos perfis-linha ou perfis-coluna.
22
Vejamos agora como usar o Bioestat para obter
os resultados do teste desse exemplo.
Estatısticas seguida de Qui-quadrado seguida
de Tabelas de Contingencia L×C e indicando
as duas colunas que contem os dados.
23
Da saıda do Bioestat vemos que χ2 = 12,121 e
que o p-valor=0,0005 e muito pequeno e, por-
tanto, rejeitamos a hipotese nula. As diferencas
do valor de χ2 nas casas decimais devem-se a
erros de arredondamento.
Portanto, concluımos que as variaveis habito
de beber e de fumar sao relacionadas. Pela
tabela dos perfis-linha, tambem podemos dizer
que a relacao e do tipo: a maioria dos fu-
mantes tem o habito de beber, enquanto que
entre os nao fumantes, a maioria tende a nao
beber.
24
Teste de independencia em tabelas l × c
No exemplo 2, as variaveis categoricas ana-
lisadas tinham apenas duas categorias de res-
posta. No entanto, e possıvel estudar a relacao
entre duas variaveis categoricas que admitem
mais de duas categorias de resposta. Se uma
das variaveis tiver l respostas e, a outra, c res-
postas, a tabela de contingencia sera de di-
mensao l por c.
Nesse caso o procedimento para verificar se
as variaveis sao independentes e exatamente
o mesmo que o anterior. O numero de graus
de liberdade da distribuicao aproximada de qui-
quadrado sob H0 e nesse caso, (l−1)×(c−1).
O caminho no Bioestat para realizar o teste de
independencia e o mesmo.
25
Exemplo 3: Recusas a pesquisa e faixa etaria
Um estudo de pessoas que se recusaram a res-
ponder perguntas de pesquisa forneceu os da-
dos amostrais selecionados aleatoriamente e
apresentados na tabela a seguir.
Ao nıvel de significancia de 1%, teste a afirma-
tiva de que a cooperacao do sujeito (responde
ou recusa) e independente da faixa etaria. Al-
gum grupo etario particular parece ser nao co-
operativo?
26
18-21 22-29 30-39 40-49 50-59 60 ou maisresponderam 73 255 245 136 138 202
recusaram 11 20 33 16 27 49
Observe que a tabela de dados e uma tabela de contingencia 2×6.
Vamos rodar o teste no Bioestat.
Estatısticas, Qui-quadrado, Tabelas de Contingencia LxC.
Como o p-valor e pequeno, rejeitamos H0, ou seja, existe relacaoentre a cooperacao na pesquisa e a faixa de idade.
27
O gragico a seguir mostra as distribuicoes das
frequencias relativas por idade sob as classes
respondeu/recusou.
Olhando o grafico e possıvel responder que a
faixa “60 ou mais” parece a mais nao coope-
rativa.
28
Testes de Homogeneidade
Em um teste de homogeneidade, testamos a
afirmativa de que populacoes diferentes tem a
mesma proporcao de alguma caracterıstica.
Para realizar um teste de homogeneidade, pode-
mos usar os mesmos procedimentos ja apresen-
tados na aula de hoje, conforme ilustraremos
no seguinte exemplo.
29
Exemplo 4: Influencia de genero
O genero do entrevistador tem alguma influen-
cia nas pesquisas de respostas dadas por ho-
mens?
Um artigo na revista U. S. News & World Re-
port sobre pesquisas afirmou: “Em assuntos
sensıveis, as pessoas tendem a dar respostas
‘aceitaveis’ mais do que respostas honestas;
suas respostas podem depender do genero ou
raca do entrevistador.”
Para apoiar essa afirmativa, forneceram-se da-
dos de uma pesquisa do Eagleton Institute,
na qual pediu-se a opiniao de homens sobre a
seguinte afirmacao: “O aborto e um assunto
particular que deve ser deixado para ser deci-
dido pela mulher sem intervencao do estado.”.
30
Analisaremos o efeito de genero apenas sobre o
universo masculino. A tabela a seguir fornece
os resultados obtidos.entrev. homem entrev. mulher
homens que concordaram 560 308homens que discordaram 240 92
Vejamos como ficam os perfis-coluna
entrev. homem entrev. mulher totalhomens que concordaram 70% (560/800) 77% (308/400) 72,3%homens que discordaram 30% (240/800) 23% (92/400) 27,7%
total 100% 100% 100,0%
Pelos perfis-coluna, parece haver uma tendencia dos homens con-cordarem com maior chance, caso o entrevistador seja mulher.
Para validar essa conclusao, podemos realizar um teste de qui-quadrado para tabelas de contingencia.
31
Saıda do Bioestat para o exemplo 3:
Logo, a um nıvel de significancia de 5% rejeita-
mos a hipotese nula de que as proporcoes de
homens que concordam com a frase sao iguais
para entrevistadores homens e para entrevista-
dores mulheres, pois o p-valor e 1,06%.
32
Quando devemos usar a correcao de Yates?
A correcao de Yates e uma correcao de con-
tinuidade por aproximar uma distribuicao de
variavel discreta para uma distribuicao de qui-
quadrado de variavel contınua. Ela costuma
ser recomendada quando ha celas com fre-
quencias esperadas menores do que 10 ou, quan-
do a tabela e 2×2. No entanto, so usaremos a
correcao de Yates em tabelas 2× 2, quando o
tamanho da amostra for reduzido e pelo menos
uma das celas apresentar frequencia esperada
menor do que 10.
E importante lembrar que a aproximacao da
distribuicao de qui-quadrado e boa, desde que
nao existam celas com frequencias esperadas
menores do que 5.
33
Uma medida de associacao entre duas va-
riaveis categoricas:
coeficiente de contingencia C.
C =
√√√√ χ2
χ2 + n
em que n representa o numero total de ob-
servacoes no problema.
C e um numero entre 0 e 1: quanto maior e
o valor de C, maior e a associacao entre as
variaveis. Um valor de C igual a zero indica
que nao existe relacao entre as variaveis.
No exemplo 2, o coeficiente de contingencia
resultante e√12,121
12,121 + 110' 0,315.
34
No exemplo 3, o coeficiente de contingencia
resultante e√
20,27120,271+1205 ' 0,13.
No exemplo 4, o coeficiente de contingencia
resultante e√
6,5291206,529 ' 0,07.
Todos podem ser considerados significativa-
mente diferentes de zero a um nıvel de sig-
nificancia de 5%, pois nos testes realizados,
rejeitamos a hipotese de ausencia de relacao.
35
Referencias bibliograficas:
(1) Dancey e Reidy - Estatıstica sem Matematica
para Psicologia. Penso.
(2) Triola. Introducao a Estatıstica. LTC.
(3) Busssab e Morettin - Estatıstica Basica.
Editora Saraiva.
36