Medidas de associa˘c~ao entre duas vari aveis qualitativasmarcas de chocolate. A distribui˘c~ao de...

Medidas de associacao entre duas variaveis

qualitativas

Hoje vamos analisar duas variaveis qualitativas

(categoricas) conjuntamente com o objetivo

de verificar se existe alguma relacao entre elas.

Vamos definir uma medida de associacao en-

tre duas variaveis qualitativas chamada Qui-

quadrado, denotada por χ2.

Vamos tambem apresentar testes de hipoteses

para verificar as hipoteses formuladas quanto

as variaveis sob investigacao.

1

A analise de relacionamento entre variaveis qua-

litativas (categoricas) inclui os seguintes topi-

cos:

- contagens das frequencias observadas para

cada categoria de resposta, que sao registradas

em tabelas de frequencia;

- testes estatısticos de aderencia, de independencia

e de homogeneidade para verficar nossas hipoteses

de relacionamento entre as variaveis.

Para definir a medida de Qui-quadrado vamos

comecar com a analise de apenas uma variavel

categorica.

2

Exemplo 1: Preferencia por chocolate

Uma amostra de 110 pessoas foi solicitada amanifestar suas preferencias com respeito a 4marcas de chocolate. A distribuicao de frequen-cias das respostas obtidas no levantamento es-ta na tabela a seguir.

chocolate A chocolate B chocolate C chocolate D total20 60 10 20 110

Queremos verificar se algumas marcas (ou umamarca) sao preferidas em detrimento de ou-tras.

Observe que se nao ha preferencia por marcas,devemos esperar que o numero de pessoas porcada resposta seja o mesmo.

E claro que numa amostra, mesmo que a hipo-tese seja verdadeira, sera muito improvavel ob-servar o mesmo numero de pessoas em cadaresposta, mas se a hipotese for verdadeira, es-ses numeros deverao ser proximos uns dos ou-tros.

3

Se a hipotese de que nao ha preferencia por

marcas for verdadeira, como sao 110 pessoas,

devemos esperar110

4= 27,5 pessoas em cada

cela.frequencias choc. A choc. B choc. C choc. Dobservadas 20 60 10 20esperadas sob H0 27,5 27,5 27,5 27,5

A medida de Qui-quadrado χ2 que vamos

definir, compara as frequencias observadas, que

denotaremos por Oi - frequencia observada da

i-esima categoria de resposta - e as frequencias

esperadas sob H0, que denotaremos por Ei -

frequencia esperada da i-esima categoria de re-

sposta sob a hipotese nula.

No exemplo 1, observe que ha 4 tipos de res-

posta tal que i = 1,2,3,4.

4

Definicao de χ2:

Suponha que existam c categorias de resposta

e que O1, O2,..., Oc sao as frequencias ob-

servadas, enquando que E1, E2,..., Ec sao as

frequencias esperadas sob a hipotese nula.

Entao a medida de Qui-quadrado e definida

por

χ2 =c∑

i=1

(Oi − Ei)2

Ei

No exemplo 1, temos

χ2 = (20−27,5)2

27,5 +(60−27,5)2

27,5 +(10−27,5)2

27,5 +(20−27,5)2

27,5

' 2,05 + 38,41 + 11,14 + 2,05 = 53,65

5

Como avaliar a magnitude do valor amostralde χ2?

Se a hipotese nula for verdadeira e a frequenciaesperada em todas as celas e maior ou igual a5, a estatıstica χ2 tem uma distribuicao apro-ximada de Qui-quadrado com c − 1 graus deliberdade.

Assim, a um nıvel de signifcancia α rejeitare-mos H0 se o valor amostral cair na cauda supe-rior de area α dessa distribuicao como mostraa figura a seguir.

6

No caso do exemplo 1, temos uma distribuicao

aproximada de qui-quadrado com 4 − 1 = 3

graus de liberdade sob a hipotese nula. Con-

sultando o Excel, vemos que o valor crıtico,

a um nıvel de 5% de significancia e, aproxi-

madamente, 7,815 (usando a funcao INVCHI

do Excel).

Logo, vemos que o valor amostral de 53,65 e

muito maior do que o valor crıtico, indicando

que devemos rejeitar a hipotese nula de que as

frequencias sao iguais em todas as categorias

de resposta.

Usando o EXCEL tambem e facil avaliar o p-

valor desse teste (funcao CHIDIST) que re-

sulta ser muito inferior a 0.0001, indicando

fortıssima evidencia contra a hipotese nula.

7

Como usar o Bioestat para esse problema?

Entre na coluna 1 com as frequencias obser-

vadas de cada cela.

Depois escolha Estatısticas, seguida de Qui-

quadrado, seguida de Uma amostra:aderencia.

Havera duas opcoes, a saber, proporcoes es-

peradas iguais e proporcoes esperadas desiguais.

Observe que no exemplo 1, nossa hipotese e de

que as proporcoes esperadas sao iguais. Logo

devera ser essa a nossa escolha.

8

A seguir, temos a saıda do Bioestat

9

O Bioestat tambem apresenta o seguinte grafico,

util, para avaliarmos de onde vem as maiores

discrepancias.

10

Nem sempre a hipotese nula sera de proporcoes

esperadas iguais.

Suponha que queremos verificar a hipotese de

que as proporcoes esperadas na distribuicao de

genero dos filhos de famılias com dois filhos

seja 1/4 para ambos do genero feminino(FF),

1/4 para ambos do genero masculino (MM) e

1/2 para filhos de generos diferentes(D).

Suponha tambem que uma amostra de 100

famılias com dois filhos tenha resultado na se-

guinte distribuicao

FF D MMobservada 32 52 16

esperada 25 50 25

11

Usando o Bioestat nesse caso:

Pela saıda vemos que a um nıvel de significancia

de 5%, nao rejeitamos a hipotese nula. O p-

valor e aproximdadamete 7%.

Observe que nesse caso devemos digitar, numa

coluna, as frequencias esperadas.

12

O grafico desses dados pelo Bioestat e apre-

sentado a seguir.

13

O χ2 permite que se descubra se existe um

relacionamento ou associacao entre duas varia-

veis categoricas, por exemplo, a associacao en-

tre fumar (fumante/nao fumante) e habito de

beber (bebedor/nao bebedor).

Essas informacoes sao consideradas qualita-

tivas, pois nao esta se perguntando quantos

cigarros a pessoa fuma por dia ou quanta be-

bida alcoolica ela toma por dia. Simplesmente

pergunta-se se a pessoa fuma ou nao e se a

pessoa bebe ou nao bebida alcoolica.

Os dados nesse caso, costumam ser represen-

tados em tabelas de dupla entrada, tambem

conhecidas como tabelas de contingencia, da

seguinte forma:

fuma? bebe nao bebesim O11 O12nao O21 O22

14

Na tabela anterior,

Oij e a frequencia observada na i-esima linha

e j-esima coluna.

Nesse exemplo i = 1,2 e j = 1,2. Ou seja

cada variavel tem apenas duas categorias de

resposta.

Por essa razao esta tabela de contingencia e

chamada uma tabela 2× 2, pois existem duas

linhas e duas colunas.

Adiante estudaremos o caso mais geral de uma

tabela de contingencia l × c com l linhas e c

colunas.

15

Exemplo 2: Associacao entre fumar e beber

Existe um relacionamento entre os habitos de

fumar e de beber na populacao de estudantes

universitarios? Se nao existe uma associacao

significativa, nos concluıremos que as variaveis

(ser fumante ou nao e ser bebedor ou nao) sao

independentes.

Suponha que numa amostra aleatoria de 110

estudantes universitarios tenha se obtido os

seguintes resultados.

fuma? bebe nao bebesim 50 20nao 15 25

16

Perfis-linha

Observe que podemos olhar a tabela de da-

dos de maneiras diferentes. Os perfis-linha

referem-se a uma distribuicao condicional das

respostas em relacao a cada linha da tabela.

Observe na tabela a seguir os perfis-linha. In-

cluımos tambem uma linha com os totais.

fuma? bebe nao bebe totalsim 71,4% 28,6% 100%nao 37,5% 62,5% 100%

total 59,1% 40,9% 100%

Voce diria que o perfil dos fumantes em relacao

a bebida e semelhante ao perfil dos nao-fumantes

em relacao a bebida?

A resposta parece ser nao. Percebemos da

tabela que entre os fumantes, a maioria bebe

e, entre os nao fumantes, a maioria nao bebe!

17

Perfis-coluna

Observe que tambem poderıamos olhar os perfis-

coluna: distribuicao condicional das respostas

em relacao a cada coluna da tabela. Observe

na tabela a seguir os perfis-coluna. Incluımos

tambem uma coluna de totais.

fuma? bebe nao bebe totalsim 76,9% 44,4% 63,6%nao 23,1% 55,6% 36,4%

total 100% 100% 100%

Voce diria que o perfil dos bebedores em relacao

ao habito de fumar e semelhante ao perfil dos

nao-bebedores em relacao ao habito de fumar?

Claramente nao! Percebemos da tabela que

entre os bebedores, a maioria fuma e, entre os

nao bebedores, a maioria nao fuma!

18

Frequencias esperadas sob a hipotese de

Independencia

Vimos, na aula de probabilidade, que dois even-

tos A e B sao independentes se

P (A ∩B) = P (A)× P (B),

isto e, se a probabilidade de ocorrencia simulta-

nea dos dois for igual ao produto das probabi-

lidades individuais.

Para calcular as frequencias esperadas sob a

hipotese de que as as variaveis habito de fumar

e habito de beber sao independentes, usaremos

esse mesmo princıpio.

19

Observe da tabela de frequencias observadas

(escritas em forma de frequencias relativas em

relacao ao numero total de observacoes) que

fuma? bebe nao bebe total

sim 50110

20110

70

110︸︷︷︸pr. estimada de fumar

nao 15110

25110

40

110︸︷︷︸pr. estimada de nao fumar

total65

110︸︷︷︸pr. estimada de beber

45

110︸︷︷︸pr. estimada de nao beber

1

20

Logo, se as variaveis sao independentes espe-ra-se que o percentual de fumantes e bebedo-res seja

70110 ×

65110 = 4550

1102 ' 37,6%

Assim, o numero esperado de fumantes e bebedoressob a hipotese de independencia e 37,6% de 110 '41,4.

A tabela a seguir indica as proporcoes espe-radas sob H0 entre parenteses. Observe queos totais das linhas e colunas sao fixos e, dadaum valor esperado, os outros sao facilmenteobtidos por diferencas.

fuma? bebe nao bebesim 50 (41,4) 20 (28,6)nao 15 (23,6) 25 (16,4)

χ2 =(50−41,4)2

41,4 + (20−28,6)2

28,6 + (15−23,6)2

23,6 + (25−16,4)2

16,4

' 1,79 + 2,59 + 3,13 + 4,51 = 12,02

21

Nao ha necessidade de se preocupar com essescalculos, pois o Bioestat tem uma funcao quefaz isso para voce.

Mas, antes de ver como fazer esses calculospelo Bioestat temos que responder a seguintequestao: “‘Como avaliar a magnitude do valoramostral obtido de χ2?”

Distribuicao de χ2 sob H0:

Sob a hipotese nula de que as variaveis sao in-dependentes, a distribuicao de χ2 em tabelas2×2 e aproximadamente uma qui-quadradocom 1 grau de liberdade. Portanto, pode-mos obter uma regiao crıtica a um nıvel designificancia fixado ou calcular o p-valor.

No caso especıfico deste exemplo, usando oExcel obtemos um p-valor muito pequeno in-dicando fortıssima evidencia contra H0, comoja tınhamos percebido pela analise dos perfis-linha ou perfis-coluna.

22

Vejamos agora como usar o Bioestat para obter

os resultados do teste desse exemplo.

Estatısticas seguida de Qui-quadrado seguida

de Tabelas de Contingencia L×C e indicando

as duas colunas que contem os dados.

23

Da saıda do Bioestat vemos que χ2 = 12,121 e

que o p-valor=0,0005 e muito pequeno e, por-

tanto, rejeitamos a hipotese nula. As diferencas

do valor de χ2 nas casas decimais devem-se a

erros de arredondamento.

Portanto, concluımos que as variaveis habito

de beber e de fumar sao relacionadas. Pela

tabela dos perfis-linha, tambem podemos dizer

que a relacao e do tipo: a maioria dos fu-

mantes tem o habito de beber, enquanto que

entre os nao fumantes, a maioria tende a nao

beber.

24

Teste de independencia em tabelas l × c

No exemplo 2, as variaveis categoricas ana-

lisadas tinham apenas duas categorias de res-

posta. No entanto, e possıvel estudar a relacao

entre duas variaveis categoricas que admitem

mais de duas categorias de resposta. Se uma

das variaveis tiver l respostas e, a outra, c res-

postas, a tabela de contingencia sera de di-

mensao l por c.

Nesse caso o procedimento para verificar se

as variaveis sao independentes e exatamente

o mesmo que o anterior. O numero de graus

de liberdade da distribuicao aproximada de qui-

quadrado sob H0 e nesse caso, (l−1)×(c−1).

O caminho no Bioestat para realizar o teste de

independencia e o mesmo.

25

Exemplo 3: Recusas a pesquisa e faixa etaria

Um estudo de pessoas que se recusaram a res-

ponder perguntas de pesquisa forneceu os da-

dos amostrais selecionados aleatoriamente e

apresentados na tabela a seguir.

Ao nıvel de significancia de 1%, teste a afirma-

tiva de que a cooperacao do sujeito (responde

ou recusa) e independente da faixa etaria. Al-

gum grupo etario particular parece ser nao co-

operativo?

26

18-21 22-29 30-39 40-49 50-59 60 ou maisresponderam 73 255 245 136 138 202

recusaram 11 20 33 16 27 49

Observe que a tabela de dados e uma tabela de contingencia 2×6.

Vamos rodar o teste no Bioestat.

Estatısticas, Qui-quadrado, Tabelas de Contingencia LxC.

Como o p-valor e pequeno, rejeitamos H0, ou seja, existe relacaoentre a cooperacao na pesquisa e a faixa de idade.

27

O gragico a seguir mostra as distribuicoes das

frequencias relativas por idade sob as classes

respondeu/recusou.

Olhando o grafico e possıvel responder que a

faixa “60 ou mais” parece a mais nao coope-

rativa.

28

Testes de Homogeneidade

Em um teste de homogeneidade, testamos a

afirmativa de que populacoes diferentes tem a

mesma proporcao de alguma caracterıstica.

Para realizar um teste de homogeneidade, pode-

mos usar os mesmos procedimentos ja apresen-

tados na aula de hoje, conforme ilustraremos

no seguinte exemplo.

29

Exemplo 4: Influencia de genero

O genero do entrevistador tem alguma influen-

cia nas pesquisas de respostas dadas por ho-

mens?

Um artigo na revista U. S. News & World Re-

port sobre pesquisas afirmou: “Em assuntos

sensıveis, as pessoas tendem a dar respostas

‘aceitaveis’ mais do que respostas honestas;

suas respostas podem depender do genero ou

raca do entrevistador.”

Para apoiar essa afirmativa, forneceram-se da-

dos de uma pesquisa do Eagleton Institute,

na qual pediu-se a opiniao de homens sobre a

seguinte afirmacao: “O aborto e um assunto

particular que deve ser deixado para ser deci-

dido pela mulher sem intervencao do estado.”.

30

Analisaremos o efeito de genero apenas sobre o

universo masculino. A tabela a seguir fornece

os resultados obtidos.entrev. homem entrev. mulher

homens que concordaram 560 308homens que discordaram 240 92

Vejamos como ficam os perfis-coluna

entrev. homem entrev. mulher totalhomens que concordaram 70% (560/800) 77% (308/400) 72,3%homens que discordaram 30% (240/800) 23% (92/400) 27,7%

total 100% 100% 100,0%

Pelos perfis-coluna, parece haver uma tendencia dos homens con-cordarem com maior chance, caso o entrevistador seja mulher.

Para validar essa conclusao, podemos realizar um teste de qui-quadrado para tabelas de contingencia.

31

Saıda do Bioestat para o exemplo 3:

Logo, a um nıvel de significancia de 5% rejeita-

mos a hipotese nula de que as proporcoes de

homens que concordam com a frase sao iguais

para entrevistadores homens e para entrevista-

dores mulheres, pois o p-valor e 1,06%.

32

Quando devemos usar a correcao de Yates?

A correcao de Yates e uma correcao de con-

tinuidade por aproximar uma distribuicao de

variavel discreta para uma distribuicao de qui-

quadrado de variavel contınua. Ela costuma

ser recomendada quando ha celas com fre-

quencias esperadas menores do que 10 ou, quan-

do a tabela e 2×2. No entanto, so usaremos a

correcao de Yates em tabelas 2× 2, quando o

tamanho da amostra for reduzido e pelo menos

uma das celas apresentar frequencia esperada

menor do que 10.

E importante lembrar que a aproximacao da

distribuicao de qui-quadrado e boa, desde que

nao existam celas com frequencias esperadas

menores do que 5.

33

Uma medida de associacao entre duas va-

riaveis categoricas:

coeficiente de contingencia C.

C =

√√√√ χ2

χ2 + n

em que n representa o numero total de ob-

servacoes no problema.

C e um numero entre 0 e 1: quanto maior e

o valor de C, maior e a associacao entre as

variaveis. Um valor de C igual a zero indica

que nao existe relacao entre as variaveis.

No exemplo 2, o coeficiente de contingencia

resultante e√12,121

12,121 + 110' 0,315.

34


resultante e√

20,27120,271+1205 ' 0,13.


resultante e√

6,5291206,529 ' 0,07.

Todos podem ser considerados significativa-

mente diferentes de zero a um nıvel de sig-

nificancia de 5%, pois nos testes realizados,

rejeitamos a hipotese de ausencia de relacao.

35

Referencias bibliograficas:

(1) Dancey e Reidy - Estatıstica sem Matematica

para Psicologia. Penso.

(2) Triola. Introducao a Estatıstica. LTC.

(3) Busssab e Morettin - Estatıstica Basica.

Editora Saraiva.

36

Medidas de associa˘c~ao entre duas vari aveis qualitativasmarcas de chocolate. A distribui˘c~ao de...

Documents

Transcript of Medidas de associa˘c~ao entre duas vari aveis qualitativasmarcas de chocolate. A distribui˘c~ao de...