Post on 10-Sep-2020
TEMA 10
Anàlisi de dades categòriques
Estadística. Grau de Nutrició
Humana i Dietètica. Tema 10
Dep. Estadística i Inv. Operativa
Univ. de València
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Variables i dades categòriquesFins ara ens hem ocupat fonamentalment del tractament de variablesquantitatives. En el Tema 8 ens ocuparem de l' inferència d’una proporció, ons’estudia el cas d’una variable dicotòmica. En aquest tema introduiremmètodes per a l’estudi de variables categòriques, és a dir aquelles que prenendos o més valors qualitatius o categories.
Si X és una variable categòrica, cadascun dels seus valors representa una deles categories que els individus de la població poden prendre.
Exemples
X = “grup sanguini (sense Rh)”, aleshores X pot prendre els valors{A,B,AB,O};
Y = “color dels ulls”, aleshores Y pot prendre els valors {negre, marró, blau,verd} o simplement {clar, fosc}, depèn del nivell de detall que ens interessa.
• Les variables amb només dues categories s’anomenen dicotòmiques.
• Una variable categòrica queda completament caracteritzada per laproporció de totes les seues categories.
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Exemples
EXEMPLE 10.1: VACUNA CONTRA L’ÀNTRAX
EXEMPLE 10.2: TRACTAMENT DE L’ANGINA DE PITEn un estudi per avaluar l’efectivitat de la droga Timolol per a prevenir els atacsd’angina de pit, es tria a l’atzar a un grup de malalts als quals se’ls administradurant 28 setmanes una dosi de Timolol. A la resta dels malalts, se’ls administraun placebo. La proporció dels pacients que milloren amb Timolol éssignificativament millor que els que prenen un placebo?
TRACTAMENT
RESPOSTA Vacunats No vacunats
Morts d’àntrax 0 24
Supervivents 24 0
Total 24 24
% supervivents 100 % 0%
Són les dades presentades per Pasteur suficientment convincents?Què passaria si les dades no foren tan evidents?
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Taules de contingència
Les taules de contingència apareixen en les següients situacions:
• Volem esbrinar si una determinada característica (variable categòrica) té lamateixa distribució en diverses poblacions (Homogeneïtat).
• Volem saber si dues característiques diferents (dues variables categòriques)estan relacionades entre sí, o són independents (Independència).
Exemple 10.1: VACUNA CONTRA L’ÀNTRAX
En 1881 Louis Pasteur va realitzar un famós experiment per demostrar l’efecte de la seua vacuna contra l’àntrax.
TRACTAMENT
RESPOSTA Vacunats No vacunats
Morts d’àntrax 0 24
Supervivents 24 0
Total 24 24
% supervivents 100 % 0%
Població 1: Ovelles vacunades.Població 2: Ovelles no vacunades.
Variable categòrica: {Mor, No mor}
H0: Les morts es donen per igual en les dues poblacions.H1: Les morts són menors entre les ovelles vacunades.
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
24 24 48
151 1 13.55 10 0.00000000000000355
2 2 2
El resultat obtingut per Pasteur no pot ser fruit de la casualitat. Ja quel’experiment s’ha fet amb un total de 48 ratolins.No sempre les coses estan tan clares, potser que la mostra siga més xicotetao potser les dades no siguen tan extremes.
Taules de contingència
H0: Les morts es donen per igual en les dues poblacions.H1: Les morts són menors entre les ovelles vacunades.
Quina credibilitat té H0 davant de les dades observades?
Si H0 fóra certa tindríem una probabilitat de 0,5 de morir o sobreviure. Això equival a llançar una moneda 24 vegades i obtindre 24 cares, tant en la columna Vacunats com en la columna No vacunats.
Açó és el valor P del contrast plantejat.
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Taules de contingènciaExemple 10.2: TRACTAMENT DE L’ANGINA DE PIT
En un estudi per avaluar l’efectivitat de la droga Timolol per a prevenir els atacs d’angina de pit, es tria a l’atzar a un grup de malalts als quals se’ls administra durant 28 setmanes una dosi de Timolol. A la resta dels malalts,
se’ls administrà un placebo. S’obtingueren els següents resultats:
Timolol Placebo TOTAL
Sense atacs 44 19 63
Amb atacs 116 128 244
TOTAL 160 147 307
Aquest exemple no és tan clar com l’anterior, tenim pacients què amb el tractament de Timolol continuen tenint atacs i també hi ha pacients que prenint un placebo no han tingut atacs.
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Taules de contingència
Població 1: Pacients tractats amb Timolol.Població 2: Pacients tractats amb un placebo.
H0: Els atacs es donen per igual en els dos tipus de pacients.H1: Els atacs no es donen per igual en els dos tipus de pacients.
Dels pacients que reberen Timolol, el 27,5% estigué lliure d’atacs.
44(sense atacs | Timolol) 0,275
160freq
19(sense atacs | placebo) 0,129
147freq
Variable categòrica
{Té atacs, No té atacs}
Plantegem el següent contrast
Dels pacients que reberen un placebo, el 12,9% estigué lliure d’atacs.
Si H0 és certa, estimaríem laprobabilitat de no patir atacs com:
# pacients sense atacs 630,205
# total de pacients 307
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Taules de contingència: Freqüències esperades
Aleshores, si H0 és certa, d’un total de 160 pacients que han pres Timolol hauríem d’esperar que, aproximadament un 20,5% estigueren lliures d’atacs.
0freq_esperada(Timolol i Sense atacs | H certa)=160 0,205
63 160 (Total fila 1) (Total columna 1)32,83
307 Total general
(Total fila i) (Total columna j)e
Total generalij
La freqüència esperada eij de la cel·la (i,j) de la taula de contingència es calcula
11
12
21
22
63 16032,83
307
63 14730,17
307
244 160127,17
307
244 147116,83
307
e
e
e
e
eijTimolol Placebo
Sense atacs 32,83 30,17
Amb atacs 127,17 116,83
Freqüències esperades(Si la hipòtesi nul·la és certa)
Proporció de pacients lliuresd’atacs si H0 és certa: 0,205
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Taules de contingència: Test Xi-quadrat
Una vegada calculades les freqüències esperades, suposant que la hipòtesi nul·la és certa, cal comparar-les amb les freqüències observades (taula inicial de contingència).
El test Xi-quadrat es basa en aquestes discrepàncies entre freqüències observades i esperades.
22 ( )s
O E
E
Estadístic del test
La distribució nul·la de l’estadístic és una Xi-quadrat amb 1 grau de llibertat.
(la suma s’estén a totes les cel·les de la taula)
O: freqüència observada en cada cel·la.E: freqüència esperada en cada cel·la.
Com més “gran” és el valor de l’estadístic més incompatibles són les dades
observades amb la hipòtesi nul·la.
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
La distribució Xi-quadrat i valor P
2
s
P = )( 22
sP
Exemple: Xi-quadrat amb gl = 2
2( 3,22) 0,20PSegons la taula, si tenim2 3,22s
(Valor P)
Valor P (àrea de la cua dreta)
Usualment el valor de l’estadístic no coincidirà amb cap valor de la Xi-quadrati haurem de procedir igual que amb la taula t per a encaixar el valor P entredos valors.
Exemple: Xi-quadrat amb gl = 24 Si tenim 0,02< P < 0,052 38,228s
Si tenim P < 0,00012 81,330s
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Exemple 10.2 (cont.)
En l’exemple 10.2 comparàvem el nou medicament Timolol vs. un Placeboper a reduir els atacs d’angina de pit.
2 2 2 22 (44 32,83) (116 127,17) (19 30,17) (128 116,83)
9,9832,83 127,17 30,17 116,83
s
eijTimolol Placebo
Sense atacs 32,83 30,17
Amb atacs 127,17 116,83
oijTimolol Placebo TOTAL
Sense atacs 44 19 63
Amb atacs 116 128 244
TOTAL 160 147 307
Freq. esperadesFreq. observades
Buscant en la taula Xi-quadrat amb 1 gl, obtenim 0,001 < P < 0,01
Com P < = 0,05 Rebutgem H0
Notem que el nombre observat de pacients sense atacs és 44, mentre que el nombre esperat (suposant H0 certa) era menor: 32,83.
Com rebutgem H0 i el comentari anterior, podem concloure que: Els pacients tractats amb Timolol tenen una probabilitat menor de patir atacs que els tractats amb un Placebo.
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Exemple 10.2 amb SPSSCreem l’arxiu Timolol :
Ponderem els casos per la variable “frecuencia”
(Datos / Ponderar casos)
I ara amb Estadísticos Descriptivos / Tablas de contingencia
44freq(sense atacs | timolol) = = 0,275
160
19freq(sense atacs | placebo) = = 0,129
147
63freq(sense atacs | total) = = 0 ,205
307
116freq(timolol | amb atacs) = = 0,475
244
44freq(timolol | sense atacs) = = 0,698
63
160freq(timolol | total) = = 0 ,521
307
Càlculs a mà
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Exemple 10.2 amb SPSS (cont.)
0,002 = P < = 0,05 Rebutgem H0
H0: Els atacs es donen per igual en els dos tipus de pacients. (els que prenen Timolol i els que prenen placebo).H1: Els atacs no es donen per igual en els dos tipus de pacients.
Conclusió: El Timolol redueixsignificativament la probabilitat de patirangina de pit.
19freq(sense atacs | placebo) = = 0,129
147
44freq(sense atacs | timolol) = = 0,275
160
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Exemple 10.3 Ceguera al color i gènere
En un estudi recent sobre el daltonisme, un grup d’investigadors examinà a
un gran nombre d’escolars noruecs obtenint-ne els següents resultats:
Xiquets Xiquetes TOTAL
Daltònics 725 40 765
No Daltònics 8324 9032 17356
TOTAL 9049 9072 18121
El 8,0% dels xiquets són daltònics (proporció 725/9049). El 0,44% de les xiquetes son daltòniques (proporció 40/9072).
Demostren aquestes dades que és major la probabilitat de ser daltònic si se és mascle que si se és femella?
Està relacionat el daltonisme amb el sexe?
Són independents daltonisme i sexe?
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Exemple 10.3 Ceguera al color i gènere (cont.)
H0: El daltonisme és independent del sexe
H1: El daltonisme està relacionat amb el sexe
2 642,2s gl = 1
P = 0,000 < = 0,05
Rebutgem H0
Comparant freqüències:La proporció de daltònics és significativament major en els xiquets que en les xiquetes.
Comprovar manualment que el valor de l’estadístic és 642,219.
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Taules de contingència r k
En els exemples anteriors sempre hem considerat taules de contingència
amb 2 files i 2 columnes. De vegades es vol contrastar una situació més
complexa on hi ha r files i k columnes.
Variable categòrica o
k-mostres
B1 B2 ····· Bk
Va
riab
le Ca
tegò
rica
A1 O11 O12 ····· O1k
A2 O21 O22 ····· O2k
····· ····· ····· ·····
Ar Or1 Or2 ····· Ork
Columnes: variable amb k categories o k mostres.Files: variable amb r categories.
Generalització de les taules 2x2 a r files i k columnes.
Observacions
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Test Chi-2: Taules de contingència r x k
rkrr
k
k
H
21
22221
11211
0 :
kjriBAP jiij ,,1,,1)|(
global total
columna total fila total jiEij
Freqüències esperades
Estadístic
ij ij
ijij
sE
EO 2
2)(
1 0: Alguna igualtat de s'incumpleixH H
valor-P: S’obté amb les taules de la 2 amb (r-1)(k-1) g.l.H1 només potser ser unilateral si r=k=2
Probabilitats condicionades si el contrast és d’independència/associació.Frequències/proporcions en el cas d’homogeneïtat.
OBSERVEM QUE QUAN r=k=2, la distribució és una 2 amb 1 g.l.
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Exemple 10.4 Distribució del tipus de sang
La següent taula mostra la distribució observada dels tipus sanguinis de 3 mostres d’afroamericans procedents de 3 estats diferents d’Amèrica del Nord.
Florida Iowa Missouri TOTAL
A 122 1781 353 2256
B 117 1351 269 1737
AB 19 289 60 368
0 244 3301 713 4258
TOTAL 502 6722 1395 8619
La distribució dels tipus de sang és la mateixa en els tres estats?
H0: La distribució dels tipus de sang és la mateixa en els tres estats.H1: Hi ha diferències en la distribució dels tipus de sang en els tres estats.
En aquesta ocasió no es proposa la independència entre dues variables,sinó l’equidistribució d’una única variable en diverses poblacions. En aquestcas el test s’anomena d’homogeneïtat, en l’exemple 10.3 d’independència.Les conclusions són diferents però les operacions són idèntiques.
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Exemple 10.4 Resolució manual
Florida Iowa Missouri TOTAL
A 122 (131,4) 1781 (1759,5) 353 (365,1) 2256
B 117 (101,2) 1351 (1354,7) 269 (281,1) 1737
AB 19 (21,4) 289 (287,0) 60 (59,6) 368
0 244 (248,0) 3301 (3320,8) 713 (689,2) 4258
TOTAL 502 6722 1395 8619
Freqüències observades (esperades)
22 ( )
5,651s
O E
E
Obtenim: 0,4 < P < 0,5 No Rebutgem H0
Conclusió: Les dades són compatibles amb la hipòtesi que la distribució dels tipus sanguinis és la mateixa en els tres estats.
Busquem en la taula Xi-quadratamb gl = (4-1)×(3-1) = 6.
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Exemple 10.4 Resolució amb SPSS (1)
Per cada cel·la cal entrar la parella de valors que la caracteritza amb la seua freqüència.
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Exemple 10.4 Resolució amb SPSS (2)
22 ( )
5,651s
O E
EP = 0,463 No Rebutgem H0
No hi ha evidència estadística suficient per a afirmar que els tipus de sang es distribueixen de forma diferent en els tres estats considerats.
Estadística. Grau de Nurició
Humana i Dietètica. Tema 10
Condicions d’aplicabilitat
Condicions sobre el disseny de l’experiment
L’experiment ha de ser d’un dels dos tipus següents:
• Dues o més mostres aleatòries, observades respecte a una variable categòrica (Test d’homogeneïtat).• Una mostra aleatòria, observada respecte de dues variables categòriques (Test d’independència).
Condicions sobre la grandària de la mostra
• Mostra suficientment gran. • Totes les cel·les (llevat un 20% com a màxim) han de tindre freqüències esperades majors o iguals a 5.• Cap cel·la ha de tindre freqüència esperada 0.