Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Tests nonparamétriques
Erik-André Sauleau - Nicolas Meyer
[email protected] - [email protected]
Laboratoire de Biostatistique - Faculté de Médecine
Pôle de Santé Publique CHU - STRASBOURG
Décembre 2008
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Plan
1 Notions de base
2 Comparaison de deux séries continues
3 Coe�cient de corrélation nonparamétrique
4 Autres situations et autres tests
5 Un mini TP
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Où en sommes nous ?
1 Notions de baseIntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
2 Comparaison de deux séries continues
3 Coe�cient de corrélation nonparamétrique
4 Autres situations et autres tests
5 Un mini TPEA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Le programme
Compétence 4 : Tests statistiques
1 Tests d'hypothèses
2 Corrélation, régression3 Tests non paramétriques
1 Dé�nition, intérêt et utilisation des tests de rang2 Application à :
Comparaison de deux distributions de variables aléatoires
continues : test de Mann-Whitney, test de Wilcoxon
Coe�cient de corrélation de Spearman
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
La situation
Pour pouvoir réaliser des estimations de paramètres ou pour fairede l'inférence
Hypothèses sur les populations et sur les sujets qui lacomposentRecours à des échantillons issus des populations d'intérêt pourtirer des conclusions sur ces populationsHypothèses courantes
Les valeurs recueillies sont la réalisation de variables aléatoiresindépendantes. Chaque variable ou vecteur aléatoire ainsiobtenu est une observation de la loi qui est censée régir cettevariable ou ce vecteur aléatoireUne autre hypothèse concerne l'ensemble des lois dedistribution possibles pour les variables aléatoires
Le choix de la loi des paramètresParfois facilité par le type de données considérées
si l'on traite des données binaires de types�présence/absence� : Bernoullimais souvent (données continues) choix di�cile
On choisit une loi, ce qui revient à choisir1 Un modèle pour les données2 Une méthode d'analyse, les méthodes statistiques étant
souvent adaptées au traitement d'une famille de loi
Le choix du modèle pour les données n'est donc pas anodinHypothèse quasi systématique : toutes les observationsobéissent à la même loi
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
La situation
Le choix de la loi des paramètres
Parfois facilité par le type de données considérées
si l'on traite des données binaires de types�présence/absence� : Bernoullimais souvent (données continues) choix di�cile
On choisit une loi, ce qui revient à choisir1 Un modèle pour les données2 Une méthode d'analyse, les méthodes statistiques étant
souvent adaptées au traitement d'une famille de loi
Le choix du modèle pour les données n'est donc pas anodin
Hypothèse quasi systématique : toutes les observationsobéissent à la même loi
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Rappel sur les modèles paramétriques
Un modèle paramétrique pour une observation est un ensemble deloi qui forme une bijection avec ℝk. Cette famille de loi est telleque deux lois quelconques de cette famille ne di�èrent que par lavaleur de leur paramètre � appartenant à un sous-ensemble Θ deℝk. On note cet ensemble :
{F�; � ∈ Θ}
Un modèle très (trop) souvent retenu pour des données continuesest le modèle gaussien, modèle qui peut s'écrire :{
Il existe (�, �2) appartenant a ℝ× ℝ+∗ tel que :X est une observation de la loi N (�, �2)
On pourra facilement adapter ce schéma à d'autres familles de loi
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Rappel sur les modèles paramétriques
Un modèle très (trop) souvent retenu pour des données continuesest le modèle gaussien, modèle qui peut s'écrire :{
Il existe (�, �2) appartenant a ℝ× ℝ+∗ tel que :X est une observation de la loi N (�, �2)
On pourra facilement adapter ce schéma à d'autres familles de loi
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Qu'est ce qu'un modèle nonparamétrique ?
A contrario, un modèle nonparamétrique est un modèle qui ne peutpas se mettre sous forme paramétrique. Cela revient à utiliser untrès vaste ensemble de lois qui peuvent avoir des formes trèsvariées, voire même non précisées. Cet ensemble s'écrira de façongénérique : {
Il existe F appartenant a ℱ telle que :X est une observation de la loi F
Formulation extrêmement généraleGrand nombre de variantes de ce modèle avec dessous-familles ℱ0 caractérisées par une propriété particulièreportant par exemple sur la position par rapport à l'origine ousur la dispersion donnée
Remarque : Ces modèles ont été dé�nis pour un échantillon maison peut étendre leur dé�nition à des situations présentant deux ouplus de deux échantillons
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Qu'est ce qu'un modèle nonparamétrique ?
Formulation extrêmement générale
Grand nombre de variantes de ce modèle avec dessous-familles ℱ0 caractérisées par une propriété particulièreportant par exemple sur la position par rapport à l'origine ousur la dispersion donnée
Remarque : Ces modèles ont été dé�nis pour un échantillon maison peut étendre leur dé�nition à des situations présentant deux ouplus de deux échantillons
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Pourquoi des modèles nonparamétriques ?
Lois paramétriques → souplesse dans les calculs
L'usage de ces lois suppose que les données suivent de près lesdistributions représentées par les lois en question
Tout le monde y croit [à la loi de Gauss] car lesexpérimentateurs s'imaginent que c'est un théorème demathématique, et les mathématiciens que c'est un faitexpérimental.
Poincaré
Ce n'est pas forcément le cas et si les données ne véri�ent pasles hypothèses de base, la valeur de la statistique de test peutêtre éloignée de la vraie valeur de test et la validité du testdouteuse
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Transformation des données
En non paramétrique, très souvent, transformation des valeursUtilisation du rang de la valeur dans la série de données
La transformation
Echantillon aléatoire de valeurs quantitativesx1, . . . , xi, . . . , xn
Variable aléatoire R telle que ri est un entier entre 1 et n quireprésente la position de la valeur xi parmi les x1, . . . , xn
On remplace les valeurs xi par leur rang ri dans la sérieordonnée
La transformation en rang est donc une transformation ordinale
Exemple 1 : Soit les valeurs :1.1 2.3 1.4 1.7 0.9 1.8 2.1
La transformation en rang donne la série :2 7 3 4 1 5 6
Exemple 2 : Soit les valeurs :1.1 2.3 1.4 1.4 0.9 1.8 2.1
En attribuant aux ex aequos un rang moyen, latransformation donne la série :
2 7 3.5 3.5 1 5 6
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Transformation des données
Hypothèse de continuité
Hypothèse nécessaire pour la suite
Pas d'égalité entre rangs
En cas d'ex aequos : mettre des rangs moyens, distribuer les exaequos par randomisation, . . .
Situation di�cile sans solution univoque
Exemple 1 : Soit les valeurs :1.1 2.3 1.4 1.7 0.9 1.8 2.1
La transformation en rang donne la série :2 7 3 4 1 5 6
Exemple 2 : Soit les valeurs :1.1 2.3 1.4 1.4 0.9 1.8 2.1
En attribuant aux ex aequos un rang moyen, latransformation donne la série :
2 7 3.5 3.5 1 5 6
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Transformation des données
Exemple 1 : Soit les valeurs :1.1 2.3 1.4 1.7 0.9 1.8 2.1
La transformation en rang donne la série :2 7 3 4 1 5 6
Exemple 2 : Soit les valeurs :1.1 2.3 1.4 1.4 0.9 1.8 2.1
En attribuant aux ex aequos un rang moyen, latransformation donne la série :
2 7 3.5 3.5 1 5 6
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Intérêts de la transformation en rang
Perte d'information ⇒ gaspillage ?
Rangs peu sensibles aux valeurs des données
Dans la série ordonnée x1, . . . , xi, . . . , xn, quelle que soit lavaleur d'une mesure xi comprise entre la valeur xi−1 et lavaleur xi+1, son rang sera le même
In�uence des données extrêmes voire aberrantes limitée
Même si la distribution des xi change un peu, celle des rangsest pas ou peu modi�ée
La transformation en rang est donc stable, robuste
Une modi�cation même importante des valeurs de départ aune in�uence faible voire nulle sur les valeurs issues de latransformation et sur la statistique de test qui en découle
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Intérêts de la transformation en rang
Exemple
Soit xi : 10 15 9 8 7 18 100Rangs : 4 5 3 2 1 6 7On ordonne la série et on obtientxi : 7 8 9 10 15 18 100 et rangs : 1 2 3 4 5 6 7x4 = 10
Si, dans la série ordonnée, x4 = 14, alors le rang reste r4 = 4∀x4 ∈]9; 15[, r4 = 4
x7 = 100, r7 = 7Si x7 = 1000 la valeur de r7 est toujours 7Avec x7 = 100, la moyenne de la série vaut 23,9Avec x7 = 1000, la moyenne de la série vaut 152,4
Même si la distribution des xi change un peu, celle des rangsest pas ou peu modi�éeLa transformation en rang est donc stable, robusteUne modi�cation même importante des valeurs de départ aune in�uence faible voire nulle sur les valeurs issues de latransformation et sur la statistique de test qui en découle
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Intérêts de la transformation en rang
Même si la distribution des xi change un peu, celle des rangsest pas ou peu modi�ée
La transformation en rang est donc stable, robuste
Une modi�cation même importante des valeurs de départ aune in�uence faible voire nulle sur les valeurs issues de latransformation et sur la statistique de test qui en découle
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Loi de la variable aléatoire R
Le vecteur r1, . . . , rn est équidistribué sur l'ensemble despermutations de {1, . . . , n}
Exemple de n = 3
(1, 2, 3) 16 (2, 1, 3) 1
6 (3, 1, 2) 16
(1, 3, 2) 16 (2, 3, 1) 1
6 (3, 2, 1) 16
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Loi de la variable aléatoire R
Des calculs simples montrent
E(R) =1
n
n∑1
ri =1
2(n+ 1)
1
n
n∑1
r2i =1
6(n+ 1)(2n+ 1)
V ar(R) =1
n
n∑1
(ri − E(R))2 =1
n
n∑1
r2i − E(R)2 =1
12(n2 − 1)
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Loi de la variable aléatoire R
Démonstration de E(R) = 1n
∑n1 ri = 1
2(n+ 1)∑ri = 1 + 2 + ⋅ ⋅ ⋅+ (n− 1) + n∑ri = n + (n− 1) + ⋅ ⋅ ⋅+ 2 + 1
2∑ri = (n+ 1) + (n+ 1) + ⋅ ⋅ ⋅+ (n+ 1) + (n+ 1)︸ ︷︷ ︸
n termes
2∑ri = n ⋅ (n+ 1)∑ri = 1
2n ⋅ (n+ 1)
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Conditions d'application d'un test nonparamétrique
Une seule hypothèse sur les distributions des échantillons
Les échantillons suivent la même loi de distribution, quelle quesoit cette loiPas obligatoire ni nécessaire de préciser cette loi,contrairement aux tests paramétriquesHypothèse beaucoup moins forte que celles des testsparamétriques
Mais si la forme exacte de la loi importe peu, les distributionsdes échantillons doivent (généralement) avoir la même forme,et donc notamment même variance
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Puissance des tests nonparamétriques
Moins puissants que leurs équivalents paramétriques lorsque laloi des données est gaussienne
La perte de puissance est de l'ordre de 2 à 5 % selon lessituations
Presque systématiquement plus puissants que les testsparamétriques si la distribution des données est non gaussienne
Intérêt dans le domaine médical
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques
Echantillons de petite taille
Di�cile de véri�er la normalité des distributions si leséchantillons sont petits
→ utiliser un test nonparamétrique
Si n grand, les tests de normalité rejettent assez facilement lanormalité
→ utiliser un test nonparamétrique aussi !
Intérêt dans le domaine médical
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Où en sommes nous ?
1 Notions de base
2 Comparaison de deux séries continuesLa situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
3 Coe�cient de corrélation nonparamétrique
4 Autres situations et autres tests
5 Un mini TP EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Comparaison de 2 séries continues : la situation
La formulation "paramétrique" du problème
Deux échantillons de taille ni, i ∈ {1, 2}Une variable résultat X quantitative (continue ou discrète)
1 Moyenne m1 et variance s21 dans l'échantillon 12 Moyenne m2 et variance s22 dans l'échantillon 2
Question : la moyenne de X, �1, dans la population dont estextrait l'échantillon 1 est-elle di�érente de la moyenne �2 dansla population dont est extrait l'échantillon 2 ?
La réponse nonparamétrique au problème
Deux tests parfaitement équivalents1 Le test de Wilcoxon (ne pas confondre avec le test des rangs
signés de Wilcoxon)2 Le test de Mann-Whitney
Le test de la médiane
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Comparaison de 2 séries continues : la situation
La réponse paramétrique au problème
Réponse en 3 cas1 n1 et n2 sont supérieurs à 30 : z = m1−m2√
s21n1
+s22n2
2 n1 ou n2 est inférieur à 30 et variances homogènes (test) :t = m1−m2
S2√
1n1
+ 1n2
3 n1 ou n2 est inférieur à 30 et variances inhomogènes (test) :test spéci�que (Welch)
La réponse nonparamétrique au problème
Deux tests parfaitement équivalents1 Le test de Wilcoxon (ne pas confondre avec le test des rangs
signés de Wilcoxon)2 Le test de Mann-Whitney
Le test de la médiane
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Comparaison de 2 séries continues : la situation
La formulation "nonparamétrique" du problème
Deux échantillons de taille ni, i ∈ {1, 2}Une variable résultat X quantitative (continue ou discrète)
Les données ne suivent pas une loi de Gauss
Remarque : une distribution gaussienne n'interdit pasl'utilisation de tests nonparamétriques
Question : Les deux groupes di�èrent-ils par leur position ?
Les valeurs de l'un des deux échantillons sont-elles plus élevéesque celles de l'autre échantillon ?Recherche d'un décalage de la distribution entre les deuxgroupes, ∀ la forme de la distributionDécalage sur l'ensemble des valeurs d'un groupe et nondi�érence de moyennes
La réponse nonparamétrique au problème
Deux tests parfaitement équivalents1 Le test de Wilcoxon (ne pas confondre avec le test des rangs
signés de Wilcoxon)2 Le test de Mann-Whitney
Le test de la médiane
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Comparaison de 2 séries continues : la situation
La réponse nonparamétrique au problème
Deux tests parfaitement équivalents1 Le test de Wilcoxon (ne pas confondre avec le test des rangs
signés de Wilcoxon)2 Le test de Mann-Whitney
Le test de la médiane
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Les hypothèses du test de Wilcoxon
L'utilisation du test de Wilcoxon fait les hypothèses suivantes :
1 - Echantillons aléatoires des populations
2 - Indépendance des données dans chaque échantillon
3 - Indépendance des deux échantillons
4 - Une di�érence entre les deux échantillons ne concerne que leparamètre de position
1 Variances homogènes entre les deux2 Même forme3 Décalage de l'une par rapport à l'autre d'une valeur �
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Les principes du test de Wilcoxon
Deux échantillons aléatoires A et BTaille respective n et mMesure x1, . . . , xi, . . . , xn et xn+1, . . . , xj , . . . , xn+m
Deux distributions issues de deux populationsFonction de répartition F (X) et G(X)Pas nécessaire de spéci�er F ou GG(X) est-elle une translation de F (X) telle queG(X) = F (X) + � ?Comparer les deux distributions ⇒ � = 0 ou non
La statistique W est la somme des rangs de l'un des deuxgroupes dans la série combinée, par exemple Ri(A)
WA =∑A
Ri(A)
On aE(WA) = 1
2n(n+m+ 1)
V ar(WA) = nm(n+m+112 )
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Les principes du test de Wilcoxon
Le test utilise les rangs des valeurs dans les échantillonsfusionnésOn calcule des sommes de rangsSous H0, les rangs sont similaires entre les deux groupesLes hypothèsesH0 F = GH1 F ∕= G, F ≺ G ou F ≻ G (en distribution)
La statistique W est la somme des rangs de l'un des deuxgroupes dans la série combinée, par exemple Ri(A)
WA =∑A
Ri(A)
On aE(WA) = 1
2n(n+m+ 1)
V ar(WA) = nm(n+m+112 )
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Les principes du test de Wilcoxon
La statistique W est la somme des rangs de l'un des deuxgroupes dans la série combinée, par exemple Ri(A)
WA =∑A
Ri(A)
On aE(WA) = 1
2n(n+m+ 1)
V ar(WA) = nm(n+m+112 )
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Le calcul amusant de l'espérance de WA
La plus petite somme∑
ARi(A) possible
A BObs. Rang Obs. Rang
1 1. . .
n n1 n+ 1
. . .m n+m∑
= 12n(n+ 1)
E(WA) est la moyenne des deux bornes (symétrie)
E(WA) = 12
[12n(n+ 1) + 1
2n(n+ 1) + nm]
E(WA) = 12 [n(n+ 1) + nm]
E(WA) = 12n(n+m+ 1)
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Le calcul amusant de l'espérance de WA
La plus grande somme possible
A B TotalObs. Rang Obs. Rang Rang
1 1 1. . . . . .
m m m1 m+ 1 m+ 1
. . . . . .n n+m n+m∑
=∑
T −∑
Y
∑Y = 1
2m(m+ 1)∑
T = 12(n+m)(n+m+ 1)∑
= 12n(n+m+ 1) + 1
2mn+ 12m(m+ 1)− 1
2m(m+ 1)∑= 1
2n(n+ 1) + nm
E(WA) est la moyenne des deux bornes (symétrie)
E(WA) = 12
[12n(n+ 1) + 1
2n(n+ 1) + nm]
E(WA) = 12 [n(n+ 1) + nm]
E(WA) = 12n(n+m+ 1)
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Le calcul amusant de l'espérance de WA
E(WA) est la moyenne des deux bornes (symétrie)
E(WA) = 12
[12n(n+ 1) + 1
2n(n+ 1) + nm]
E(WA) = 12 [n(n+ 1) + nm]
E(WA) = 12n(n+m+ 1)
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
La statistique de test
On a donc WA =∑
ARi(A) avec E(WA) = 12n(n+m+ 1)
et V ar(WA) = nm(n+m+112 )
Statistique de test par approximation normale
z =WA − E(WA)√
V ar(WA)=WA − 1
2n(n+m+ 1)√nm(n+m+1
12 )∼ N (0; 1)
Approximation correcte pour des e�ectifs aussi faibles queN = 6Correction de continuité z =
WA+ 12−E(WA)√
V ar(WA)
Test exact, tabulation
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
La tabulation du Wilcoxon
Pour � = 5%
n1 n23 4 5 6
3 5.5 5.9 6.4 7.14 9.9 10.8 11.6 12.45 15.4 16.6 17.8 18.96 22.1 23.4 24.9 26.4
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Un exemple
Un groupe de rats ⇒ toxique A et un groupe de rats ⇒toxique BMesure de l'e�et des toxiques sur un paramètre sanguinPour A : 10, 2 10, 3 14, 0 11, 0 12, 5Pour B : 13, 1 13, 9 14, 5 14, 8 15, 1On pose H0 et H1
On interclasse les deux séries de valeurs :
10, 2 10, 3 11, 0 12, 5 13, 1 13, 9 14, 0 14, 5 14, 8 15, 1A A A A B B A B B B
Somme des rangs de l'ensemble de deux groupes :(n+m)(n+m+ 1)/2, soit ici 55Les valeurs de WA et WB symétriques par rapport à la moitiéde cette somme des rangsOn véri�e que 17 + 38 = 55
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Un exemple
10, 2 10, 3 11, 0 12, 5 13, 1 13, 9 14, 0 14, 5 14, 8 15, 1A A A A B B A B B B1 2 3 4 5 6 7 8 9 10
WA = 1 + 2 + 3 + 4 + 7 = 17WB = 5 + 6 + 8 + 9 + 10 = 38
WA → z =17− 1
25(5+5+1)√
5⋅5( 5+5+112
)= 17−27,5√
22,9= −2, 193
WB → z =38− 1
25(5+5+1)√
5⋅5( 5+5+112
)= 2, 193
Pr(∣z∣ ≥ 2, 193) = 0, 028On rejette donc l'hypothèse nulle d'égalité des distributions
Somme des rangs de l'ensemble de deux groupes :(n+m)(n+m+ 1)/2, soit ici 55Les valeurs de WA et WB symétriques par rapport à la moitiéde cette somme des rangsOn véri�e que 17 + 38 = 55
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Un exemple
Somme des rangs de l'ensemble de deux groupes :(n+m)(n+m+ 1)/2, soit ici 55
Les valeurs de WA et WB symétriques par rapport à la moitiéde cette somme des rangs
On véri�e que 17 + 38 = 55
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Le test de Wilcoxon en présence d'ex-aequo
En présence d'ex-aequo → modi�er la statistique de test
la valeur de E(W ) ne change pasla variance de W doit elle être diminuéeOn regroupe, dans chaque groupe de valeurs égales, les sujetsayant les mêmes valeursOn obtient alors k paquets de taille t ou t est le nombred'ex-aequo de chaque groupe k
Correction de la variance : V ar(W ) = nm(n+m+1)12 −Q
Q = n⋅m∑T
12⋅(n+m)(n+m−1) avec∑T =
∑ki=1(t
3i − ti)
En l'absence d'ex-aequo, t3 − t = 0Exemple : 2 groupes de 2 et 3 ex-aequo →∑
k=2 T = 23 − 2 + 33 − 3 = 30
Cette correction est la plupart du temps réalisée automatiquementpar les logiciels
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Le test de Wilcoxon en présence d'ex-aequo
Correction de la variance : V ar(W ) = nm(n+m+1)12 −Q
Q = n⋅m∑T
12⋅(n+m)(n+m−1) avec∑T =
∑ki=1(t
3i − ti)
En l'absence d'ex-aequo, t3 − t = 0
Exemple : 2 groupes de 2 et 3 ex-aequo →∑k=2 T = 23 − 2 + 33 − 3 = 30
Cette correction est la plupart du temps réalisée automatiquementpar les logiciels
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
On tra�que l'exemple
Un groupe de rats ⇒ toxique A et un groupe de rats ⇒toxique BMesure de l'e�et des toxiques sur un paramètre sanguinPour A : 10, 2 10, 3 14, 5 11, 0 12, 5Pour B : 13, 1 13, 9 14, 5 14, 8 15, 1On pose H0 et H1
On interclasse les deux séries de valeurs :
10, 2 10, 3 11, 0 12, 5 13, 1 13, 9 14, 5 14, 5 14, 8 15, 1A A A A B B A B B B
10, 2 10, 3 11, 0 12, 5 13, 1 13, 9 14, 5 14, 0 14, 8 15, 1A A A A B B A B B B1 2 3 4 5 6 7, 5 7, 5 9 10
WA = 1 + 2 + 3 + 4 + 7, 5 = 17, 5WB = 5 + 6 + 7, 5 + 9 + 10 = 37, 5
On a 1 paquet de taille 2 :∑T = 23 − 2 = 6
Q = n⋅m∑T
12⋅(n+m)(n+m−1) = 5⋅5⋅612⋅(5+5)⋅(5+5+1) = 5
44 = 0, 114
V ar(WA) = nm(n+m+112 )−Q = 5 ⋅ 55+5+1
12 − 0, 114 = 22, 79
z =17,5− 1
25(5+5+1)√22,79
= −2, 095
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
On tra�que l'exemple
10, 2 10, 3 11, 0 12, 5 13, 1 13, 9 14, 5 14, 0 14, 8 15, 1A A A A B B A B B B1 2 3 4 5 6 7, 5 7, 5 9 10
WA = 1 + 2 + 3 + 4 + 7, 5 = 17, 5WB = 5 + 6 + 7, 5 + 9 + 10 = 37, 5
On a 1 paquet de taille 2 :∑T = 23 − 2 = 6
Q = n⋅m∑T
12⋅(n+m)(n+m−1) = 5⋅5⋅612⋅(5+5)⋅(5+5+1) = 5
44 = 0, 114
V ar(WA) = nm(n+m+112 )−Q = 5 ⋅ 55+5+1
12 − 0, 114 = 22, 79
z =17,5− 1
25(5+5+1)√22,79
= −2, 095
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Les principes du test de Mann-Whitney
Strictement équivalent au Wilcoxon
Hypothèses identiques au Wilcoxon
Comme le Wilcoxon, le Mann-Whitney est symétrique
Idée un peu di�érente de celle du Wilcoxon
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Le principe du test de Mann-Whitney
Fusion des 2 échantillonsNoter le groupe d'origine de chaque valeurDé�nir une statistique de test en comparant 2 à 2 les xi et xj
Variable indicatrice Dij :
Dij =
{1 , si yj < xi0 , si yj > xi
avec i = {1, . . . , n} et j = {n+ 1, . . . , n+m}Statistique U :
U =
n∑i=1
n+m∑j=n+1
Dij
On peut montrer que :
E(U) = nm2 et V ar(U) = nm(n+m+1)
12
D'où
z =U − nm
2√nm(n+m+1)
12
et z ∼ N (0; 1)
Approximation correcte pour des e�ectifs aussi faibles queN = 6Correction de continuité
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Le principe du test de Mann-Whitney
On peut montrer que :
E(U) = nm2 et V ar(U) = nm(n+m+1)
12
D'où
z =U − nm
2√nm(n+m+1)
12
et z ∼ N (0; 1)
Approximation correcte pour des e�ectifs aussi faibles queN = 6
Correction de continuité
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Le même exemple
Un groupe de rats ⇒ toxique A et un groupe de rats ⇒toxique BMesure de l'e�et des toxiques sur un paramètre sanguinPour A : 10, 2 10, 3 14, 0 11, 0 12, 5Pour B : 13, 1 13, 9 14, 5 14, 8 15, 1On pose H0 et H1
On interclasse les deux séries de valeurs :
10, 2 10, 3 11, 0 12, 5 13, 1 13, 9 14, 0 14, 5 14, 8 15, 1A A A A B B A B B B
Remarque
Le test est parfaitement symétriqueCalculons la valeur de UBA en cherchant les valeurs de Binférieures aux valeurs de AUBA = 2
z =2− 5⋅5
2√5⋅5(5+5+1)
12
= −2, 193
On passe de U à W par U = WA − n(n+1)2 = WB − m(m+1)
2
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Le même exemple
10, 2 10, 3 11, 0 12, 5 13, 1 13, 9 14, 0 14, 5 14, 8 15, 1A A A A B B A B B B
Calculons la valeur de UAB en cherchant les valeurs de Ainférieures aux valeurs de B
UAB = 5 + 5 + 5 + 5 + 3 = 23
z =23− 5⋅5
2√5⋅5(5+5+1)
12
= 2, 193
Remarque
Le test est parfaitement symétriqueCalculons la valeur de UBA en cherchant les valeurs de Binférieures aux valeurs de AUBA = 2
z =2− 5⋅5
2√5⋅5(5+5+1)
12
= −2, 193
On passe de U à W par U = WA − n(n+1)2 = WB − m(m+1)
2
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Le même exemple
Remarque
Le test est parfaitement symétrique
Calculons la valeur de UBA en cherchant les valeurs de Binférieures aux valeurs de A
UBA = 2
z =2− 5⋅5
2√5⋅5(5+5+1)
12
= −2, 193
On passe de U à W par U = WA − n(n+1)2 = WB − m(m+1)
2
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Le test de Mann-Whitney en présence d'ex-aequo
Même procédure que pour le test de Wilcoxon (même calcul de Q)
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Le principe du test de la médiane
Deux distributions continues de formes quelconques maisidentiques di�èrent-elles par leur paramètre de tendancecentrale ?Deux échantillons sont-ils tirés de deux populations ayantmême médiane p50(A) = p50(B)Hypothèses
H0 : p50(A) = p50(B)H1 : p50(A) ∕= p50(B)
Ou en unilatéralH0 : p50(A) ≥ p50(B)H1 : p50(A) < p50(B)
Fusion des deux séries de valeurs en un seul groupe dont ondétermine la médianeCompte des valeurs de part et d'autre de la médiane commune
Groupe A Groupe B
> p50(.) x z< p50(.) y t
Sous H0, x = y et z = tRéalisation pratique : test du �2 ou test de Fisher
Remarque : Test peu puissant mais très robuste aux écarts à lanormalité
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Le principe du test de la médiane
Fusion des deux séries de valeurs en un seul groupe dont ondétermine la médiane
Compte des valeurs de part et d'autre de la médiane commune
Groupe A Groupe B
> p50(.) x z< p50(.) y t
Sous H0, x = y et z = t
Réalisation pratique : test du �2 ou test de Fisher
Remarque : Test peu puissant mais très robuste aux écarts à lanormalité
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Un premier exemple
Durées de séjours de 67 séjours de type A et de 88 séjours detype B
Médiane commune des durées de séjours à 11 jours
Tableau des nombres de séjours :
A B Total
> 11 30 50 80< 11 37 38 75
Total 67 88 155
Test de �2 : 2, 21 avec p = 0, 1372
On ne rejette pas l'hypothèse d'égalité des médianes
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Un second exemple
Deux groupes expérimentauxPour A : 0 1 2 3 4 17Pour B : 2 6 7 8 9 15p50(.) = 5
A B Total
> 5 1 5 6< 5 5 1 6
Total 6 6 12
Fisher exact bilatéral : p = 0, 0801
Fisher exact unilatéral : p = 0, 0400�2 : p = 0, 021Mann-Whitney : p = 0, 128.Mann-Whitney exact : p = 0, 143Test de Student à variances égales : p = 0, 31Diversité conclusions → prudence dans le choix d'un teststatistique !
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Un second exemple
Fisher exact unilatéral : p = 0, 0400
�2 : p = 0, 021
Mann-Whitney : p = 0, 128.
Mann-Whitney exact : p = 0, 143
Test de Student à variances égales : p = 0, 31
Diversité conclusions → prudence dans le choix d'un teststatistique !
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Comparaison de deux séries appariées
Lorsque ce nombre de répétition est de 2, on utilise
Comparaison de deux séries de valeurs continues ⇒ sériesindépendantes
Répétition de la mesure d'intérêt sur les sujets de l'expérience⇒ séries appariées
Cas paramétrique → test de Student pour séries appariées
Deux tests nonparamétriques1 Le test des signes pour séries appariées2 Le test des rangs signés de Wilcoxon
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Le test des signes pour séries appariées
n couples de la forme (xi, yi)
X variable aléatoire associée à la première mesure et Yassociée à la seconde
Variable aléatoire D qui est la di�érence D = X − Yn valeurs di = xi − yiSi les deux séries ne di�èrent pas le nombre de di�érencespositives est le même que le nombre de di�érences négatives etla médiane des di�érences sera alors p50(D) = 0En pratique
1 Pour l'ensemble de la série on forme donc toutes les di�érences2 On comptabilise le nombre de valeurs positives (ou négatives
selon le contexte)3 H0 → loi binomiale ℬ(n; 0, 5) pour calculer la probabilité
d'avoir ce nombre de valeurs positives
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Un exemple
Traitement visant à diminuer la valeur d'un paramètre sanguinn = 6 sujets auxquels on applique le traitement
mesure 1 8, 4 8, 8 8, 2 8, 5 9, 3 9, 8mesure 2 7, 2 8, 1 6, 5 10, 6 9, 0 7, 4diffrence m1 −m2 + + + − + +
Si le traitement est e�cace, on devrait avoir plus de valeurspositives que de valeurs négativesFormulation unilatérale du testOn tabule la valeur de la loi binomiale ℬ(n; 0, 5)Remarque : Le test ne prend pas en compte l'importance de ladi�érence entre les deux mesures faites sur chaque sujet
Le test ne prend pas en compte l'importance de la di�érenceentre les deux mesures faites sur chaque sujetPour le quatrième couple de valeurs, la deuxième mesureaurait pu être 8,6 ou 18,9, le résultat aurait été le même alorsque pour le patient les deux situations ne sont pas du toutcomparablesOn véri�e si la médiane des di�érences di�ère de 0 ou pas, etceci quelle que soit l'ampleur des di�érencesLe test porte sur la médiane des di�érences pas sur ladi�érence des médianes
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Un exemple
K di�érences positivesPr(K = 0) = C0
6 ⋅ p6 = 0,0156Pr(K = 1) = C1
6 ⋅ p6 = 0,0938Pr(K = 2) = C2
6 ⋅ p6 = 0,2344Pr(K = 3) = C3
6 ⋅ p6 = 0,3125Pr(K = 4) = C4
6 ⋅ p6 = 0,2344Pr(K = 5) = C5
6 ⋅ p6 = 0,0938Pr(K = 6) = C6
6 ⋅ p6 = 0,0156
On observe k = 5 → Pr(S ≥ 5) = 0, 1094On accepte H0
Le test ne prend pas en compte l'importance de la di�érenceentre les deux mesures faites sur chaque sujetPour le quatrième couple de valeurs, la deuxième mesureaurait pu être 8,6 ou 18,9, le résultat aurait été le même alorsque pour le patient les deux situations ne sont pas du toutcomparablesOn véri�e si la médiane des di�érences di�ère de 0 ou pas, etceci quelle que soit l'ampleur des di�érencesLe test porte sur la médiane des di�érences pas sur ladi�érence des médianes
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Un exemple
Le test ne prend pas en compte l'importance de la di�érenceentre les deux mesures faites sur chaque sujet
Pour le quatrième couple de valeurs, la deuxième mesureaurait pu être 8,6 ou 18,9, le résultat aurait été le même alorsque pour le patient les deux situations ne sont pas du toutcomparables
On véri�e si la médiane des di�érences di�ère de 0 ou pas, etceci quelle que soit l'ampleur des di�érences
Le test porte sur la médiane des di�érences pas sur ladi�érence des médianes
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Le test des rangs signés de Wilcoxon
Le test des signes précédent ne prend pas en comptel'importance des di�érences entre valeurs d'un même coupleLe test des rangs signés de Wilcoxon rajoute cette information
Test plus puissantCeci suppose donc que les valeurs sont continues et passeulement ordinalesDi�érence entre rangs n'est pas pertinente
Sous H0, N = P , donc
E(T ) =n(n+ 1)
4et
V ar(T ) =n(n+ 1)(2n+ 1)
24On en déduit une statistique asymptotique :
z =T − n(n+1)
4√n(n+1)(2n+1)
24
et z ⇝ N (0, 1)
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Le test des rangs signés de Wilcoxon
1 - On calcule toutes les di�érences entre les valeurs dechaque couple de mesure
2 - On élimine les di�érences nulles3 - On prend les valeurs absolues des di�érences mais on
retient si la di�érence d'origine est positive ounégative
4 - On classe les valeurs absolues des di�érences de façoncroissante
5 - On calcule la somme P des rangs des valeurs positiveset la somme N des rangs des valeurs négatives
6 - On dé�nit T = min(P,N).
Sous H0, N = P , donc
E(T ) =n(n+ 1)
4et
V ar(T ) =n(n+ 1)(2n+ 1)
24On en déduit une statistique asymptotique :
z =T − n(n+1)
4√n(n+1)(2n+1)
24
et z ⇝ N (0, 1)
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Le test des rangs signés de Wilcoxon
Sous H0, N = P , donc
E(T ) =n(n+ 1)
4
et
V ar(T ) =n(n+ 1)(2n+ 1)
24
On en déduit une statistique asymptotique :
z =T − n(n+1)
4√n(n+1)(2n+1)
24
et z ⇝ N (0, 1)
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Un exemple
Soit une série de 8 couples de valeurs, dosage biologique avant etaprès l'application d'un traitement
A B DB−A ∣DB−A∣ rang P N
12 10 -2 2 3,5 3,511 12 1 1 1,5 1,514 11 -3 3 5 516 10 -6 6 8 812 8 -4 4 6 615 10 -5 5 7 718 20 2 2 3,5 3,513 12 -1 1 1,5 1,5∑
P = 5∑N = 31
On déduit de ces valeurs que : T = min(5; 31) = 5 et donc :
z =5− 8⋅9
4√8⋅9⋅(2⋅9+1)
24
= −1, 82
En regardant dans la table de la loi normale, on note que∣z∣ < z0,975. Donc on ne rejette pas H0.
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées
Un exemple
On déduit de ces valeurs que : T = min(5; 31) = 5 et donc :
z =5− 8⋅9
4√8⋅9⋅(2⋅9+1)
24
= −1, 82
En regardant dans la table de la loi normale, on note que∣z∣ < z0,975. Donc on ne rejette pas H0.
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Où en sommes nous ?
1 Notions de base
2 Comparaison de deux séries continues
3 Coe�cient de corrélation nonparamétrique
4 Autres situations et autres tests
5 Un mini TP
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Liaison entre deux variables quantitatives
Classiquement, on quanti�e l'intensité d'une relation entre deuxvariables quantitatives par le coe�cient de corrélation de Pearson
Dans le cas nonparamétrique il existe un équivalent basé surles rangs
Coe�cient de corrélation nonparamétrique de Spearman
Il s'agit en fait d'un coe�cient de corrélation calculé enremplaçant les valeurs d'origine par les rangs
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Coe�cient de corrélation de Spearman
On dispose de n couples de valeurs quantitatives, relevées sur nsujets
Variables aléatoires X et YChaque sujet présente une réalisation des 2 variables aléatoires(xi, yi), avec i = 1, ⋅ ⋅ ⋅ , nOn remplace chaque valeur xi par son rang ri dans la série desn mesures de la variable XOn remplace chaque valeur yi par son rang si dans la série desn mesures de la variable Y(xi, yi) remplacé par (ri, si)
Le coe�cient de Spearman suit le même principe que le coe�cientde Pearson : rapport de la covariance des deux variables par leproduit des racines des variances de chaque variable �p = CovXY
�X�Y
�p =
∑ni=1(Xi − X)(Yi − Y )[∑n
i=1 (Xi − X)2∑n
i=1 (Yi − Y )2]1/2
En substituant dans cette formule les rangs aux valeurs des X etdes Y , on obtient le coe�cient de corrélation de Spearman �s, soit :
�s =12∑n
i=1(ri − r)(si − s)n(n2 − 1)
(1)
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Coe�cient de corrélation de Spearman
On a∑n
i=1 ri =∑n
i=1 si =∑n
i=1 i = n(n+1)2
Rangs moyens dans chaque série : r = s = n+12
On a les égalités suivantes :
V ar(R) = V ar(S) =n2 − 1
12n∑i=1
(ri − r)2 =
n∑i=1
(si − s)2 =n(n2 − 1)
12
Le coe�cient de Spearman suit le même principe que le coe�cientde Pearson : rapport de la covariance des deux variables par leproduit des racines des variances de chaque variable �p = CovXY
�X�Y
�p =
∑ni=1(Xi − X)(Yi − Y )[∑n
i=1 (Xi − X)2∑n
i=1 (Yi − Y )2]1/2
En substituant dans cette formule les rangs aux valeurs des X etdes Y , on obtient le coe�cient de corrélation de Spearman �s, soit :
�s =12∑n
i=1(ri − r)(si − s)n(n2 − 1)
(1)
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Coe�cient de corrélation de Spearman
Le coe�cient de Spearman suit le même principe que le coe�cientde Pearson : rapport de la covariance des deux variables par leproduit des racines des variances de chaque variable �p = CovXY
�X�Y
�p =
∑ni=1(Xi − X)(Yi − Y )[∑n
i=1 (Xi − X)2∑n
i=1 (Yi − Y )2]1/2
En substituant dans cette formule les rangs aux valeurs des X etdes Y , on obtient le coe�cient de corrélation de Spearman �s, soit :
�s =12∑n
i=1(ri − r)(si − s)n(n2 − 1)
(1)
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Coe�cient de corrélation de Spearman : simpli�cations
On peut développer la formule (1) :
�s =12[∑n
i=1 risi − (1/4)n2(n+ 1)2]
n(n2 − 1)
Ce qui donne une première forme courante du coe�cient decorrélation de Spearman :
�s =12∑n
i=1 risin(n2 − 1)
− 3n(n+ 1)
(n− 1)
∃ encore une formulation plus courante (simplicité)
Notonsd'abord : D = R− S
di = ri − si = (ri − r)− (si − s)= ri − si − r + s= ri − si
Si on fait la somme des carrés des di�érences, on arrive à :n∑i=1
d2i =n∑i=1
(ri − r)2 +n∑i=1
(si − s)2 − 2n∑i=1
(ri − r)(si − s)
ce qui permet, après remplacement dans l'équation (1) de réécrire�s :
�s = 1−6∑n
i=1 d2i
n(n2 − 1)
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Coe�cient de corrélation de Spearman : simpli�cations
Notons d'abord : D = R− S
di = ri − si = (ri − r)− (si − s)= ri − si − r + s= ri − si
Si on fait la somme des carrés des di�érences, on arrive à :
n∑i=1
d2i =
n∑i=1
(ri − r)2 +
n∑i=1
(si − s)2 − 2
n∑i=1
(ri − r)(si − s)
ce qui permet, après remplacement dans l'équation (1) de réécrire�s :
�s = 1−6∑n
i=1 d2i
n(n2 − 1)
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Coe�cient de corrélation de Spearman : remarques
�p et �s ont même interprétation ou presque . . .Quanti�e la relation linéaire entre les rangs des deux variablesSi la relation entre les deux variables est régulièrementcroissante mais curviligne
1 �s aura une valeur très proche de 12 �p sera moins proche de 1 que �s, car il quanti�e la part
linéaire de la relation entre les deux variables d'origine
Si indépendance entre les deux variables X et Y , �s = 0Attention, le contraire n'est pas vrai !�s = 0 ne permet pas de conclure que les deux variables sontindépendantes
Comme �p, −1 ≤ �s ≤ 1Quand �s > 0 les rangs de Y augmentent quand les rangs deX augmententQuand �s < 0 les rangs de Y diminuent quand les rangs de Xaugmentent (ou l'inverse)
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Coe�cient de corrélation de Spearman : remarques
Si indépendance entre les deux variables X et Y , �s = 0
Attention, le contraire n'est pas vrai !�s = 0 ne permet pas de conclure que les deux variables sontindépendantes
Comme �p, −1 ≤ �s ≤ 1
Quand �s > 0 les rangs de Y augmentent quand les rangs deX augmententQuand �s < 0 les rangs de Y diminuent quand les rangs de Xaugmentent (ou l'inverse)
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Coe�cient de corrélation de Spearman : test
Test de �sH0 : �s ne di�ère pas de 0H1 : �s est di�érent de 0
Pour réaliser le test, on utilise le fait que :
E(�s∣H0) = 0
V ar(�s∣H0) =1
n− 1
z =r − E(�s∣H0)
V ar(�s∣H0)
=r − 0√
1n−1
= r√n− 1
La valeur de z suit une loi normale centrée réduite ce qui permet decalculer la valeur de p, la probabilité de rejeter l'hypothèse nulle
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Coe�cient de corrélation de Spearman : test
z =r − E(�s∣H0)
V ar(�s∣H0)
=r − 0√
1n−1
= r√n− 1
La valeur de z suit une loi normale centrée réduite ce qui permet decalculer la valeur de p, la probabilité de rejeter l'hypothèse nulle
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Un exemple
On dose chez des animaux la glycémie à deux temps di�érents eton souhaite savoir si les valeurs aux deux temps sont corrélées. Onobtient les valeurs des rangs suivantes :
H0 : �s = 0
�s = 1−6∑n
i=1D2i
n(n2 − 1)
Soit :
�s = 1− 6 ⋅ 34
9(92 − 1)= 0,717
On en déduit que :
z = 0,717√
8 = 2,028
Cette valeur est supérieure à celle d'une loi normale centrée réduiteau seuil de 97,5%. On rejette l'H0 : les deux séries de mesures sontcorrélées
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Un exemple
t1 t2 D D2
1 4 -3 92 1 1 13 5 -2 44 2 2 45 3 2 46 7 -1 17 8 -1 18 9 -1 19 6 3 9∑
= 0 34
H0 : �s = 0
�s = 1−6∑n
i=1D2i
n(n2 − 1)
Soit :
�s = 1− 6 ⋅ 34
9(92 − 1)= 0,717
On en déduit que :
z = 0,717√
8 = 2,028
Cette valeur est supérieure à celle d'une loi normale centrée réduiteau seuil de 97,5%. On rejette l'H0 : les deux séries de mesures sontcorrélées
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Un exemple
H0 : �s = 0
�s = 1−6∑n
i=1D2i
n(n2 − 1)
Soit :
�s = 1− 6 ⋅ 34
9(92 − 1)= 0,717
On en déduit que :
z = 0,717√
8 = 2,028
Cette valeur est supérieure à celle d'une loi normale centrée réduiteau seuil de 97,5%. On rejette l'H0 : les deux séries de mesures sontcorrélées
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Un autre exemple
2 paramètres de la coagulation : 2 protéines sanguines, corrélationattendue entre ces deux variables. On obtient les valeurs suivantes :
PA PB rangsA rangsB D D2
1,77 3,73 4 4 0 01,91 3,71 5 3 2 43,70 22,70 6 6 0 08,00 176,30 7 8 -1 10,98 3,74 2 5 -3 91,22 2,42 3 2 1 10,94 0,55 1 1 0 09,83 164,00 8 7 1 1∑
= 16
r = 1− 6⋅168(82−1) = 0,810
Le test z donne z = 0,810 ⋅√
7 = 1, 98On rejette H0 au seuil �=5%�p = 0, 968si x8,b = 27 alors �p = 0, 640 et �s = 0, 810
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Un autre exemple
r = 1− 6⋅168(82−1) = 0,810
Le test z donne z = 0,810 ⋅√
7 = 1, 98
On rejette H0 au seuil �=5%
�p = 0, 968
si x8,b = 27 alors �p = 0, 640 et �s = 0, 810
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Où en sommes nous ?
1 Notions de base
2 Comparaison de deux séries continues
3 Coe�cient de corrélation nonparamétrique
4 Autres situations et autres testsCas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
5 Un mini TP
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Le test des séquences
Le test des séquences = test des "runs"
Teste le caractère aléatoire d'une distributionExemple : répartition des hommes et des femmes dans une �led'attenteSoit n = 10 le nombre de sujet et nH = nF = 5
Un exemple de séquence extrême : alternance systématique
M F M F M F M F M F
Absence d'alternance :
M M M M M F F F F F
Ou encore : F F M M F M F F M M
Attention Le test des runs ne teste pas un écart à une valeur de référencedonc on ne sait pas si l'on s'éloigne beaucoup ou peu de lavaleur de référencepermet �seulement� de savoir si la répartition des valeursautour d'une valeur de référence présente une organisation nonaléatoire
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Le test des séquences
Une séquence ou run est une succession de un ou plusieurséléments identiques qui sont précédés et/ou suivi d'un symboledi�érent (alternance)⎧⎨⎩
A A A → 1 séquence sans alternance
B A A A B B → 3 séquences et 2 alternances
B B A A B A → 4 séquences et 3 alternances
La série est non-aléatoire si les séquences sont trop longues ou tropcourtes ou si le nombre d'alternances est trop petit ou trop grand
Attention Le test des runs ne teste pas un écart à une valeur de référencedonc on ne sait pas si l'on s'éloigne beaucoup ou peu de lavaleur de référencepermet �seulement� de savoir si la répartition des valeursautour d'une valeur de référence présente une organisation nonaléatoire
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Le test des séquences
Soit R la variable aléatoire associée au nombre observé r deséquencesOn peut calculer exactement la Pr(R = r)Calcul de la zone de rejet du test en cumulant les probabilitésdes nombres de séquences ayant une probabilité d'apparaîtreinférieure ou égale à celle que l'on a observéeFormules fastidieuse → tables ont été crééesTrès peu de logiciels proposent le test des séquences(Minitab)H0 : la suite est aléatoire et H1 : la suite n'est pas aléatoireRejet du caractère aléatoire de la série si le nombre deséquences trop faible ou trop grand
Attention Le test des runs ne teste pas un écart à une valeur de référencedonc on ne sait pas si l'on s'éloigne beaucoup ou peu de lavaleur de référencepermet �seulement� de savoir si la répartition des valeursautour d'une valeur de référence présente une organisation nonaléatoire
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Le test des séquences
Attention Le test des runs ne teste pas un écart à une valeur de référence
donc on ne sait pas si l'on s'éloigne beaucoup ou peu de lavaleur de référence
permet �seulement� de savoir si la répartition des valeursautour d'une valeur de référence présente une organisation nonaléatoire
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Une autre situation : la recherche de tendance
Devant une série de valeurs : tendance à la hausse ? à labaisse ?Di�érents tests : coe�cient de corrélation dePearson/SpearmanLe test des séquence ne prend pas complètement en comptel'organisation des donnéesIl ne tient pas compte d'une éventuelle tendance dans lesdonnéesPour les valeurs situées d'un même côté de la valeur deréférence, s'il y a des augmentations et des diminutions desvaleurs (tout en restant par exemple au dessus de la valeur deréférences), ces variations ne seront pas prise en compte
→ le test des séquences up or downExemple de la température du patient : valeurs répartiesaléatoirement autour de la moyenneMais on peut vouloir chercher une tendance à la baisse(guérison) ou à la hausse (e�et secondaire d'un médicamentou toxicité)On peut aussi vouloir chercher une organisation particulièredes données (valeurs cycliques) comme dans le cas des �èvresquartes dans le paludisme ou bien un rythme circadien pourcertaines hormones
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Une autre situation : la recherche de tendance
→ le test des séquences up or down
Exemple de la température du patient : valeurs répartiesaléatoirement autour de la moyenne
Mais on peut vouloir chercher une tendance à la baisse(guérison) ou à la hausse (e�et secondaire d'un médicamentou toxicité)
On peut aussi vouloir chercher une organisation particulièredes données (valeurs cycliques) comme dans le cas des �èvresquartes dans le paludisme ou bien un rythme circadien pourcertaines hormones
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Le test des signes
Comparer une série de valeurs à une valeur de référence,comme par exemple une moyenne théoriqueSoit un échantillon {x1, . . . , xn} issue d'une populationX est une variable aléatoire de fonction de répartition F (X)Exemple : une moyenne observée m di�ère-t-elle d'unemoyenne théorique � ?
H0 : m = �H1 : m ∕= �
Basé sur la loi binomiale
Zone de rejet du test : l'ensemble des valeurs de k telles que ksoit trop éloigné de n/2Pour un test bilatéral, on calcule
k′�/2∑k=0
Ckn ⋅ 0,5n ≤�
2(1)
etn∑
k=k′′�/2
Ckn ⋅ 0,5n ≤�
2(2)
On trouve k′ et k′′ les bornes de la zone de rejetOn rejette H0 quand k ≤ k′�/2 ou quand k ≥ k′′�/2.Test peu puissant mais très pratique
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Le test des signes
Si la moyenne des données ne di�ère pas de la moyennethéorique, la moitié des valeurs de la série se situera au-dessusde la moyenne théorique et l'autre moitié des valeurs setrouvera en dessoussous H0 : les données se répartissent de part et d'autre de lavaleur théorique de façon symétrique :Pr(X < �) = Pr(X > �) = 0, 50Si K est le nombre de valeurs au dessus de �, utiliser K pourtester H0
Zone de rejet du test : l'ensemble des valeurs de k telles que ksoit trop éloigné de n/2Pour un test bilatéral, on calcule
k′�/2∑k=0
Ckn ⋅ 0,5n ≤�
2(1)
etn∑
k=k′′�/2
Ckn ⋅ 0,5n ≤�
2(2)
On trouve k′ et k′′ les bornes de la zone de rejetOn rejette H0 quand k ≤ k′�/2 ou quand k ≥ k′′�/2.Test peu puissant mais très pratique
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Le test des signes
Pour chaque sujet, sous H0, la probabilité que x soit plusgrand (ou plus petit) que la médiane suit une loi de Bernoullide paramètre p = 0,5Sur l'ensemble de l'échantillon de taille n, sous H0, le nombrede sujets ayant une valeur supérieure à la médiane suit une loibinomiale ℬ(n; 0, 5)Pour chaque xi, on calcule xi − � et on retient le signe de ladi�érence. On obtient donc une série de valeurs positives (+)et négatives (-) qui donnent son nom au test des signes
Zone de rejet du test : l'ensemble des valeurs de k telles que ksoit trop éloigné de n/2Pour un test bilatéral, on calcule
k′�/2∑k=0
Ckn ⋅ 0,5n ≤�
2(1)
etn∑
k=k′′�/2
Ckn ⋅ 0,5n ≤�
2(2)
On trouve k′ et k′′ les bornes de la zone de rejetOn rejette H0 quand k ≤ k′�/2 ou quand k ≥ k′′�/2.Test peu puissant mais très pratique
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Le test des signes
Zone de rejet du test : l'ensemble des valeurs de k telles que ksoit trop éloigné de n/2
Pour un test bilatéral, on calcule
k′�/2∑k=0
Ckn ⋅ 0,5n ≤�
2(1)
etn∑
k=k′′�/2
Ckn ⋅ 0,5n ≤�
2(2)
On trouve k′ et k′′ les bornes de la zone de rejet
On rejette H0 quand k ≤ k′�/2 ou quand k ≥ k′′�/2.Test peu puissant mais très pratique
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
La situation
Dans les chapitres précédents1 Série unique de valeurs2 Deux séries de valeurs, éventuellement appariées
Test de Student sur trois groupes et plus ⇒ ANOVA
Comparaison nonparamétrique de plus de deux séries continues
1 Extension du test de la médiane2 ANOVA nonparamétrique à un facteur ⇒ test de
Kruskal-Wallis3 ANOVA nonparamétrique à deux facteurs ⇒ test de Friedman
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Extension du test de la médiane à plusieurs échantillons
Extension du test facile
Hypothèses
H0 : les groupes ont des médianes qui ne di�èrentpas
H1 : au moins un des groupes a une médiane quidi�ère des autres
Fusion des échantillons et calcul d'une médiane commune
Tableau 2 ⋅ k et �2k−1
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Le test de Kruskal-Wallis
Comparer de façon non paramétrique des valeurs continuesentre les di�érents niveaux (au moins 3) d'un facteurHypothèse que les distributions des groupes, si elles di�èrent,ne di�érent que par un décalage ⇒ les densités de probabilitésdoivent avoir les mêmes variancesFonctions de répartition F1(X), F2(X), ⋅ ⋅ ⋅ des variablesaléatoires associées aux mesures de chaque groupeCouple d'hypothèses :H0 : les paramètres de positions ne di�èrent pas : �1 = . . . = �k.H1 : il y a au moins un groupe pour lequel �i ∕= �j avec i ∕= j.
On localise les di�érences en comparant les moyennes par paire
∣∣∣∣∣ri.ni − rj.nj
∣∣∣∣∣ > t1−�/2
(S2 ⋅ N − 1−H
N − k
)1/2
⋅
(1
ni+
1
nj
)1/2
ri. et rj. sont les sommes des rangs respectifs des deuxgroupes à comparert1−�/2 est le quantile 1−�/2 d'une loi de Student à N − I ddlH est la statistique du test et S2 est la variance (calculésselon la présence ou non d'ex-aequo)Pour tout couple de groupes qui véri�ent cette relation, onpeut conclure à la di�érence entre les deux groupes au seuilglobal de décision �
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Le test de Kruskal-Wallis
Fusion des valeurs de l'ensemble des groupes en une seule sérieTransformation en rang en gardant la trace du groupe d'origineSi les groupes ont des valeurs proches, les rangs des valeursseront bien mélangés et les sommes des rangs de chaquegroupe seront proches les unes des autres
On localise les di�érences en comparant les moyennes par paire
∣∣∣∣∣ri.ni − rj.nj
∣∣∣∣∣ > t1−�/2
(S2 ⋅ N − 1−H
N − k
)1/2
⋅
(1
ni+
1
nj
)1/2
ri. et rj. sont les sommes des rangs respectifs des deuxgroupes à comparert1−�/2 est le quantile 1−�/2 d'une loi de Student à N − I ddlH est la statistique du test et S2 est la variance (calculésselon la présence ou non d'ex-aequo)Pour tout couple de groupes qui véri�ent cette relation, onpeut conclure à la di�érence entre les deux groupes au seuilglobal de décision �
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Le test de Kruskal-Wallis
Le test utilise une statistique, classiquement appelée H, qui vaut :
H =1
S2
(k∑i=1
r2i.ni− N(N + 1)2
4
)avec
1 ri. la somme des rangs du groupe i2 N l'e�ectif de la série commune N =
∑k1 ni
3 Variance S2 : S2 = 1N−1
(∑i,j r
2ij −
N(N+1)2
4
)
On localise les di�érences en comparant les moyennes par paire
∣∣∣∣∣ri.ni − rj.nj
∣∣∣∣∣ > t1−�/2
(S2 ⋅ N − 1−H
N − k
)1/2
⋅
(1
ni+
1
nj
)1/2
ri. et rj. sont les sommes des rangs respectifs des deuxgroupes à comparert1−�/2 est le quantile 1−�/2 d'une loi de Student à N − I ddlH est la statistique du test et S2 est la variance (calculésselon la présence ou non d'ex-aequo)Pour tout couple de groupes qui véri�ent cette relation, onpeut conclure à la di�érence entre les deux groupes au seuilglobal de décision �
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Le test de Kruskal-Wallis
S'il n'y a pas d'ex-aequo, alors
S2 =N(N + 1)
12et :
H =12
N(N + 1)
k∑i=1
r2i.ni− 3(N + 1)
La statistique H suit une loi du �2 à k − 1 ddl :
H ⇝ �2k−1
On localise les di�érences en comparant les moyennes par paire
∣∣∣∣∣ri.ni − rj.nj
∣∣∣∣∣ > t1−�/2
(S2 ⋅ N − 1−H
N − k
)1/2
⋅
(1
ni+
1
nj
)1/2
ri. et rj. sont les sommes des rangs respectifs des deuxgroupes à comparert1−�/2 est le quantile 1−�/2 d'une loi de Student à N − I ddlH est la statistique du test et S2 est la variance (calculésselon la présence ou non d'ex-aequo)Pour tout couple de groupes qui véri�ent cette relation, onpeut conclure à la di�érence entre les deux groupes au seuilglobal de décision �
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Le test de Kruskal-Wallis
On localise les di�érences en comparant les moyennes par paire
∣∣∣∣∣ri.ni − rj.nj
∣∣∣∣∣ > t1−�/2
(S2 ⋅ N − 1−H
N − k
)1/2
⋅
(1
ni+
1
nj
)1/2
ri. et rj. sont les sommes des rangs respectifs des deuxgroupes à comparer
t1−�/2 est le quantile 1−�/2 d'une loi de Student à N − I ddl
H est la statistique du test et S2 est la variance (calculésselon la présence ou non d'ex-aequo)
Pour tout couple de groupes qui véri�ent cette relation, onpeut conclure à la di�érence entre les deux groupes au seuilglobal de décision �
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Un exemple d'utilisation du test de Kruskal-Wallis
On veut comparer l'e�cacité de quatre traitements antidépresseurschez des patients atteints de dépression
Essai thérapeutique, on applique chacun des traitementspendant la même durée à chacun des 4 groupes de patientsOn cote la sévérité de la dépression à l'aide d'un score dedépressionLes valeurs (après transformation en rang) sont les suivantes :
On trouve un seuil de comparaison identique pour toutes lescomparaisons car ni = nj ,∀i, j. S'il en était autrement, il auraitfallu calculer les seuils pour chaque comparaison faite.
Echantillons comparés∣∣∣ ri.ni − rj.
nj
∣∣∣ Valeur seuil
1 et 2 13,8 4,711 et 3 17,0 "1 et 4 8,8 "2 et 3 3,2 "2 et 4 22,6 "3 et 4 25,8 "
En conclusion, au seuil global de 5%, seul les groupes 2 et 3 nedi�èrent pas.
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Un exemple d'utilisation du test de Kruskal-Wallis
Groupes 1 2 3 4
19 14 12 3822 21 1 3925 2 5 4024 6 8 3026 10 4 3137 16 13 3223 17 9 3327 11 15 3628 18 3 3429 7 20 35
ri. =∑rij 260 122 90 348
On trouve un seuil de comparaison identique pour toutes lescomparaisons car ni = nj ,∀i, j. S'il en était autrement, il auraitfallu calculer les seuils pour chaque comparaison faite.
Echantillons comparés∣∣∣ ri.ni − rj.
nj
∣∣∣ Valeur seuil
1 et 2 13,8 4,711 et 3 17,0 "1 et 4 8,8 "2 et 3 3,2 "2 et 4 22,6 "3 et 4 25,8 "
En conclusion, au seuil global de 5%, seul les groupes 2 et 3 nedi�èrent pas.
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Un exemple d'utilisation du test de Kruskal-Wallis
A partir de ces valeurs on peut déterminer la valeur de S2 et de H.On a :
S2 =40 ⋅ 41
12et
H = 12
40⋅41
(2602+1222+902+3482
10− 40⋅412
4
)= 31, 89
En comparant la valeur de H à un �2 à 3 ddl, on rejette H0. Onpeut donc entreprendre la localisation des di�érences pour toutesles paires de groupes.
On trouve un seuil de comparaison identiquepour toutes les comparaisons car ni = nj ,∀i, j. S'il en étaitautrement, il aurait fallu calculer les seuils pour chaquecomparaison faite.
Echantillons comparés∣∣∣ ri.ni − rj.
nj
∣∣∣ Valeur seuil
1 et 2 13,8 4,711 et 3 17,0 "1 et 4 8,8 "2 et 3 3,2 "2 et 4 22,6 "3 et 4 25,8 "
En conclusion, au seuil global de 5%, seul les groupes 2 et 3 nedi�èrent pas.
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Un exemple d'utilisation du test de Kruskal-Wallis
On trouve un seuil de comparaison identique pour toutes lescomparaisons car ni = nj ,∀i, j. S'il en était autrement, il auraitfallu calculer les seuils pour chaque comparaison faite.
Echantillons comparés∣∣∣ ri.ni − rj.
nj
∣∣∣ Valeur seuil
1 et 2 13,8 4,711 et 3 17,0 "1 et 4 8,8 "2 et 3 3,2 "2 et 4 22,6 "3 et 4 25,8 "
En conclusion, au seuil global de 5%, seul les groupes 2 et 3 nedi�èrent pas.
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Modèles paramétriques vs nonparamétriques
Un modèle paramétrique pour une observation est un ensemble deloi qui forme une bijection avec ℝk. Cette famille de loi est telleque deux lois quelconques de cette famille ne di�èrent que par lavaleur de leur paramètre � appartenant à un sous-ensemble Θ deℝk. Un modèle très (trop) souvent retenu pour des donnéescontinues est le modèle gaussien :{
Il existe (�, �2) appartenant a ℝ× ℝ+∗ tel que :X est une observation de la loi N (�, �2)
Formulation extrêmement généraleGrand nombre de variantes de ce modèle avec dessous-familles ℱ0 caractérisées par une propriété particulièreportant par exemple sur la position par rapport à l'origine ousur la dispersion donnéePrincipales variantes :
des modèles de localisation
des modèles d'échelledes modèles combinant les deux premiers, dit modèles delocalisation-échelle
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Modèles paramétriques vs nonparamétriques
A contrario, un modèle nonparamétrique est un modèle qui ne peutpas se mettre sous forme paramétrique. Cela revient à utiliser untrès vaste ensemble de lois qui peuvent avoir des formes trèsvariées, voire même non précisées. Cet ensemble s'écrira de façongénérique : {
Il existe F appartenant a ℱ telle que :X est une observation de la loi F
Formulation extrêmement généraleGrand nombre de variantes de ce modèle avec dessous-familles ℱ0 caractérisées par une propriété particulièreportant par exemple sur la position par rapport à l'origine ousur la dispersion donnéePrincipales variantes :
des modèles de localisation
des modèles d'échelledes modèles combinant les deux premiers, dit modèles delocalisation-échelle
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Modèles paramétriques vs nonparamétriques
Formulation extrêmement générale
Grand nombre de variantes de ce modèle avec dessous-familles ℱ0 caractérisées par une propriété particulièreportant par exemple sur la position par rapport à l'origine ousur la dispersion donnée
Principales variantes :
des modèles de localisation
des modèles d'échelledes modèles combinant les deux premiers, dit modèles delocalisation-échelle
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Le modèle de localisation
Le modèle de localisation s'écrit de la façon suivante :⎧⎨⎩Il existe F appartenant a ℱ0 et � ∈ ℝ tels que :X est une observation de la loi F� telle que∀ x ∈ ℝ, F�(x) = F (x− �)
Le paramètre � est appelé paramètre de localisation
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Le modèle d'échelle
Le modèle d'échelle s'écrit de la façon suivante :⎧⎨⎩Il existe F appartenant a ℱs et � ∈ ℝ+∗ tels que :X est une observation de la loi F� telle que∀ x ∈ ℝ, F�(x) = F (x/�)
Le paramètre � est appelé paramètre d'échelle
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Le modèle de localisation-échelle
Le modèle de localisation-échelle s'écrit :⎧⎨⎩Il existe F appartenant a ℱs et (�, �) ∈ ℝ× ℝ+∗ tels que :X est une observation de la loi F�,� telle que∀ x ∈ ℝ, F�,�(x) = F ((x− �)/�)
Les paramètres � et � sont appelé paramètres de localisation etd'échelle
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Conditions d'application d'un test nonparamétrique
Une erreur courante dans la littérature
Dans les tests de Mann-Whitney et de Kruskal-Wallis (tests delocalisation), on cherche un décalage entre les groupes : il fautque �i = �j
Sinon modèle de localisation-échelle
Si �i ∕= �j , le test ne correspond pas à l'hypothèse testée
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Rappel des tests et autres tests
Tests de LocalisationWilcoxon et Mann-WhitneyMédianeKruskal-Wallis et de FriedmanSignesScores normauxSavageScores générauxPour séries appariées
Signes pour séries appariées
Rangs signés de Wilcoxon
D'autres tests encoreCoe�cient de corrélation de SpearmanKolmogorov-SmirnovRuns de Wald-WolfowitzJonckheere et TerpstraTau de KendallCoe�cient gamma de (Goodman-)KruskalCoe�cient de concordance de Kendall
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Rappel des tests et autres tests
Tests d'échelleSiegel-Tukey et Ansary-BradleyMoodKlotzConover
Tests pour données censuréesWilcoxon-GehanLog-rank
D'autres tests encoreCoe�cient de corrélation de SpearmanKolmogorov-SmirnovRuns de Wald-WolfowitzJonckheere et TerpstraTau de KendallCoe�cient gamma de (Goodman-)KruskalCoe�cient de concordance de Kendall
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests
Rappel des tests et autres tests
D'autres tests encore
Coe�cient de corrélation de Spearman
Kolmogorov-Smirnov
Runs de Wald-Wolfowitz
Jonckheere et Terpstra
Tau de Kendall
Coe�cient gamma de (Goodman-)Kruskal
Coe�cient de concordance de Kendall
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Où en sommes nous ?
1 Notions de base
2 Comparaison de deux séries continues
3 Coe�cient de corrélation nonparamétrique
4 Autres situations et autres tests
5 Un mini TP
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Le problème
Le revenu de 5 hommes et 5 femmes sont les suivants
Hommes Femmes
35.000 37.00030.000 32.00037.500 39.50040.000 42.00042.500 44.500
⇒ Les hommes sont-ils mieux payés que les femmes ?
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Le traitement à la main
1 Quel test ? ⇒ test de Wilcoxon
2 Véri�cation préalable : homogénéité des variances (test delocalisation)
3 Quelles sont les hypothèses ?
H0 La distribution des revenus est la même chez les hommes quechez les femmes
H1 La distribution des revenus des hommes est décalée vers ladroite par rapport à celle des femmes
4 Valeur de la statistique ?1 Remplacer les valeurs par les rangs2 Calcul de WH , de E(WH) et de V ar(WH)
3 Calcul de z =WH+ 1
2−E(WH)√V ar(WH)
5 Lecture de la signi�cation du test (unilatéral) à 5%
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Le traitement à la main
Remplacer les valeurs par les rangs
H 3 1 5 7 9F 4 2 6 8 10
WH = 3 + 1 + 5 + 7 + 9 = 25
WF = 30 et on véri�e que WH +WF = 12n(n+ 1)
E(WH) = 12n(n+m+ 1) = 1
25(5 + 5 + 1) = 552 = 27, 5
V ar(WH) = nmn+m+112 = 5 ⋅ 55+5+1
12 = 27512 = 22, 97
z =WH+ 1
2−E(WH)√
V ar(WH)= −0, 418
Pr(∣z∣ = 0, 418) > 5% ⇒ On accepte H0 : les hommes nesont pas mieux payés que les femmes
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Le traitement avec R
H<-c(35000,30000,37500,40000,42500)
F<-c(37000,32000,39500,42000,44500)
wilcox.test(H,F,alternative="greater")
Wilcoxon rank sum test
data: H and F
W = 10, p-value = 0.7262
alternative hypothesis: true location shift is greater than 0
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Le traitement avec R
"W=10" ?
U = W − n(n+1)2
R utilise le test de Mann-Whitney et l'appelle test de Wilcoxon
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Le traitement avec SAS
data lecture;
input sexe $ revenu;
cards;
M 35000
M 30000
M 37500
M 40000
M 42500 proc Npar1way data = lecture wilcoxon;
F 37000 class sexe;
F 32000 var revenu;
F 39500 exact wilcoxon;
F 42000 run;
F 44500
;
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Le traitement avec SAS
The NPAR1WAY Procedure
Wilcoxon Scores (Rank Sums) for Variable revenu
Classified by Variable sexe
Sum of Expected Std Dev Mean
sexe N Scores Under H0 Under H0 Score
--------------------------------------------------------------------
M 5 25.0 27.50 4.787136 5.0
F 5 30.0 27.50 4.787136 6.0
Wilcoxon Two-Sample Test
Statistic (S) 25.0000
Normal Approximation
Z -0.4178
One-Sided Pr < Z 0.3381
Two-Sided Pr > |Z| 0.6761
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
Le traitement avec SAS
t Approximation
One-Sided Pr < Z 0.3429
Two-Sided Pr > |Z| 0.6859
Exact Test
One-Sided Pr <= S 0.3452
Two-Sided Pr >= |S - Mean| 0.6905
Z includes a continuity correction of 0.5.
Kruskal-Wallis Test
Chi-Square 0.2727
DF 1
Pr > Chi-Square 0.6015
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Notions de baseComparaison de deux séries continues
Coe�cient de corrélation nonparamétriqueAutres situations et autres tests
Un mini TP
En complément
On pourrait véri�er que les résultats ne sont pas impactés parun changement d'unité (diviser toutes les valeurs par 1000)
Plus étonnant : pas de changement si on oublie les virgules endivisant par 1000
Valeurs Rangs initiaux Nouveaux rangsHommes Femmes Hommes Femmes Hommes Femmes
35 37 3 4 3 430 32 1 2 1 2375 395 5 6 7 840 42 7 8 5 6425 445 9 10 9 10
Somme 25 30 25 30
EA. Sauleau - N. Meyer M2 Santé Publique - SB1
Top Related