Bases : Probabilités, Estimation et Tests.

January 9, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Bases : Probabilités, Estimation et Tests....

Description

Université René Descartes UFR Biomédicale, 45 rue des Saints-Père, 75 006 Paris

LMD Sciences de la Vie et de la Santé M1 de Santé Publique Spécialité Biostatistique

M1 COURS de BIOSTATISTIQUE I

Bases : Probabilités, Estimation et Tests.

C. Huber

1

Table des matières

I Probabilités. Principes des tests et de l'estimation 1 Introduction 2 Calcul de probabilités et variables aléatoires réelles 3 Quelques lois de probabilité A Lois continues a. Lois normales b. Lois exponentielles c. Lois gamma d. Lois du chi deux e. Lois béta f. Lois de Fisher-Snedecor g. Lois de Student B Lois discrètes a. Lois de Bernoulli b. Lois binomiales c. Lois multinomiales d. Lois de Poisson 4 Approximations a. Approximation normale de la binomiale b. Approximation normale d'une somme c. Approximation de Poisson de la binomiale d. Approximation normale du chi deux 5 Principe des tests 6 Principe de l'estimation et maximum de vraisemblance

II

3 3 5 5 5 7 7 8 9 10 10 10 10 10 11 11 12 12 12 13 13 14 15

Tests d'ajustement 1 Introduction 2 Test d'ajustement du chi2 pour une loi spécifiée a. cas discret b. cas continu 3 Test d'ajustement du chi2 avec estimation de paramètres 4 Test de Kolmogorov-Smirnov pour un échantillon

17 17 17 18 19 23

III Mise en évidence de liaisons : tests d'indépendance 1 Cas de deux variables discrètes a. à deux valeurs b. à un nombre quelconque de valeurs 2 Cas d'une variable continue et d'une variable à deux valeurs Test de comparaison de deux échantillons Tests non paramétriques Test de la médiane Test de Wilcoxon Test de Kolmogorov-Smirnov pour 2 échantillons

C. Huber

25 25 27 29 30 32 33 35 36

2

3 Cas de deux variables continues a. Couple normal : test du coefficient de corrélation b. Cas général : tests non paramétriques coefficient de corrélation des rangs de Spearman coefficient de corrélation de Kendall c. Intervention d'un troisième facteur coefficient de corrélation partielle

38 38 39 39 41 43 43

IV Tests non paramétriques pour comparer k échantillons 1 k échantillons indépendants Extension du test de la médiane Test de Kruskal-Wallis 2 k échantillons liés Test de Cochran Test de Friedman

45 46 49 52 52 54

V Exercices

57

Tables Normale Student Chi deux

T1 T2 T3 T4

Kolmogorov-Smirnov pour un échantillon Wilcoxon, Mann-Whitney

Spearman Kolmogorov-Smirnov pour deux échantillons Kendall Fisher-Snedecor

Kruskal-Wallis Friedman

C. Huber

T5 T6 T7 T8 T9 T10 T11 T12 T13 T14 T15 T16 T17 T18 T19 T20 T21 T22

Probabilités et notions fondamentales

3

I Introduction : Quelques notions de probabilités. Tests et estimateurs simples.

1 - Introduction Nous introduisons dans ce chapitre les bases de probabilités nécessaires à la compréhension des méthodes d'analyse statistique ainsi que les notions de base pour l'estimation de paramètres et les tests d'hypothèses. Le chapitre II, intitulé "Tests d'ajustement", traite le problème qui consiste à vérifier si une variable aléatoire obéit effectivement à une loi de probabilité donnée à l'avance. C'est une généralisation du problème de comparaison d'une proportion observée à une proportion théorique, où la question est de savoir si une variable de Bernoulli obéit ou non à une loi théorique donnée. Le chapitre III concerne les tests d'homogénéité et d'indépendance, qui servent à mettre en évidence des liaisons, par exemple entre un facteur de risque et une maladie. Cet exemple conduit à la comparaison de deux proportions observées, qui peut être considéré: - Soit comme un test d'homogénéité de deux échantillons d'une variable en {0,1}, (malades et non-malades) : on se demande si le facteur de risque est présent dans la même proportion dans les deux échantillons. - Soit comme un test d'indépendance entre deux variables prenant les valeurs 0 ou 1. Les tests de comparaison de deux échantillons sont de trois types: - approchés: ils utilisent l'approximation normale, ce qui est possible lorsque la taille de l'échantillon est assez grande, - paramétriques: ils nécessitent de faire une hypothèse précise sur la loi des observations. - non-paramétriques: ces derniers ont l'avantage d'être valables même lorsque les échantillons sont très petits et de ne pas nécessiter d'hypothèse sur la loi les données, (contrairement par exemple au test de Student qui, lui, exige que les variables suivent une loi normale, ce qui n'est pas toujours le cas.). Le chapitre IV donne des tests non paramétriques pour comparer plus de deux échantillons.

2 - Calcul des probabilités et variables aléatoires réelles Voici, après l'exemple ci-dessous, quelques unes des propriétés les plus importantes d'une probabilité définie sur un espace formé de E, ensemble fondamental des résultats possibles de l'épreuve aléatoire et d'une famille de parties de E, appelées événements et formant une tribu

a. Ces événements seront notés A, B, C, D,... . C. Huber

Probabilités et notions fondamentales

4

Exemple Si on examine des patients en notant la présence ou l'absence de trois symptômes tels que maux de tête (S1), insomnie (S2) et vertiges (S3), lorsqu'ils sont atteints d'une maladie M, l'ensemble E des résultats possibles de l'examen a 2x2x2 = 8 éléments qui sont les événements élémentaires : (0,0,0) lorsque aucun des trois symptômes n'est présent, (1,0,0) lorsque seul le premier est présent, etc.. (1,1,1) lorsque les trois symptômes sont présents. a) Probabilité que A ou B se produisent : (additivité de la probabilité) Si A et B sont deux événements d'intersection vide , c'est à dire qu'ils ne peuvent pas se produire ne même temps, alors la probabilité que l'un ou l'autre se produise est égale à la somme de leurs probabilités respectives : P(AUB) = P(A)+P(B) . b) Probabilité qu'un événement ne se produise pas : (complémentaire d'un événement) Si A ne se produit pas, c'est que c'est son complémentaire Ac dans E qui se produit : P(Ac) = 1 - P(A) c) Probabilité que A se produise sachant que b s'est produit : (probabilité conditionnelle) La probabilité de A conditionnellement à b est notée comme P(A|B) ou P(A|B) et définie comme P(A|B) = P(A∩B) / P(B) Exemple : Quelle est la probabilité de tirer un roi de cœur d'un jeu de 52 cartes ? Que devient cette probabilité si on sait que la carte tirée est rouge ? si on sait qu'elle est noire ? si on sait que c'est une figure ? d) Probabilité que A et B se produisent ensemble : Si A et B se produisent ensemble, c'est que l'intersection de A et B, notée A∩B, se produit. Par définition même de la probabilité de A conditionnellement à B, notée P(A|B), on a P(A∩B) = P(A|B)P(B) = P(B|A)P(A) Ces deux égalités sont toujours valables, sans condition. e) Indépendance de deux événements : Si A et B sont indépendants , P(A∩B) = P(A) P(B), P(A|B) = P(A) , P(B|A) = P(B) . Ces trois égalités sont équivalentes. Chacune d'elles peut être prise pour définition de l'indépendance de A et B. Espérance et variance d'une variable aléatoire réelle : Si X est une variable aléatoire réelle (v.a.r.) , son espérance, ou moyenne, EX et sa variance Var(X), sont ainsi définies : C. Huber

Probabilités et notions fondamentales

5

1)Si X est discrète, telle que P(X = xi) = pi , i = 1, 2, ..,k , son espérance EX et sa variance Var(X) sont respectivement : EX = Σ pi xi , Var(X) = E [ (X - EX)2] = Σ pi (xi -EX)2 . Les sommations portent sur tous les indices i = 1,..,k. L'écart-type σ(X) est la racine positive de la variance σ(X) = √ Var(X) . 2) De même, si X est continue, de densité de probabilité f(x) au point x, EX = ∫ x f(x) dx , Var(X) = ∫ (x - EX)2 f(x) dx et σ(X) = √ Var(X) . Propriétés de l'espérance et de la variance : - L'espérance, ou moyenne, d'une somme de variables aléatoires est toujours égale à la somme des espérances : E(X1+ X2 + ... + Xn) = E X1 + E X2 + ...+ E Xn . - La variance d'une somme, par contre, n'est en général pas égale à la somme des variances: Var(X+Y) = Var(X) + Var(Y) + 2 cov(X,Y), où cov(X,Y) vaut , par définition : cov(X,Y) = E(XY) - EX EY . Si X et Y sont indépendantes, la variance de leur somme est égale à la somme de leurs variances car cov(X,Y) = 0 : Var(X+Y) = Var(X) + Var(Y). Coefficient de corrélation La covariance ne dépend pas de l'origine choisie pour mesurer X et Y. Cependant, elle dépend des unités choisies pour ce faire: si X est mesurée en mètres, et si l'on change cette unité contre le centimètre, la covariance sera, comme X, multipliée par 100. Pour éliminer cette dépendance, on définit le coefficient de corrélation ρ de X et de Y: ρ = cov(X,Y) / σX σY

3 - Quelques lois de probabilité A Lois continues a) Lois normales N (µ, σ2) Si µ est un nombre réel et σ un nombre positif, X suit la loi normale N(µ,σ2) si sa densité de probabilité au point x vaut 2

f(x) =

1 exp (- (x - µ) ) 2 2π σ 2σ

,

x ∈ IR .

Alors, EX = µ, Var(X) = σ2 , et la variable Ζ = (X- µ) / σ suit la loi normale réduite N(0,1) de densité au point z :

C. Huber

Probabilités et notions fondamentales

ϕ(z) =

1 e 2π

-

z 2

6

2

,

z ∈ IR .

On note Φ la fonction de répartition correspondante z

Φ ( z) = P( Z ≤ z) = ∫ ϕ( t ) dt −∞

Elle joue un très grand rôle car il suffit de connaître Φ pour pouvoir calculer toute probabilité relative à une variable normale quelconque N (µ, σ2). En effet , si X suit la loi normale N(µ,σ2) P(X ≤ x) = P(µ + σZ ≤ x) = P(Z ≤(x-µ)/σ ) = Φ [(x−µ) / σ]

Les valeurs de Φ sont données par une table. Rappelons de plus que si X et Y sont deux variables normales indépendantes , leur somme est encore normale, de moyenne la somme des moyennes et variance la somme des variances: X et Y indépendantes L (X) = N(µ, σ2) ⇒ 2 L (Y) = N(µ', σ' )

L (X+Y) = N(µ, + µ', σ2 + σ'2 )

Ce résultat se généralise à la somme de n'importe quel nombre de variables normales indépendantes. Couple normal Un couple (X,Y) de variables aléatoires suit une loi normale, ou, en abrégé, est normal, si , pour tous réels fixés a et b, la variable aX + bY est une variable aléatoire réelle de loi normale. Dans ce cas, une condition suffisante pour que X et Y soient indépendantes est que leur coefficient de corrélation ρ(X,Y) soit nul.

b) Lois exponentielles E (λ) C. Huber

Probabilités et notions fondamentales

7

La variable aléatoire positive X suit la loi exponentielle de paramètre λ positif, notée E (λ), si elle admet la loi de densité égale en chaque point x ≥ 0 à : f(x) = λ e- λx si x ≥ 0 , ( λ> 0). = 0 sinon La fonction de répartition F correspondante au point x s'obtient facilement par intégration de f entre 0 et x et vaut F(x) = 1 - e- λx , si x ≥ 0 ; = 0 , si x < 0 . L'espérance et la variance de X valent respectivement EX = 1 / λ et Var X = 1 / λ2 En particulier, lorsque λ vaut 1, f(x) = e- x , F(x) = 1 - e- x , EX = 1 et Var(X) =1. On peut toujours se ramener à ce cas par un changement d'échelle, en prenant comme nouvelle unité u' = u / λ, ce qui change X en X' = λ X. c) Lois gamma Γ(a,λ) X suit la loi Γ (a , λ ), a > 0 et λ > 0 , si sa densité de probabilité au point x est nulle pour x < 0 et vaut pour les x positifs :

fa,λ ( x ) =

λa x a _ 1 e − λx Γ(a)

x ≥0

où Γ (a) est une généralisation aux valeurs réelles de la fonction factorielle, qui, à l'entier (n+1) fait correspondre le produit n! des n premiers entiers : Γ (n+1) = n! = n(n-1) (n-2) ... 3. 2.1 . Γ (a) s'écrit ∞ -t a-1 e t dt

Γ(a) = 0

On peut vérifier, en le prouvant par intégration par parties, que Γ (z+1) = z Γ (z) pour tout z positif, ce qui donne de proche en proche, si l'on part de z = n, et en tenant compte de ce que Γ (1) = 1 , Γ (n+1) = n Γ (n) = n (n-1) Γ (n-1) = n!. De plus, Γ(1/2) = ⎟π . Propriété (Somme de deux variables indépendantes de lois gamma ) Si X et Y sont indépendantes de lois gamma, de même paramètre λ , L (X) = Γ(a , λ) et L (Y) = Γ (b, λ), la loi de la somme est encore une loi gamma : L (X + Y) = Γ (a + b, λ) . La démonstration se fait en calculant la transformée de Laplace ϕ de la loi de X, supposée égale à Γ (a, λ) : ϕX(t) = E (e-tX) (par définition de la transformée de Laplace)

C. Huber

Probabilités et notions fondamentales

=

= =

λ

a

Γ(a) λ

a

. -1

Γ(a) λ

∞ a-1 −(λ+t)x x e dx 0

8

∞ a-1 y 0

(λ+t) −y e dy a-1 (λ+t)

.

a

(λ+t)

a

Alors ϕ X+Y (t) = E ( e-t(X + Y)) = E ( e-tX) E ( e-tY) puisque X et Y sont indépendantes, et par conséquent ϕ X + Y (t) = (λ /( λ+t)) a+b , qui est la transformée de Laplace de la loi Γ(a+b, λ) . d) Lois du chi deux ( χ2 ) à n degrés de liberté χ2n = Γ(n/2, 1/2) . Donc sa densité de C'est, par définition la loi Γ(n/2, 1/2) : probabilité est égale à 1 si x ≥ 0 fn ( x ) = n / 2 x n / 2−1 e − x / 2 2 Γ(n / 2)

Sa transformée de Laplace est donc égale à [(1/2) / (1/2 +t)]n/2 , soit ϕ (t) = (2t + 1) - n/2. Théorème Soit Z1, Z2, ..., Zn , n variables indépendantes de loi normale N(0,1). Alors la variable χn2 = Ζ12 + Ζ22 + .... + Zn2

suit la loi du χ2 à n degrés de liberté (d.d.l.) , notée χ2n . démonstration: D'après ce qui précède, il suffit de montrer que L (X2) = Γ(1/2 , 1/2) si X est normale N(0,1), c'est à dire que sa transformée de Laplace est égale à (2t + 1) -1/2 : 2

ϕ X 12 (t) = E ( e–t (X 1 ) ) = (1/

2π )

Moments

C. Huber

e –x

2

(t+1/2)

= (2t + 1)–1/2 .

Probabilités et notions fondamentales

9

On voit sans calcul que E (χ12 ) = 1, puisque cette moyenne est égale à celle de Z12 , c'est à dire à la variance de Z1 , qui est de moyenne nulle, et de variance 1. De même, E ( χn2 ) = n .

Pour calculer tous les moments, E( χn2k) , il suffit de dériver la transformée de Laplace ϕ χ12 (t) par rapport à t et d'en prendre la valeur au point 0. On remarquera lors de la démonstration ci-dessous, que c'est une méthode générale. Notant simplement ϕ cette fonction, on voit que ϕ ' (t) = (2t+1)-3/2 = E( χn2 ) et que, de manière générale, la dérivée d'ordre k vaut ϕ (k)(t) = 1.3.5..(2k-1) (2t+1) - (k + 1/2) = x2k e-tx f(x2) d( x2) La valeur au point 0 de cette dérivée donne donc le moment d'ordre k : ϕ (k)(0) = 1.3.5..(2k-1) E( χ12k) Par définition de la variance, on a Var(χ12) = E ((χ12)2) - (E (χ12))2 = 3 − 1 = 2. Comme l'indépendance de Z1 , Z2 ,...., Zn entraîne l'indépendance de leurs carrés et que tous les Zi2 suivent la même loi du χ12 , on a immédiatement Var (χn2 ) = 2 n . e) Lois Béta Définition On dit que la v. a. β suit la loi béta de paramètres a et b ( a > 0 et b > 0 ) si x 1 P(β ≤ x ) = I x (a, b) = y a −1 (1 − y )b−1 dy x ∈[0 1] ∫ B(a, b) 0

Comme on le voit, β est une variable continue prenant ses valeurs dans l'intervalle [0 ; 1] et sa densité au point x est 1 f ( x ; a, b) = x a−1 (1 − x )b−1 x ∈[0 1] B(a, b)

f (x;a,b) =



1 x a-1 (1-x) b-1 B(a,b)

0 Š x Š 1

(a+b-1)! B (a,b) = Γ(a+b) ( = Γ(a) Γ(b) (a-1)! (b−1)!

si a et b sont entiers).

On peut prouver que si β suit la loi de f. r. Ix (a,b) alors

C. Huber

Probabilités et notions fondamentales Eβ =

a a+ b

Var β =

et

10

ab 2 (a+b) (a+b+1)

Si U et V sont deux variables aléatoires indépendantes, de loi Γ(a,λ) et Γ(b,λ), le rapport U / (U+V) suit la loi béta β (a,a+b).

f) Loi de Fisher-Snedecor à n1 et n2 degrés de liberté F ( n1 , n2 ) Si U est une variable aléatoire qui suit la loi béta ( n1/+2, n2/2), la variable aléatoire ( n2/ n1) U suit la loi de Fisher-Snédécor à n1 et n2 degrés de liberté, notée F(n1,n2). En particulier, si L (Y1) = χ2(n1) L (Y2) = χ2(n2) L ( n2Y1 / n1Y2 ) = F (n1 , n2 )

Y1 et Y2 indépendantes g) Loi de Student à n degrés de liberté T(n)

Par définition, si

L (X) = N(0,1) L (Y) = χ2(n )

L (X /

Y n

) = T(n)

X et Y indépendantes

B

Lois discrètes

a) Loi de Bernoulli b(p) , p ∈ [ 0 1] C'est la loi d'une variable aléatoire X qui ne peut prendre que deux valeurs, 1 avec la probabilité p et 0 avec la probabilité 1-p notée q :

P(X=1) = p ; P(X=0) = 1- p = q ; EX = p ; Var(X) = pq. b) Loi binomiale B (n, p) , n ∈ΙΝ , 0 ≤ p ≤ 1 C'est la loi de la somme Sn de n variables aléatoires X1,X2,..,Xn indépendantes et de même loi de Bernoulli b(p), de paramètre p (0≤p≤1)

1 avec la probabilité p Xi = 0 avec la probabilité q = 1 - p Si 1 correspond au "succès" et 0 à l'échec la statistique Sn = X1 + X2 + .. + Xn

C. Huber

Probabilités et notions fondamentales

11

qui représente le nombre total de succès au cours des n épreuves ne prend que les valeurs entières j de 0 à n. La loi de Sn est donnée par n! P (Sn = j ) = pj = ------------ pj qn-j j! (n- j) !

,

j = 0,1,2,....n .

ESn = np et Var (Sn) = npq

L'espérance et la variance sont obtenues comme sommes des espérances et variances des Bernoulli. Le nombre des combinaisons de n objets pris j par j , qui vaut n! / j! (n-j)! , est généralement noté j

Cn

ou

n j

c) Loi multinomiale M (n, p1, p2 ,..., pr) , n ∈ΙΝ , pi ≥ 0 , Σ pi =1 Si la variable de base X a r modalités au lieu de 2, qu'elle peut prendre avec les p2 ,..., pr , lorsqu'on répète n fois l'épreuve de manière probabilités respectives p1, indépendante, on obtient r effectifs N1, N2 ,..., Nr , où Ni est le nombre de fois que la modalité i a été observée. Alors, pour chaque i, la loi de Ni est la loi binomiale de paramètres n et pi L (Ni) = B(n,pi)

,

i = 1, 2, ..., r ;

E(Ni) = npi et Var(Ni) = npi qi . Mais il est clair que deux effectifs Ni et Nj qui correspondent à deux valeurs différentes de X , i et j , ne sont pas des variables indépendantes. En effet, la somme de tous ces effectifs est fixée et vaut n, le nombre total des observations. La loi de N = (N1, ..., Nr) ne peut donc pas être décrite à partir des seules lois binomiales B(n,pi) de chacun des Ni. Elle est appelée la loi multinomiale de paramètres (n, p1, p2, ..., pr) et notée M (n; p1, p2, ..., pr) . La probabilité de l'événement { N1 = n1, N2 = n2 , ..., Nr = nr} est égale, pourvu que la somme des ni soit égale à n, à P (N 1 = n 1 , N 2 = n 2 , ..., N r = n r ) =

n! n 1! n 2! ... n r!

p

n1 n2 nr p ... p 1

2

r

Remarque Les variables (Ni -npi) / √ npiqi sont centrées réduites, et, lorsque n est grand (npi et nqi au moins égaux à 5), à peu près normales N(0,1). C'est ce qui est utilisé pour les tests du chi deux. d) Loi de Poisson ∏ (λ) , λ > 0 C. Huber

Probabilités et notions fondamentales

12

Définition Une v.a. X suit la loi de Poisson de paramètre λ > 0, notée π (λ), si elle peut prendre toutes les valeurs entières, 0 compris, la probabilité pk pour qu'elle prenne la valeur k étant définie par λk pk = P (X = k) = e - λ __ k = 0,1,2,...

λ

k! Alors

paramètre > 0

EY = Var(Y) = λ

On rappelle que 0! = 1 par définition. Propriété (Somme de variables de Poisson indépendantes) La somme de deux variables de Poisson indépendantes est encore une variable de Poisson de paramètre la somme des paramètres : X et Y indépendantes L (X) = π (λ)

L (X+Y) = π (λ+µ)



L (Y) = π (µ)

Il en résulte que la somme d'un nombre quelconque de variables de Poisson indépendantes est encore une variable de Poisson, de paramètre la somme des paramètres.

4 Approximations a) Approximation normale de la loi binomiale Une variable binomiale Sn, de loi B(n,p) a pour espérance np et pour variance npq. Lorsque n est grand, d'après le théorème de limite centrale, la loi de B(n,p) est très proche de la loi normale de même espérance (np) et même variance (npq). A partir de quelle valeur n peut il être considéré comme grand ? Cela dépend de p et q. Plus précisément, on pourra remplacer B(n,p) par N(np, npq) dès que n sera assez grand pour que np et nq soient tous les deux supérieurs à 5 : B(n, p) ≅ N(np,npq)

dès que np ≥ 5 et nq ≥ 5

ce qui s'écrit aussi Sn ≅ np +

npq Z

où Z est normale réduite N(0,1). b) Approximation normale d'une somme de variables indépendantes On a un résultat analogue lorsqu'on additionne, non pas des variables de Bernoulli mais des variables indépendantes de même loi et d'espérance µ et variance σ2 :

Sn = X1 + X2 + .. + Xn

C. Huber

Probabilités et notions fondamentales

13

Alors E( Sn ) = n µ , Var ( Sn ) = n σ2 , et la loi de Sn , qui n'est pas connue puisqu'elle dépend de la loi commune des Xi , qui n'a pas été précisée, est, lorsque n est grand, proche de la loi normale de même moyenne et de même variance qu'elle : L (Sn ) ≅ N( n µ , n σ2 )

Nous considérerons que n est assez grand pour que l'approximation soit valable lorsque n égale ou dépasse 30, ce qui est vrai pour les lois continues usuelles en biologie. Cela peut s'écrire aussi Si

Sn = X1 + X2 + .. + Xn , indépendantes, de même loi continue, E(Xi) = µ , Var(Xi) = σ2, et n ≥ 30 ,

alors

L ( (Sn - n µ) /

nσ 2 ) ≅

Ν(0,1)

ce qui s'écrit aussi Sn ≅ n µ +

nσ 2 Z

où L (Z) = N(0,1). c) Approximation de Poisson de la binomiale Pour la variable binomiale, lorsque np et nq ne dépassent pas 5 tous les deux, mais que n est grand - ce qui a pour origine que la Bernoulli sous-jacente décrit un évènement rare, par exemple p petit - on peut approcher la loi B(n,p) par la loi de Poisson de paramètre égal à np. Plus précisément : on a l'approximation de Poisson suivante pour la loi binômiale :

pourvu que

p ≤ 0,1 B(n,p)

et ≅

1 ≤ np < 10 Π (np)

d) Approximation normale du χn2 Pour calculer des probabilités relatives à des variables du chi deux, on utilisera les tables correspondantes ou l' approximation normale si n est assez grand. En effet, il est clair que la somme de deux variables du chi 2 indépendantes, à m et k degrés de liberté, est une variable du chi 2 à (m+k) degrés de liberté, et que, inversement, une variable du chi 2 à n degrés de liberté peut être considérée comme la somme de n variables indépendantes ayant la loi du chi 2 à 1 d.d.l. . Donc, d'après le théorème de la limite centrale, si n est assez grand

P( χn2 ≤ x ) ≅ P ( n + 2 n Ζ ≤ x ) = Φ ( (x - n) /

C. Huber

2n ) .

Probabilités et notions fondamentales

14

5 - Principe des tests Le problème qui se pose initialement est celui de savoir si un phénomène vérifie ou non une certaine conjecture, qu'on appelle une hypothèse. Par exemple, il s'agit de savoir si une nouvelle technique constitue ou non un progrès par rapport à la technique classique. Pour le savoir, on se fonde sur l'observation d'une variable aléatoire liée au phénomène. Dans notre exemple, on observera l'effet de cette nouvelle technique sur n produits : Xi désignera le résultat sur le ième produit. X peut par exemple valoir 1 en cas de réussite, 0 en cas d'échec, et c'est alors une variable de Bernoulli b(p), où p est la probabilité de succès inconnue - de cette nouvelle technique. Mais Xi peut aussi bien être la durée de vie du ième produit, et c'est alors une variable continue. A partir des observations, on construit une valeur numérique qui est la réalisation d'une variable aléatoire, fonction des observations, qui est appelée une statistique. Notons la Y = ϕ(X1, ..., Xn) . Et on choisit ϕ de telle sorte que, si c'est possible, la loi de Y soit connue lorsque l'hypothèse qui nous intéresse est réalisée. Appelons Ho cette hypothèse. Alors, si la valeur observée y, réalisation de Y, se trouve dans une zone de trop faible probabilité ( en général, si y est trop grand ou trop petit), on rejette Ho comme ayant conduit à une observation trop peu probable, voire invraisemblable. Si nous reprenons l'exemple choisi, et si nous supposons que la technique classique a un taux de succès de 50%, sous l'hypothèse Ho qu'il n'y a pas d'amélioration, c'est à dire que la nouvelle technique a elle aussi un taux de succès p =1/2, on connait la loi du taux de succès observé Po = ϕ(X1, ..., Xn) = ( X1+ ...+Xn) / n C'est celle d'une binomiale B(n,1/2) multipliée par 1/n, et n est connu puisque c'est le nombre total des observations. En fait, on aimerait rejeter cette hypothèse Ho au profit de l'hypothèse H1 selon laquelle le taux de succès p de la nouvelle technique est supérieur à l'ancien : p > 1/2. On est donc en présence des deux hypothèses Ho : p = 0,5 H1 : p > 0,5 Si la proportion observée po est trop éloignée de 0,5 , et plutôt trop grande, on rejettera Ho au profit de H1. C'est le type de problème intitulé "Comparaison d'une proportion observée, ici po , à une proportion théorique, ici 0,5. En général, le nombre n des observations est assez grand pour qu'on puisse se servir de l'approximation normale. D'ailleurs, dans tous les cas où la variable de base, qui est ici Bernoulli, est quelconque, on n'a aucun moyen de connaître la loi de Y = ϕ(X1, ..., Xn) sous Ho , sauf à employer l'une des approximations qui figurent au paragraphe précédent. D'où l'usage extensif de la loi normale en statistique paramétrique classique. On voit dans cet exemple que la zone de faible probabilité choisie comme zone de rejet de l'hypothèse nulle Ho a été choisie à droite : ce choix est destiné à rendre aussi grande que possible la puissance du test , c'est à dire la probabilité d'accepter H1 lorsqu'elle est vraie. C. Huber

Probabilités et notions fondamentales

15

Lorsqu'on teste deux hypothèses simples, on a un moyen de rendre maximum cette puissance pour un niveau donné a : c'est de rejeter Ho lorsque le rapport des probabilités des Ho et sous H1 est plus petit qu'une valeur donnée . Cela est une observations sous conséquence du lemme de Neyman et Pearson: Le test de Ho (P = P0) contre H1 (P = P1) qui a pour zone de rejet de Ho : { x : [Po(X=x) / P1(X=x) ≤ h} est le plus puissant parmi les tests qui ont le même niveau que lui. Il suffira donc de choisir la valeur du nombre h de telle sorte que Po{ x : [Po(X=x) / P1(X=x) ≤ h} = α pour obtenir le test de niveau α le plus puissant.

On pourra vérifier que tous les tests (d'hypothèses simples) considérés jusqu'ici, sans souci apparent d'optimisation de la puissance, sont de ce type.

6 Principe de l'estimation L'idée originelle est très simple : pour estimer le taux de succès inconnu de la nouvelle technique, on le remplace par le taux observé. L'estimateur de p s'écrit alors : X 1+X 2 +...+X n = p o proportion observée n Mais deux points ont besoin d'être précisés dès qu'on veut généraliser : p=

1) Quelle est la précision d'une telle estimation ? on tombe alors sur les intervalles de confiance, c'est à dire qu'au lieu de donner pour évaluer p une seule valeur comme ci-dessus, sans aucun élément sur la précision probabiliste avec laquelle il représente p, on donne un intervalle qui a une forte probabilité ( en général 95 %) de contenir p. Pour pouvoir obtenir un tel intervalle, il faut connaitre la loi de l'estimateur ou, à la rigueur, une approximation de celle-ci. Les estimateurs qui nous ont servi jusqu'à présent étant essentiellement des moyennes empiriques, relevaient de l'approximation 2 b). Souvent l'estimateur est sans biais et de loi (approximativement ) normale autour de sa moyenne : L (p) ≈ N( p , σ2 )

Alors

[ p - 2σ ; p + 2σ ] est un intervalle de confiance dont la probabilité de contenir p, c'est à dire le coefficient de confiance, est de 95 %. Le coefficient 2 correspond au quantile 0,975 de la loi normale, qui vaut en fait , non pas 2 mais 1,96. En général l'écart-type σ qui figure dans cet intervalle n'est pas connu et doit être estimé sur les observations. Dans l'exemple choisi, la variance de l'estimateur est Var(Po) = p0q0 / n, ce qui donne pour intervalle de confiance à 95 % : [ po - 2

pq n

;

po + 2

C. Huber

pq n

] .

Probabilités et notions fondamentales

16

2) Que faire s'il n'y pas (ou s'il y a plusieurs) équivalents empiriques du paramètre à estimer ? Alors on peut écrire la vraisemblance V des observations, c'est à dire la probabilité d'observer ce qui a été observé en fonction du (ou des) paramètres à estimer: Pθ (X1 = x1, X2 = x2, ..., Xn = xn) = V(θ) . La vraisemblance est considérée comme une fonction du paramètre inconnu à estimer, θ, et non comme une fonction des observations x1, x2, ..., xn . On choisit comme estimateur de θ la valeur

θ qui maximise V(θ) : V(θ) ≥ V(θ) pour tout θ Une théorie générale montre que ces estimateurs sont très bons, sous des conditions très souvent réalisées, lorsque le nombre des observations est assez grand. Exemple 1 : durée de vie exponentielle On suppose que la durée de vie d'un appareil de dosage suit une loi exponentielle de paramètre θ inconnu. On a observé la durée de vie de 5 tels appareils et obtenu les valeurs suivantes exprimées en jours : 77, 31, 27, 58, 103. Quel estimateur peut on proposer pour θ ? Exemple 2 : palmier à huile Le palmier à huile est sujet à une maladie appelée le blast. Cette variété de palmier apparait sous forme de palmiers jumeaux. Dans un champ comprenant n = 500 tels couples de palmiers, on a décompté 242 couples sains, 185 couples composés d'un palmier malade et d'un palmier sain et 73 couples de palmiers malades tous les deux. A combien estimer la probabilité θ pour un palmier d'être malade ? On doit, pour être en mesure de faire cette estimation, faire une hypothèse sur la transmission de la maladie d'un palmier à son jumeau. Exemple 3 : durée de vie uniforme La durée de vie d'un certain type de cellule est une variable aléatoire qui a une loi uniforme sur un intervalle de temps [ 0 ; θ ] . θ est inconnu et on veut l'estimer après avoir observé les durées de vie, exprimées en jours, de 12 cellules tirées au hasard : 6, 7, 6, 8, 2, 4, 10, 1, 5, 5, 9, 10. Quel estimateur proposer pour θ ?

C. Huber

17

Tests d'ajustement

II

TESTS D'AJUSTEMENT

1 - Introduction Très souvent, lors de la résolution d'un problème, on rencontre des phrases du type : "Si la loi de la variable X est normale ...", ou "Supposons que la loi de X soit de Bernoulli de paramètre p = 1/2, ..." ou en employant un langage plus courant "Supposons que deux structures différentes soient également réparties chez les bactéries". Comment vérifier l'exactitude de ces hypothèses ? Les techniques appropriées sont appelées des tests d'ajustement ou tests d'adéquation (fit tests en anglais): étant donnée une loi de probabilité théorique, il s'agit de savoir, à partir d'un n-échantillon, c'est à dire de n observations indépendantes, d'une variable aléatoire X, si cette variable obéit bien à la loi spécifiée. Le test le plus usuel est celui du chi 2 d'ajustement pour une loi multinomiale décrit au début du paragraphe suivant.

2 - Test d'ajustement du chi2 pour une loi spécifiée a. Cas d'une variable discrète : X a un nombre fini r de modalités, notées 1, 2, ..., r et il s'agit de tester l'hypothèse Ho : P(X = 1) = p1 , P(X = 2) = p2 , ..., P(X = r) = pr , où p1 , p2, ..., pr sont des probabilités données à l'avance. Alors on considère la statistique 2 r (N i - n p i) 2 E = ∑ n pi i =1 qui mesure l'écart relatif entre les effectifs observés Ni et les effectifs moyens npi appelés aussi effectifs "attendus" (de l'anglais "expected") si Ho est vraie. On peut démontrer que, si Ho est vraie, et pourvu que tous les npi soient assez grands (supérieurs à 5), E2 suit (approximativement) une loi du chi 2 à (r - 1) degrés de liberté (notés ddl).

C. Huber

18

Tests d'ajustement Exemple 4 : dosage Prenons un dosage biologique, qui peut être normal, faible ou fort selon qu'il se situe entre deux bornes, est inférieur à la plus petite, ou supérieur à la plus grande, a r = 3 modalités. On veut tester le fait que 90 % des gens ont un dosage normal, alors que 5 % l'ont faible et 5 % l'ont fort. Pour cela, on tire au hasard 100 sujets et on constate que, sur les 100 dosages, 76 sont normaux, 10 faibles et 14 forts. Quelle sera la conclusion ? b. Test d'ajustement du chi 2 pour une variable continue Si l'on se pose la question de savoir si une variable X suit ou non la loi normale N (0, 1), on peut se ramener au problème précédent en discrétisant la variable : c'est-à-dire que l'on fait une partition finie de l'ensemble R de toutes les valeurs possibles de X formée de r intervalles successifs sans point commun : ] - ∞, a1], ]a1 , a2] ,...,

] ar-1

+∞ [

Si l'on a observé un n-échantillon de valeurs de X, x1,..., xn, on résume ces observations en (N1, ..., Nr) où N1 désigne le nombre des xi qui sont inférieurs à a1, N2 le nombre de ceux qui tombent entre a1 (non compris) et a2 (compris) etc... Sous l'hypothèse H0 : la loi de X est la loi N (0,1) les probabilités pj pour que X tombe dans chacun des r intervalles Ij = ]aj-1 peuvent être calculées : aj

pj = a j -1

aj ]

2

1 z exp {- } dz 2 2π

Et on voit donc comment se ramener au problème du paragraphe précédent pour toute loi continue dont la densité est complètement spécifiée. Exemple 5 : Taux de cholestérol On veut savoir si le taux de cholestérol dans une sous population déterminée de patients suit la loi normale de moyenne 200 et variance 36, N (200, 36), qui est la loi du taux de cholestérol dans la population générale, lorsque ce taux est exprimé en cg/l Pour cela, on a extrait au hasard 100 sujets de cette population et obtenu les résultats suivants : Taux de cholestérol ] 90 110] 01 ] 110 130] ] 130 150] ] 150 170] ] 170 190]

Effectif ]190 02 18 26 16

Taux de cholestérol 210] 17 ]210 230] 12 ]230 250] ]250 270] ]270 290] ]290 310] C. Huber

Effectif 4 2 1 1

19

Tests d'ajustement On devra calculer les probabilités attribuées à chacun des intervalles par la loi N (200, 36) : aj 2 1 (z - 200) } dz pj = exp { 72 2π 6 a j-1

avec ao = - ∞ , a1 = 110, a2 =130,..., a11 = + ∞ , ou bien les chercher sur une table donnant la fonction de répartition Φ de la loi N (0 ; 1). En effet pj peut aussi s'écrire pj = F(aj) - F(aj - 1) = Φ ( (aj - 200) / 6) - Φ ( (aj-1 - 200) / 6) On devra ensuite regrouper certains intervalles mitoyens pour être dans les conditions de l'approximation souhaitée, c'est-à-dire npj supérieur à 5 pour chacun des pj . Alors la variable d'écart vaut : r (N - n p ) 2 2 i i E = Σ n p i i =1 et, sous l'hypothèse nulle Ho , le taux de cholestérol suit dans cette sous-population la loi N (200, 36), E2 suit une loi proche de la loi du chi 2 à r -1 degrés de liberté.Si la valeur observée de E2, soit e2, est trop grande, c'est-à-dire par exemple si : P(χ2r-1 ≥ e2 ) ≤ 0,05 et si l'on s'est fixé le seuil de 5%, on rejettera Ho. On pourra faire le calcul des pj, du nombre de classes qui restent après regroupement et finalement conclure, au seuil de 5%.

3 - Tests d'ajustement du chi 2 avec estimation de paramètres Lors des deux cas que nous avons envisagés jusqu'ici, les lois sur lesquelles on voulait réaliser l'ajustement étaient complètement spécifiées. En fait, le cas le plus fréquent en pratique est celui où la loi sur laquelle on cherche à réaliser l'ajustement n'est pas complètement spécifiée, mais comporte des paramètres qu'il faut d'abord estimer. Par exemple, lorsqu'on se demande si une variable est normale, c'est en général sans avoir d'a priori sur la moyenne et la variance de cette loi. On doit alors estimer µ et σ2 respectivement par m et s2 , pour pouvoir effectuer un ajustement sur la loi N (m ; s2). De même, s'il s'agit d'une loi multinomiale, les paramètres ne sont pas toujours complètement spécifiés, comme l'illustre l'exemple suivant.

C. Huber

20

Tests d'ajustement Exemple 2 : suite Le problème est de déterminer si la maladie du palmier à huile, le blast, se transmet d'un pied à son pied jumeau. L'hypothèse que l'on veut tester, Ho, est que la maladie ne se transmet pas. Alors, si θ représente la probabilité pour qu'un pied soit malade, et si X est la variable aléatoire qui désigne le nombre de pieds malades dans un couple (X vaut 0, 1 ou 2), on a :

P P

(X =2) (X = 1)

= =

P

(X = 0)

=

θ2 2 θ (1 − θ) (1 - θ)2

= =

p1 p2

=

p3

Si l'on observe n couples de palmiers jumeaux, on testera donc si la loi de (N1, N2, N3) où N1 est le nombre de couples dont les deux éléments sont malades , N2 le nombre de couples comportant un seul pied malade, N3 le nombre de couples dont aucun pied n'est malade, est une loi multinomiale de paramètres (n ; θ2 , 2 θ (1 − θ) , (1 - θ)2 ). Préalablement à l'ajustement, il faudra estimer θ . Nombre de pieds malades dans le couple Nombre de couples

2

1

0

73

185

242

Avec les notations précédemment introduites : N1 = 73 , N2 =185 , N3 = 242 p1 = θ2 , p2 = 2 θ (1 − θ) , p3 = (1 - θ)2 . La vraisemblance s'obtient en remplaçant dans : P (N1 = n1, N2 = n2, N3 = n3) n1 par 73, n2 par 185, n3 par 242, ce qui donne une fonction de θ seul. Calculons donc Pθ (N1 = n1, N2 = n2, N3 = n3), c'est-à-dire, de manière générale, la loi multinomiale de paramètres (n ; θ2 , 2 θ (1 − θ) , (1 - θ)2 ) :

P( N 1 = n 1 , N 2 = n 2 , N 3 = n 3 ) =

n n n n! p 1 1 p 2 2p 3 3 n 1! n 2!n 3!

On voit que ce calcul se généralise au cas où l'on a non plus 3, mais un nombre r quelconque de classes pour le caractère étudié. Ici, cela donne pour la vraisemblance de l'échantillon : 2x73 185 2 x 242 500! P( N 1 = 73 , N 2 = 185 , N 3 = 242 ) = θ [2θ(1 -θ)] (1 − θ) 73! 185!242! C. Huber

21

Tests d'ajustement

L'estimateur du maximum de vraisemblance de θ est la valeur qui rend cette fonction de θ aussi grande que possible. On obtient généralement cette valeur, qui rend la vraisemblance maximum, en cherchant le maximum du logarithme de la vraisemblance puisque la fonction Logarithme est monotone croissante. On note V(θ) la vraisemblance et L(θ) son logarithme. Ici L(θ) vaut : L(θ) = (146 + 185) log θ + (185 + 484) log (1 - θ) + C où C désigne une constante (C ne dépend pas de θ, mais elle dépend des effectifs observés). On obtient le maximum de L en dérivant L par rapport à θ : L'( θ ) = 331 / θ - 669 / (1 - θ) = 0 ce qui donne θ=

331 1 000

= 0,331

valeur qui correspond effectivement à un maximum puisque L" ( 0,331 ) < 0 . Qu'il s'agisse d'une variable discrète d'emblée ou d'une variable continue rendue discrète par subdivision de ses valeurs en un nombre fini de classes, soit X une variable prenant r valeurs distinctes, qu'on appellera 1, 2,..., r par commodité, et soit P (X = 1) = p1 et de manière générale P (X = i ) = pi pour i variant de 1 à r. Les valeurs de p1, ... , pr sont des fonctions connues d'un ou plusieurs paramètres θ 1, ... , θ k qui sont inconnus et qu'on remplace par leurs estimateurs du maximum de vraisemblance : n1 n2 nk n! p1( θ 1 , θ 2 ,..., θ k ) p2( θ 1 , θ 2 ,..., θ k ) ...pk( θ 1 , θ 2 ,..., θ k ) V( θ 1 , θ 2 ,..., θ k ) = n1! n2!n3! est la vraisemblance de l'échantillon si l'on a observé n1 fois la valeur 1 pour X, n2 fois la valeur 2, etc... Et les valeurs

θ 1 , θ 2 ,..., θ k sont celles qui rendent maximum cette fonction. On peut , si V est différentiable obtenir ces valeurs par dérivation. Il en résulte des estimateurs p 1 , p 2 ,..., p r Pour tester H0 : la loi de X a pour paramètre θ 1, ... , θ k On calcule la variable d'écart E2 entre les effectifs observés ni dans chacune des classes et leurs espérances sous Ho :

C. Huber

22

Tests d'ajustement 2

E =

r

(N i - n p i)

i =1

n pi



2

Alors, sous Ho, E2 suit une loi proche de celle du chi-2 pourvu que n soit assez grand pour que n pi ≥ 5

a r-k-1 degrés de liberté,

pour i = 1, 2, ... , r

Le nombre de degrés de liberté est diminué du nombre k de paramètres estimés. Ce résultat est vrai pourvu que les paramètres soient estimés par la méthode du maximum de vraisemblance. Exemple 2 : palmier à huile (suite) Revenons à l'exemple du palmier à huile. On a estimé un paramètre θ , et les valeurs correspondantes estimées de p1 , p2 , p3 sont : 0,1096 , 0,4422 et 0,4475

On vérifie que n pi ≥ 5

pour i = 1, 2, 3

La variable d'écart : 2

E =

r

Σ

(N i - n p i)

2

= 12,55 n pi suit approximativement la loi du chi 2 à 1 degré de liberté (r-k-1 = 3-1-1 =1) sous l'hypothèse nulle. Or P (χ12 ≥ 12,55 ) < 0,001 On rejette donc l'hypothèse nulle, et le test est significatif avec un degré de signification inférieur à 1 o/oo . i =1

Remarque 1 Comme il est, dans certains cas, comme par exemple celui où la loi de X était continue et a été discrétisée, assez compliqué d'estimer les paramètres non spécifiés par la méthode du maximum de vraisemblance sur les classes, qui est le cadre dans lequel est démontrée la convergence vers une loi du chi 2 de la variable d'écart E2, on se contente quelquefois d'utiliser d'autres estimateurs, plus simples, de ces paramètres. Exemple Pour ajuster des données à une loi normale d'espérance et de variance non précisées, on remplace souvent cette espérance et cette variance par leurs estimateurs empiriques 2 sn x et n-1 On pourra évaluer la différence des résultats obtenus en utilisant cette approximation et en se plaçant au contraire dans le cadre strict de la théorie sur les données concernant le taux de cholestérol. Remarque 2 En ce qui concerne la puissance de ces tests d'ajustement, appelés tests du C. Huber

(Chi-

23

Tests d'ajustement

deux), l'alternative contient trop de probabilités différentes pour qu'elle soit vraiment étudiée. La loi de E2, sous chacune de ces lois pose un problème différent qu'il faut résoudre en coup par coup.

3 - Test de Kolmogorov-Smirnov : On remarquera que le test d'ajustement du chi 2 est très bien adapté à des variables à r classes non ordonnées. En effet la statistique sur laquelle se fonde le test, E2, ne tient pas compte d'un ordre éventuel des r classes. Si l'on veut utiliser cette propriété, on peut utiliser un autre test d'ajustement : le test de Kolmogorov- Smirnov . La statistique sur laquelle est fondé ce test est D = sup ⏐ Fn- F ⏐ . Sup ⏐ Fn- F ⏐ signifie : sup t ∈R ⏐ Fn (t) - F (t) ⏐ , c'est-à-dire le maximum de la valeur absolue de la différence entre la fonction de répartition F de la loi sur laquelle on veut faire l'ajustement et la fonction de répartition empirique (ou fonction cumulative observée) : n 1 F n(t) = 1 ]- ∞ t] (x i) n iΣ =1 c'est-à-dire la fonction de répartition associée à la loi empirique (ou observée) définie par l'échantillon (x1, ... , xn). Sous l'hypothèse nulle Ho, selon laquelle X a effectivement pour fonction de répartition F, la loi de D dépend uniquement de la taille n de l'échantillon. Cette loi est tabulée (voir la table de D jointe à la fin de ce cours) pour n variant de 1 à 35 (n est appelé N dans la table). Pour les valeurs de n supérieures à 35, on utilise la convergence de la loi de D ⎟n vers une loi indépendante de n, quand n croit : P ( sup t

n ⎮F n (t) - F (t)⎮ < α ) → 1 - 2



Σ

(- 1)

k+1

2 2

e

-2k α

k=1

pour tout α positif. Il n'est pas nécessaire de retenir ce résultat. Ce qui importe c'est que , en pratique, dès que n est supérieur à 35, on peut utiliser une loi unique et par suite les valeurs correspondant aux seuils de signification de 20 %, 15 %,...,1 % forment une seule ligne de la table, la dernière, à condition bien sûr d'effectuer dans chaque cas la division par ⎟n, où n est le nombre des observations. Exemple 7 : radiographies Un appareil de radiographie admet 5 réglages possibles, allant du plus clair au plus foncé en ce qui concerne le tirage. On veut tester l'hypothèse, grâce à 10 médecins observant chacun les 5 tirages différents d'une même radio, concernant chacune un patient différent, selon laquelle la lisibilité de la radiographie est la même pour les cinq tirages On appelle Ho cette hypothèse, qui dit que les préférences des médecins des médecins, en ce qui concerne la lisibilité des radios, devraient être uniformément réparties sur les cinq tirages. C. Huber

24

Tests d'ajustement

Rang de la radio choisie (1 est la plus foncée) 1 0

2 1

3 0

4 5

5 4

F : fonction de répartition théorique sous H0

1/5

2/5

3/5

4/5

5/5

Fn : fonction de répartition empirique

0/10

1/10

1/10

6/10

10/10

Fn - F

2/10

3/10

5/10

2/10 0

Nombre de sujets choisissant ce rang

Donc D = 5/10 = 0, 500. Pour n = 10, la table de la loi de D, sous Ho, nous dit que : PHo (D ≥ 0, 500) < 0, 01 Le test est donc significatif, on rejette Ho, avec un degré de signification inférieur à 1%. Remarque : Le test de Kolmogorov a plusieurs avantages sur le test du chi 2 : 1) Il ne perd pas d'information comme c'est le cas parfois lorsqu'on est obligé de regrouper des classes pour avoir des effectifs suffisants dans chacune d'entre elles. 2) Lorsque le nombre d'observations est petit, le test du χ2 ne peut pas s'appliquer du tout. Si l'on essaie d'appliquer le test du χ2 à l'exemple ci-dessus, on doit combiner plusieurs catégories adjacentes :

Fréquence de choix

Foncé (1,2) 1

Clair (3,4,5) 9

soit supérieur à 3,75 tombe entre Alors χ12 = 3,75. La probabilité que χ12 0,05 et 0,10, ce qui ne nous permet pas de rejeter Ho au seuil de 5%.Ce test est moins puissant que le test de Kolmogorov- Smirnov, car on a perdu de l'information.

C. Huber

Indépendance

25

III Mise en evidence de liaisons : Tests d'indépendance.

La mise en évidence de l'existence d'une liaison entre deux caractères aléatoires a beaucoup d'importance dans toutes les études épidémiologiques, en particulier lorsqu'on a comme objectif la prévention des maladies. Les techniques employées sont différentes suivant que les variables étudiées sont discrètes ou continues; elles sont différentes aussi suivant que le type de loi des variables est connu ou non. Nous distinguerons trois cas fondamentaux qui donnent lieu chacun à diverses méthodes : les variables sont toutes les deux discrètes, une seule est continue et les deux le sont. Dans chacun de ces trois cas, nous avons vu une méthode particulière lors du chapitre I. Partant de là, nous allons introduire d'autres méthodes, plus générales.

1 - Les deux caractères sont discrets : a - Deux caractères à deux classes : Le cas le plus simple est celui où chacun des deux caractères A et B ne prend que deux valeurs. Prenons un exemple : on se demande si la sensibilité aux intoxications professionnelles dépend des conditions de vie : est elle la même pour la population rurale et pour la population citadine ? On dispose des observations suivantes : Intoxication Milieu Citadins Ruraux

sensibles 123 145

non sensibles taille d'échantillon 153 150

276 295

portant sur deux échantillons tirés au hasard d'une part parmi les habitants de la ville et d'autre part parmi les habitants de la campagne. Nous savons déjà traiter ce problème, par la technique de la "comparaison de deux proportions observées" qui sont ici : - La proportion observée d'individus sensibles parmi les citadins, soit po = 123/276 = 0,45 - La proportion observée d'individus sensibles parmi les ruraux, soit p'o = 145/295 = 0,49 Si p est la proportion exacte, dans la population des citadins toute entière, de ceux qui sont sensibles, et p' la même quantité pour les gens de la campagne, on teste l'hypothèse Ho (p = p'), la contre- hypothèse étant H1 (p ≠ p'). Sous l'hypothèse nulle Ho, la variable aléatoire

C. Huber

Indépendance

E =

26

P' o - P o

P t Qt (

1 1 + ) n1 n2

où Po est la proportion de sensibles pour un échantillon de n1citadins P'o est la proportion de sensibles dans un échantillon de n2 ruraux Pt est la proportion de sensibles dans l'échantillon total de taille n1+ n2 Qt = 1 - Pt a une loi qui est proche de la loi normale de moyenne nulle et de variance 1, notée N(0, 1), et dont la table figure à la fin de ce cours : en effet n1po, n1qo, n2 p'o, n2 q'o sont tous supérieurs à 5. On notera, dans toute la suite Z une variable de loi N(0,1). La valeur observée de E, dans notre exemple est :

e =

p' o - p o

pt qt (

1 1 + ) n1 n2

=

0,04 0,49 - 0,45 = 1 = 0,04 1 1 ) + 0,47.0,53 ( 276 295

Et la probabilité pour que, sous l'hypothèse Ho, on ait observé une valeur de E , qu'on appelle l'écart réduit des deux proportions, au moins aussi grande que e, en valeur absolue, vaut donc à peu près P (|Ε| ≥ | e |) ≈ P ( |Ε| ≥ 1) ≈ 0,32 Le degré de signification du test est donc 0,32, et le test n'est donc pas significatif : on conserverait Ho pour tout seuil α inférieur à 0,32. Or on n'estime en général qu'un test est significatif que si son degré de signification - qui vaut ici environ 30 % - est inférieur ou égal à 5 %. On conclut donc que le mode de vie, citadin ou campagnard, n'a pas d'influence sur la sensibilisation aux intoxications professionnelles. Pour généraliser ce test au cas où les deux caractères A et B ont plus de deux modalités, on l'exprime sous une autre forme, en remarquant qu'il est équivalent de dire |Ε| ≥ |e|

ou

E2 ≥ e2

De même que lors de l'étude des tests d'ajustement, on peut montrer que E2 s'écrit aussi, en notant : N1 N2 N3 N4 Pt Qt

l'effectif de ceux qui sont sensibles parmi les citadins l'effectif de ceux qui ne sont pas sensibles parmi les citadins l'effectif de ceux qui sont sensibles parmi les ruraux l'effectif de ceux qui ne sont pas sensibles parmi les ruraux la proportion des sensibles sur le total la proportion des insensibles sur le total Qt = 1 - Pt

C. Huber

Indépendance

27

2

2

2

(N 3 - n 2P t ) (N 4 - n 2Qt ) (N 2 - n 1Qt ) (N 1 - n 1P t ) + + + E = n 2P t n 2Qt n 1Qt n 1P t 2

2

Sous l'hypothèse nulle Ho d'indépendance des deux caractères, qui se traduit par l'égalité des proportions de sensibles dans les deux populations de citadins et de ruraux, tout se passe comme si l'on avait un seul échantillon de taille n1+n2 et Pt constitue alors un bon estimateur de cette proportion. Alors E2 peut être interprété comme la somme des carrés des écarts (réduits) de chacun des effectifs à sa moyenne estimée. On appelle quelquefois les Ni les effectifs observés et les niPt et niQt les effectifs "calculés" ou "théoriques". Sous l'hypothèse Ho, pourvu que les dénominateurs niPt et niQt soient tous supérieurs ou égaux à 5, E est approximativement normale N(0, 1), donc E2 est approximativement χ21 .On rappelle (voir au chapitre I) qu'on appelle loi du chi deux à r degrés de liberté (notée χ2r) la loi de la variable S = Z21+Z22+... +Z2r où les Zi sont indépendantes et toutes de loi N(0, 1)). Dans la table des lois du chi deux, on lit donc que P(E2 >e2) = P(E2 > 1) ≈ 0, 32. On constate donc que le test fondé sur E2 est identique à celui fondé sur E , mais la forme E2 permet une généralisation immédiate en cas où A a r modalités, B a k modalités .

b - Deux caractères à r et k classes :

Prenons à nouveau un exemple : on veut savoir si le temps écoulé depuis la vaccination contre la petite vérole a ou non une influence sur le degré de gravité de la maladie lorsqu'elle apparaît. Les patients sont divisés en trois catégories selon la gravité de leur maladie - légère (L), moyenne (M), ou grave (G) - et en trois autres quant à la durée écoulée depuis la vaccination - moins de 10 ans (A), entre 10 et 25 ans (B), plus de 25 ans (C). Les résultats d'une observation portant sur n = 1574 malades sont les suivants :

C. Huber

Indépendance

Durée X écoulée depuis la vaccination A

28

B

C

Total

42 114 301 457

230 347 510 1087

273 467 834 1574

Degré de gravité Y de la maladie G M L Total

1 6 23 30

Pour mettre en évidence une liaison entre X et Y, on choisit de tester les hypothèses nulle et alternative : Ho : X et Y sont indépendantes, H1 : X et Y sont liées . De manière générale, soient X et Y deux variables discrètes, X à r classes et Y à k classes, notées respectivement i = 1,..., r et j = 1,..., k et nij l'effectif observé, dans le tableau croisé, des individus pour lesquels X vaut i et Y vaut j. On note n..j le nombre total de ceux pour lesquels Y vaut j, et qui figure au bas de la jème colonne, et ni. le nombre total de ceux pour lesquels X vaut i , et qui figure à droite de la ligne i. Sous l'hypothèse Ho d'indépendance de X et Y : P (X = i, Y = j) = soit pij

P (X = i) . P (Y = j) = pi . p.j

Comme des estimateurs de chacune de ces probabilités à partir du tableau des effectifs du tableau des observations, sont n n n p ij = ij , p i. = i. , p .j = .j n n n Si Ho est vraie les écarts p ij - p i. . p .j ne doivent être dus qu'aux fluctuations d'échantillonnage, On peut démontrer que la variable (n ij - n i.p .j) E = ∑ n i.p .j i = 1, ..,r ; j = 1, ..,k 2

2

suit une loi proche de celle du χ2 à (r - 1) (k -1) degrés de liberté, pourvu que les dénominateurs ni. p.j soient tous supérieurs à 5 (si ce n'est pas le cas, on regroupe plusieurs classes). Revenant à l'exemple considéré, r = k = 3 et la variable E2, qui vaut e = 61,4, suit , sous

C. Huber

Indépendance

29

l'hypothèse Ho, une loi du χ2 à (r -1) (k - 1) = 4 degrés de liberté. Donc PHo (E2 > 61,4) < 10-3 d'après la table, le test est donc significatif avec un très bon degré de signification (10-3): on rejette l'hypothèse d'indépendance de la gravité de la maladie et du délai écoulé depuis la vaccination.

2 - Cas d'un caractère continu et d'un caractère discret à deux classes On considère qu'il y a une liaison entre un caractère continu Y et un caractère discret X à deux classes notées, par commodité 0 et 1, dès que la loi de Y n'est pas la même lorsque X vaut 0 et lorsque X vaut 1. Lorsqu'on veut mettre en évidence une telle liaison, on fait un test sur deux groupes d'individus comparables à tous points de vue, sauf en ce qui concerne la valeur de X qui vaut 0 dans l'un des deux groupes et 1 dans l'autre.

a - Test de comparaison de moyennes :

Lorsque les deux lois L (Y | X = 0) et L (Y | X = 1) sont différentes, cela peut provenir par exemple d'une différence entre les deux espérances : Appelons Y' la variable lorsque X = 1 et Y lorsque X = 0. On teste alors : Ho : EY' = EY ≠ EY H1 : EY' C'est le test, bilatéral, d'égalité des moyennes, fondé sur l'écart réduit (souvent appelé ε, mais ici noté E) entre les moyennes observées pour Y et pour Y' : E=

Y' - Y 2

2

S' S + n' n

Si l'on choisit pour risque d'erreur de première espèce α , la zone de rejet de Ho ,donc de l'hypothèse que X et Y sont indépendants, correspond à la région : { |E| > h } où h est choisi tel que :

PHo { |E| > h}= α .

a.1 - Cas des grands échantillons (supérieurs à 30) : C. Huber

Indépendance

30

Lorsque les tailles n et n' des deux échantillons sont suffisamment grandes (on a choisi, par expérience, mais aussi un peu arbitrairement, la valeur 30 comme seuil), la loi de E, sous Ho, est proche de la loi normale N (0,1).C'est-à-dire que si Z est une variable normale N (0,1), de densité de probabilité qui vaut par conséquent 2

1

z exp ( - ) 2 2π

f(z) = on a

P ( ( E ) ≤ h ) ≈ P ( (Z ) ≤ h ) =

h

1

−h





exp(−

z2 ) dz 2

Exemple

Pour mettre en évidence l'effet éventuel de l'absorption d'un médicament sur le rythme cardiaque, on forme deux groupes, de 100 sujets chacun, par tirage au sort parmi les malades traités par ce médicament : au premier groupe, on n'administre pas le médicament, mais un placebo ; au deuxième groupe on administre le médicament. Les moyennes et variance estimées sur chacun des groupes sont my = 80 s2y = 5 pour le rythme cardiaque Y du groupe témoin, my' = 81 s2y'= 3 pour le rythme cardiaque Y'du groupe traité . EY) qui se fonde sur l'écart réduit E Le test bilatéral de Ho (EY' = EY) contre H1 (EY' défini ci-dessus, vaut E = 2,5. Le test est donc significatif et a un degré de signification compris entre 1% et 2 %. a. 2 - Cas des petits échantillons ( inférieurs à 30) : le test de Student ; Dès que l'un des deux échantillons indépendants a une taille inférieure à 30, on ne peut plus obtenir la loi de E sous H0 grâce à l'approximation normale. Cependant, si l'on sait (ou si l'on peut s'autoriser à supposer) que la loi de Y et celle de Y' sont toutes les deux normales et de même variance, la variable :

E' =

Y' - Y 2 Sy'

2

n' + n Sy n + n' - 2

1 + 1 n' n

suit la loi de Student à n + n' - 2 degrés de liberté. Définition de la loi de Student à n ddl : Si X et Y sont deux variables aléatoires indépendantes, X ayant la loi normale N(0, 1) et Y la loi de Chi deux à n degrés de liberté. Alors, par définition, la variable aléatoire X n T = Y

C. Huber

Indépendance

31

suit la loi de Student à n degrés de liberté dont la densité gn (t) au point t vaut 2

g n(t) = c n (1 +

t ) n

-

n+1 2

(où cn est le coefficient positif qui assure que ∨ gn(t) dt = 1 ). Exemple : dosage de la transferrine

Pour évaluer la valeur diagnostique du dosage de la transferrine dans les hépatites alcooliques, deux groupes de sujets ont été étudiés (Nouvelle Presse Médicale (1974)) Un premier groupe de 15 sujets normaux, indemnes de toute lésion hépatique, a donné les résultats suivants : - moyenne des dosages 1,9 g|l - écart type de l'échantillon 0,2 g|l Dans le deuxième groupe de 14 malades ayant une hépatite alcoolique chronique, on a trouvé les résultats suivants : - moyenne des dosages 1,3 g|l - écart type de l'échantillon 0,2 g|l. En appelant Y la variable qui désigne le dosage de la transferrine chez les sujets normaux et Y' celle qui désigne la même variable chez les sujets affectés d'une hépatite alcoolique chronique, on veut tester Ho : EY' = EY H1 : EY' < EY Comme on a affaire à de petits échantillons (n = 15 et n' =14), on va supposer que Y et Y' sont deux variables normales de même variance, ce qui est raisonnable d'une part parce que beaucoup de dosages biologiques suivent une loi normale et d'autre part parce qu'un test d'égalité des variances aurait permis de conclure à l'égalité de celles-ci. Alors Y' - Y E' = 2 2 n' Sy' + n Sy 1 + 1 n + n' - 2 n' n qui vaut ici -7,79, suit sous Ho une loi de Student à n + n' - 2 = 27 degrés de liberté. C'est-à-dire que P (E' < -7,79) = P (T27 < - 7,79) < 0,001 Le test est donc significatif, avec un très bon degré de signification. On pourra donc utiliser un taux de transferrine assez bas comme un symptôme possible d'une hépatite alcoolique chronique. Cependant, on voit bien quelles sont les limites de cette première méthode pour traiter le cas des petits échantillons : d'une part il n'est pas toujours possible de faire l'hypothèse de normalité et d'égalité des C. Huber

Indépendance

32

variances des variables de base, pour pouvoir fonder un test sur la variable E' de loi de Student sous Ho. D'autre part, pour tester l'indépendance de la variable à deux classes (traité et non traité dans le premier exemple, alcoolique ou non dans le second) et de la variable continue (rythme cardiaque dans le premier, transferrine dans le second) on s'est contenté de comparer les espérances de cette dernière pour chacun des deux niveaux de la première. Or d'autres types de différences peuvent intervenir, à moyennes égales ou non. b. Les tests non paramétriques :

Lorsqu'on ne peut pas supposer les variables de base normales et de même variance, on peut utiliser des tests dits non paramétriques qui sont valables quelles que soient les lois des variables de base. Nous verrons trois tests de ce type, ainsi appelés parce qu'ils n'impliquent pas de spécification a priori de lois théoriques dépendant d'un nombre fini de paramètres (par exemple : 2 paramètres pour la loi normale, N (µ, σ2), la moyenne µ et l'écart type σ ,1 pour la loi de Poisson etc.) : - le test de la médiane - le test de Wilcoxon - le test de Kolmogorov-Smirnov;

Nous illustrerons chacun de ces trois tests sur un même exemple : Exemple :

Un médecin décide de s'assurer de l'efficacité d'un traitement dont il pense qu'il peut prolonger la vie de malades ayant déjà eu un infarctus. Il choisit pour cela 10 malades comparables à tous points de vue, en prend 5 au hasard, à qui il applique le traitement. Les 5 autres seront des témoins non traités, mais à qui on administre un placebo.Les résultats concernant la durée de survie exprimée en années sont les suivants : Traités (T) Non Traités (NT)

6,5 6,7

4,2 0,4

17,8 2,9

7,9 1,2

13,2 5,6

Pour chacun des trois tests, la première opération à effectuer est d'ordonner les valeurs obtenues, en les considérant dans leur ensemble : En effet, sous l'hypothèse nulle Ho : L (S | T ) = L (S | NT ) qui signifie que la loi de survie (S) chez les traités (T) est la même que chez les non traités (NT), tout se passe comme si l'on avait, non pas deux échantillons indépendants de tailles respectives n et n', mais un seul grand échantillon de taille n + n'. On obtient ainsi la suite : Durée de survie

0,4

1,2

2,9

4,2

5,6 C. Huber

6,5

6,7

7,9

13,2 17,8

Indépendance

Rang

1

2

Traitement

3

4

5

T

33

6

7

T

8

9

10

T

T

T

b.1 Test de la médiane :

Rappelons la définition de la médiane d'une loi ou d'une variable. Définition de la médiane : Etant donnée une variable aléatoire réelle X de fonction de répartition F, ( F (x) = P(X ≤ x) ), on appelle valeur médiane de X (ou de F) la valeur m telle que :

m = ½[ inf { x : F(x) ≥ 0,5) + sup { x : F(x) ≥ 0,5) La médiane est donc en gros une valeur m telle que : P (Xm) = 1/2 . C'est-à-dire que X a autant de chances d'être inférieur à m que d'être supérieur à lui. En particulier, la médiane empirique (ou observée) qui est celle de la loi empirique de l'échantillon est une valeur centrale telle qu'il y ait autant d'éléments de l'échantillon à sa gauche qu'à sa droite. Ici m = 6,05 Remarque : Si F est continue, la médiane M est unique et égale à x où F(x) = 0.5. La fonction de répartition empirique est toujours discrète. Aussi on définit en général la médiane m de l'échantillon par

m = x(n+1)/2 si n est impair et (x(n/2) + x(n/2+1))/2 si n est pair où les x(i) sont les valeurs ordonnées de l'échantillon. On remplace alors les résultats observés par le résumé suivant : groupes

Non traités

Traités

Totaux

Effectifs Nombre des patients dont la durée de survie est supérieure à la médiane

1

4

5

Nombre des patients dont la durée de survie est inférieure à la médiane (≤)

4

1

5

Totaux

5

5

10

C. Huber

Indépendance

34

Cela donne dans chacun des deux groupes les effectifs des valeurs inférieures et supérieures à la médiane. De manière générale, les effectifs n et n' de chacun des deux groupes sont classés en deux catégories suivant que la valeur de la variable est inférieure ou supérieure à la médiane générale observée : Groupe I X > M (médiane générale) X≤M Totaux

A B A+B=n

Groupe II C D C + D = n'

Totaux A+C B+D n + n'

A+C représente (à une unité près) la moitié de l'effectif global n + n'. Sous l'hypothèse nulle, tout se passe comme si d'une urne contenant n + n' boules dont n de type I et n' de type II,on tirait au hasard (A + C) boules. Le tirage se faisant "au hasard", cela signifie que chaque combinaison de (A + C) boules parmi les n + n' a la même probabilité de sortir. Comme il y a en tout n + n' A+ C telles combinaisons dont

n n' x A C

contiennent exactement A boules du type I et C du type II. Donc : n n' . A C P(A,C) = n+n' A+C qui s'écrit aussi en tenant compte de ce que n = A + B et n' = C + D : (A+B)! (B+D)! (A+C)! (C+D)! P' A,C) = (n+n' )! A! B! C! D! Rappel : k n , notée aussi Cn, est le nombre des combinaisons de n objets pris k par k, k n! et vaut . k! (n-k)! où n! , appelée factorielle n, est le produit des n premiers entiers n! = n.(n-1).(n-2)...3.2.1 . Cette loi tabulée pour diverses valeurs des effectifs, n =A + B et n'= C + D, de chacun des deux groupes : voir la table I intitulée " Table of critical values of D (or C) in the Fisher test ". Cette table correspond à un test unilatéral de l'hypothèse H0 d'indépendance. Dans l'exemple considéré, A + B = 5, C + D = 5 ; la valeur de B étant 4, il faudrait que D soit nul pour que le test soit significatif. Il ne l'est donc pas puisque D vaut 1 et on ne rejette pas l'hypothèse selon laquelle le traitement n'a aucun effet sur la durée de survie.

on rappelle que la quantité

C. Huber

Indépendance

35

Remarques 1) Une telle conclusion parait peu satisfaisante. Elle est due en fait au manque de puissance du test utilisé. Ce manque de puissance provient de ce que l'on a perdu beaucoup d'information en remplaçant les données initiales sur la durée de survie par le tableau des effectifs inférieurs et supérieurs à la médiane globale. La variable quantitative continue qu'était la durée de survie a été transformée en une variable à deux classes. 2) Le test finalement employé sur le tableau des effectifs A, B, C, D est un test d'indépendance entre deux caractères à deux classes : Traités, non traités Survie à plus de 6 ans, et à moins de 6 ans Le test correspondant est appelé test de Fisher, d'où l'intitulé de la table I 3) Lorsque les effectifs de chacun des deux groupes dépassent 15, on peut faire un test du χ2 . D'autre part, si l'on ne dispose pas de la table I, ou si l'un des deux groupes seulement a un effectif supérieur à 15, on peut calculer ldirectement e degré de signification du test à partir de la formule qui donne P (A, C). b.2 Test de Wilcoxon pour deux échantillons

Le test de Wilcoxon, qui s'appuie sur une moindre réduction des données initiales , est plus puissant que le précédent. La statistique considérée est la somme W des rangs des valeurs obtenues dans l'un des deux groupes lorsqu'on a rangé l'ensemble des résultats par ordre croissant. Dans notre exemple, si l'on additionne les rangs des durées de survie des patients traités on obtient : W = 4 + 6 + 8 + 9 + 10 = 37 . Plus le traitement est efficace, plus W a tendance à être grand. Sous l'hypothèse Ho de non influence du traitement, tout se passe comme si d'une urne contenant les nombres 1, 2, ..., 10 on les tirait l'un après l'autre formant ainsi une permutation des 10 premiers entiers, les 5 premiers par exemple représentant les rangs des sujets traités Toutes ces permutations sont équiprobables et donc de probabilité 1 / 10! . Mais deux permutations telles que les 5 premiers termes soient, dans leur ensemble, identiques, donnent les mêmes rangs aux individustraités, on ne les distinguera donc pas. Comme il y a (5!)2 telles permutations, on obtient la probabilité d'une certaine répartition des rangs entre les traités et les témoins : elle vaut 5! 5! 10! Remarquons qu'elle n'est pas toujpurs égale à la probabilité pour queW soit égale à une certaine valeur. En effet, les deux répartitions distinctes suivantes : R1 = (4, 6, 8, 9, 10) pour les traités et donc (1, 2, 3, 5, 7) pour les témoins R2 = (5, 6, 7, 9, 10) pour les traités et donc (1, 2, 3, 4, 8) pour les témoins donnent la même valeur à W : 37. On décidera de rejeter Ho si W est trop grand ou trop petit . On peut décider de rejeter Ho si P (W ≥ 37) est inférieure à 5% pour conserver toujours le même seuil et pouvoir ainsi C. Huber

Indépendance

36

comparer le résultat à celui obtenu par les autres méthodes (qui n'utilisent pas aussi bien l'information contenue dans les données). Pour calculer P (W ≥ 37) il faut déterminer les répartitions R telles que W ≥ 37. Leur nombre, multiplié par (5!)2 / 10! donnera la probabilité cherchée : R = (6, 7, 8, 9, 10)Traités R = (5, 7, 8, 9, 10)T R = (5, 6, 8, 9, 10)T R = (4, 7, 8, 9, 10)T R = (5, 6, 7, 9, 10)T R = (4, 6, 8, 9, 10)T R = (3, 7, 8, 9, 10)T

W = 40 W = 39 W = 38 W = 38 W = 37 W = 37 W = 37

Donc P (W ≥ 37) = 7.(5!)2 / 10! ≅ 0,026 . Au seuil de 5%, on rejette donc Ho et on conclut que le traitement est efficace. Le test précédent, appelé test de Wilcoxon, est beaucoup plus sensible que le test que nous avions employé avant et dont le nom est test de Fisher ou d'Irwin-Fisher. Ces deux procédures de test sont non-paramétriques puisqu'aucune hypothèse n'a été faite sur la forme de la loi de la variable étudiée. Nous avons procédé ci-dessus à un calcul direct. Cependant, on dispose de tables (p ) qui donnent les probabilités relatives à W pour les valeurs n1 et n2 des deux tailles d'échantillons inférieures ou égales à 6. Ces tables sont faites pour la statistique U de MannWhitney, qui compte, non pas la somme des rangs des sujets du groupe I, mais la somme des dépassements des sujets de l'autre groupe (II), donc W = U+

n 1 (n 1 + 1) 2

ou n1 = n + n'. On rappelle que la somme des k premiers entiers est égale à k(k+1) / 2 .

b.3 Test de Kolmogorov - Smirnov pour deux échantillons :

L'une des limitations du test de comparaison des moyennes provient de ce qu'il ne mettra en évidence que des différences concernant justement les espérances des lois concernées. Le test de Kolmogorov - Smirnov par contre porte sur une comparaison globale des deux lois : Il est fondé sur l'écart maximal observé entre les deux lois empiriques relatives à chacun des deux échantillons. Reprenons l'exemple précédent et notons Fn la fonction de répartition empirique de la survie dans le groupe non traité. F'n la même quantité par le groupe traité. Lorsqu'on veut faire un test bilatéral, c'est l'écart maximal en valeur absolue que l'on considère

C. Huber

Indépendance

37

D = maximumx (Fn (x) - F'n (x)) appelée la statistique de Kolmogorov. Mais le plus souvent, comme d'ailleurs dans l'exemple choisi, on a besoin d'un test unilatéral car on aimerait pouvoir conclure, lorsque le test est significatif, à un écart dans une direction déterminée : ici, à l'efficacité du traitement. On fonde alors le test sur l'écart maximal des fonctions de répartition empiriques dans le sens choisi. Ici: D = maximumx ( Fn (x) - F'n (x) ) appelée statistique de Smirnov, qui vaut 3 / 5 dans notre cas, comme on le voit ci-dessous.

Fn

1 F' n

0

0,4

1,2

2,9

4,2

5,6

6,5 6,7

7,9

13,2

Fonctions de répartition empiriques des durées de survie : Fn pour le groupe non traité F'n pour le groupe traité. La loi de D a été tabulée dans chacun des deux cas (bilatéral et unilatéral ) : Voir la table L, intitulée "Table of critical values of KD in the Kolmogorov - Smirnov two-sample test". KD y désigne le numérateur de D, lorsque le dénominateur est la taille commune N (ici N = 5) des deux échantillons. Le degré de signification du test pour le test unilatéral correspond aux deux colonnes intitulées "One-tailed test". Pour le test bilatéral, aux deux colonnes "Two-tailed test". Lorsque les tailles des deux échantillons sont trop grandes, on utilise l'approximation normale , sous Ho, pour W1, somme des rangs du groupe I : L (W 1)

≈ N(

n 1 ( n 1 + n 2 + 1) n 1 n 2 ( n 1 + n 2 + 1) ) ; 12 2

C. Huber

Indépendance

38

où n1 et n2 sont les tailles des deux échantillons et N = n1 + n2. Dans notre cas, N = 5 : il faudrait, pour qu'un test unilatéral soit significatif à 5% que KD soit égal à 4 (et qu'il soit égal à 5 pour être significatif à 1%) ; Comme ici KD = 3, le test n'est pas significatif (tout au moins à 5%). Des trois tests envisagés, le plus puissant est donc ici le test de Wilcoxon. On peut démontrer qu'il a effectivement de très bonnes propriétés. Cependant, il faut remarquer qu'il suscite une difficulté : lorsqu'on ordonne les résultats observés, il se peut qu'il y ait des ex-aequo. On dit "ties" en anglais. Quels rangs leur attribuer alors ? L'une des possibilités, la plus simple, est d'affecter à chacun des ex -aequo le rang moyen entre celui de la valeur strictement inférieure et celui de la valeur strictement supérieure. (Il faut remarquer que cette valeur ne sera pas nécessairement entière). On peut aussi, mais la réalisation est plus compliquée, affecter aléatoirement les rangs intermédiaires à l'ensemble des ex-aequo.

3 - Liaison entre deux caractères continus a - Cas normal :

Nous avons déjà vu lors du cours de PCEM 1 un test qui permet de mettre en évidence une liaison entre deux caractères continus, lorsque ces deux variables ont une loi jointe normale et ont la même variance, c'est-à-dire que le couple de variables (X, Y) admet pour densité de probabilité en tout point (x,y) du plan : 2 2 1 1 f(x,y) = exp ( (x-µ) - 2ρ(x−µ)(y−µ' ) + (y-µ' ) )

2πσ

2

2

2(1- ρ )

où µ et µ' sont les espérances de X et de Y et ρ le coefficient de corrélation de X et Y: ρ(X,Y) =

E [(X - EX) (Y - EY)] σ(X) σ(Y)

Dans ce cas, les variables X et Y sont indépendantes si et seulement si ρ est nul, et le test d'indépendance est fondé sur la loi du coefficient de corrélation empirique : n

∑ (x i - x) (y i - y)

i =1

R =:

n

[

∑ (x i - x)

2

n

] [

i =1



2

(y i - y) ]

i =1

dont la loi , qui dépend de n, est tabulée : voir la table de la loi de R à (n-2) degrés de liberté du cours de PCEM 1.

b - Cas général : méthodes non paramétriques : C. Huber

Indépendance

39

L'hypothèse de normalité et d'égalité des variances nécessaire à l'utilisation du test R cidessus est très restrictive. Lorsqu'une telle hypothèse ne peut pas être faite - ce qui est presque toujours le cas en pratique - on doit trouver une statistique qui, sous l'hypothèse nulle d'indépendance de X et Y, ait une loi qui soit la même quelle que soit la loi du couple (X, Y) : on dit alors que la statistique est libre. L'idée est de remplacer les valeurs des variables par leurs rangs : on ordonne par ordre croissant les valeurs xi observées et on affecte à chacune son rang, qui varie ainsi de 1 à n : R (i) désigne le rang de Xi. De même pour les yi : S (i) désigne le rang de Yi. b1 Coefficient de corrélation des rangs de Spearman : rs :

Le coefficient de corrélation des rangs de Spearman, noté rs est le coefficient de corrélation de la suite (R(i), S(i)), i = 1, ..., n, des rangs : n

∑ (R(i) - R) (S(i) - S)

i =1

R s =:

n

[

n

2

2

∑ (R(i) - R) ] [ ∑ (S(i) - S) ]

i =1

i =1

Cette formule se simplifie car les valeurs de R, comme celles de S, parcourent la suite des n premiers entiers. Or on sait que n

∑ i =1 n

∑ i =1

i

2

=

i =

n (n+1) 2

n (n+1) (2n + 1) 6

donc

R = S =

2

2

n+1 2

ΣR = ΣS =

donc

n (n+1) (2n + 1) 6

En utilisant pour le coefficient de corrélation l'expression Rs =

Σ RS 2

2

(Σ R ) (Σ S )

on obtient , en notant di la différence R (i) - S (i) entre les rangs de X et de Y :

C. Huber

Indépendance

40 2

rs = 1 -

6 Σ di 3

n - n

Exemple

Le tableau ci-dessous donne la mortalité annuelle moyenne pour les hommes âgés de 45 à 64 ans, de 1958 à 1964 et la concentration en ion calcium de l'eau potable pour 61 villes d'Angleterre et du pays de Galles. Lorsqu'apparaissent des ex-aequo , on affecte à chacun d'eux le même rang, qui est la moyenne des rangs qu'ils auraient eus s'ils n'avaient pas été égaux. Lorsque le nombre des ex aequo n'est pas très important - ce qui est le cas ici -, l'effet d'une telle procédure est négligeable sur le comportement de rs. Si au contraire il y avait beaucoup d'ex aequo, l'effet de cette procédure est de diminuer la somme des carrés des rangs : Σ R2 (ou Σ S2, ou les deux) ne vaut plus

n (n+1) (2n+1) 6 mais une valeur inférieure qu'il faut alors calculer. Ville

Bath Birkenhead Birmingham Blackburn Blackpool Bolton Bootle Bournemouth Bradford Brighton Bristol Burnley Coventry Croydon Darlington Derby Doncaster East Ham Exeter Gateshead Grimsby Halifax

Mortalité per 100,000

Calcium ppm

(y)

(x)

1,247 1,668 1,466 1,800 1,609 1,558 1,807 1,299 1,637 1,359 1,392 1,755 1,307 1,254 1,491 1,555 1,428 1,318 1,260 1,723 1,379 1,742

105 17 5 14 18 10 15 78 10 84 73 12 78 96 20 39 39 122 21 44 94 8

Ville

Newcastle Northampton Norwich Nottingham Oldham Oxford Plymouth Portsmouth Preston Reading Rochdale Rotherham St Helens Salford Sheffield Southampton Southend Southport Southshields Stockport Stoke Sunderland C. Huber

Mortality per 100,000

Calcium ppm

(y)

(x)

1,702 1,309 1,259 1,427 1,724 1,175 1,486 1,456 1,696 1,236 1,711 1,444 1,591 1,987 1,495 1,369 1,257 1,587 1,713 1,557 1,640 1,709

44 59 133 27 6 107 5 90 6 101 13 14 49 8 14 68 50 75 71 13 57 71

Indépendance

Huddersfield 1,574 Ipswich 1,096 Hull 1,569 Leeds 1,591 Leicester 1,402 Liverpool 1,772 Manchester 1,828 Middlesborough1,704 Swansea 1,625

9 138 91 16 37 15 8 26 13

41

Wallasey Walsall West Bromwich West Ham Wolverhampton York Cardiff Newport

1,625 1,527 1,627 1,486 1,485 1,378 1,519 1,581

20 60 53 122 81 71 21 14

Ici rs = - 0, 727 pour les 30 observations de la colonne de gauche. Que conclure en ce qui concerne ces 30 villes ? On fera le même calcul pour l'ensemble des 61 villes. Quelle est alors la conclusion ? Sous l'hypothèse nulle d'indépendance des deux variables X et Y, toutes les permutations des rangs de l'une ont les mêmes chances d'être associées à une suite donnée de rangs pour l'autre.A chacune de ces permutations, qui sont en nombre n ,correspond une valeur du coefficient de corrélation de Spearman rs.Chacune de ces valeurs a donc pour probabilité 1/ n etcette loi a été tabulée. Lorsque n est assez grand, au-delà de 10, la loi de

T = Rs

n-2 1 - Rs

2

est approximativement la loi de Student à n - 2 degrés de liberté.

b2 Coefficient d'association des rangs de Kendall : Il s'agit d'une autre mesure d'association entre les rangs de deux variables quantitatives. Le test correspondant à la même puissance que le précédent, et il a l'avantage de se généraliser au cas où intervient une troisième variable : voir ci-dessous, le coefficient de corrélation partielle des rangs. Voyons, sur un exemple, comment se définit le coefficient de Kendall. Exemple : Deux médecins sont chargés de pronostiquer la durée de survie de quatre patients a, b, c, et d. Le tableau ci-dessous donne les pronostics, en années :

Patient Médecin 1 : X Médecin II : Y

a 1 1,5

b 2 0,8

c 0,9 2

d 0,5 1

Remplaçant les durées pronostiquées par leurs rangs, et réordonnant les patients par ordre croissant en ce qui concerne le pronostic du premier médecin, on obtient le tableau ciC. Huber

Indépendance

42

dessous Patient Médecin 1 : R Médecin II : S

d 1 2

c 2 4

a 3 3

b 4 1

Pour déterminer le degré de correspondance de ces deux classements, on décompte le nombre de couples (de patients) qui sont rangés dans le même ordre , de la manière suivante : Le premier couple (d, c) est ordonné de la même manière par I et II : on dit qu'il y a concordance, et on affecte à ce couple le score + 1; c'est aussi le cas du deuxième couple (d, a) : on lui affecte aussi + 1; le troisième par contre (d, b) est inversé : il est discordant et on lui affecte le score - 1, et ainsi de suite . On obtient finalement, en additionnant les concordances (+ 1) et les discordances (- 1) la valeur : - 2. Or la plus grande valeur possible de ce coefficient de concordance est égale au nombre des couples distincts , c'est-à-dire le nombre des combinaisons de n = 4 objets pris deux par deux : 4!/(2!2!) = 6 On appelle coefficient d'association de Kendall τ le rapport de la valeur du coefficient de concordance observée à sa valeur maximale : ici 2 τ = − = − 0,33 6

Comme le coefficient rs de Spearman, τ est compris entre - 1 et + 1. Une autre façon, plus simple, de le calculer est la suivante : A chaque valeur de S on fait correspondre la différence entre le nombre de ceux qui, à droite de lui, sont plus grands que lui et le nombre de ceux qui, toujours à droite de lui, sont plus petits que lui. Ainsi cela donne dans notre exemple : Patient

d: 2-1=1, c: -2 , a: -1 ,

ce qui donne en tout -2. La loi de τ sous Ho est tabulée. De plus, dès que n est supérieur à 10, la loi de τ − µτ

στ est approximativement la loi normale N (0, 1), où στ =

µτ = 0 et

2 (2n+5) 9n (n-1)

C. Huber

Indépendance

43

b3 Coefficient d'association partielle de Kendall τ xy,z :

Il arrive souvent qu'une relation apparente entre deux variables X et Y soit due en fait à l'intervention d'une troisième variable Z. De manière générale, pour mettre en évidence un tel phénomène, on étudie la corrélation entre X et Y à Z fixé. On pourrait par exemple vouloir étudier l'association entre la capacité de mémorisation (X) et celle de résoudre des problèmes (Y), en éliminant l'effet du troisième facteur (Z) que serait l'intelligence.

Exemple : Ces trois variables X, Y et Z ont été mesurées sur quatre sujets a, b, c, d. Après remplacement de ces variables par leurs rangs et rangement par ordre croissant par rapport à Z on obtient le tableau suivant :

Sujet Rang de Z Rang de X Rang de Y

a 1 3 2

b 2 1 3

c 3 2 1

d 4 4 4

A chacun des 6 couples de sujets on associe un signe + lorsque la variable correspondante va croissant et un signe - lorsqu'elle va décroissant, obtenant ainsi le tableau : Z X Y

Couple +

(a,b) + -

(a, c) + +

(a, d) + + +

(b, c) + + +

(b, d) + + +

(c, d) + +

Dans le cas où X et Y sont indépendants conditionnellement à Z, la concordance entre le signe de X et celui de Z doit être indépendante de celle qui peut avoir lieu entre ceux de Y et de Z. On considère donc les effectifs des couples concordants et discordants de la manière suivante : Y couples dont le signe concorde avec celui de Z

Y couples dont le signe diffère de celui de Z

Total

X couples dont le signe concorde avec celui de Z

A

B

A+B

X couples dont le signe diffère de celui de Z

C

D

C+D

Total

A+C

B+D

Ici A = 4, B = 0, C = D =1. C. Huber

n! / 2! (n-2)!

Indépendance

44

On appelle coefficient d'association partielle de Kendall le rapport :

τ xy,z =

AD - BC (A+B) (C+D) (A+C) (B+D)

qui vaut ici 0,63. Si l'on avait calculé le coefficient d'association de Kendall τxy , on aurait trouvé τxy = 0,67 . Il ne semble donc pas que la concordance entre X et Y soit due à l'influence de Z.

On peut démontrer que

τ xy,z =

τ xy − τ zx τ zy 2

2

(1−τ zy ) (1−τ zx ) qui est une formule plus facile à calculer que la précédente , car le nombre des combinaisons de n objets pris 2 à 2 devient rapidement très grand avec n . On pourra le vérifier sur l'exemple. On ne peut malheureusement pas fonder un test sur ce coefficient, car la loi, sous l'hypothèse d'indépendance conditionnelle de X et Y, n'a pu encore être calculée. On pourrait cependant obtenir cette loi par simulation.

C. Huber

45

IV Tests non paramétriques pour comparer k échantillons

A

k échantillons indépendants : Médiane généralisée. Analyse de la variance non-paramétrique.

B

k échantillons liés : Test de Cochran. Test de Friedman.

C. Huber

46

A - Tests non paramétriques pour k échantillons indépendants.

- Test de la médiane généralisée. - Test de Kruskal-Wallis : analyse de la variance à un facteur.

1 Une extension du test de la médiane : Etant donnés k échantillons indépendants, pas nécessairement de la même taille, le test de la médiane sert à tester si tous les groupes ont été tirés de la même population, ou au moins de populations qui ont la même médiane. On ne peut faire ce test que lorsque la variable qui a été mesurée est réelle ou a des valeurs ordonnées. Pour appliquer cette méthode, on commence par calculer la médiane globale M de l'ensemble de toutes les observations, obtenue en considérant les k échantillons comme s'il s'agissait d'un seul. On classe alors chaque valeur observée par rapport à M et on la remplace par un + si elle est supérieure et par un - si elle est inférieure. Pour chacun des k échantillons, cela donne deux scores: - Le nombre des + . (Le nombre des valeurs supérieures à M) - Le nombre des - . (Le nombre des valeurs inférieures à M) On peut alors représenter les observations ainsi dichotomisées par un tableau à k lignes et deux colonnes où figurent les fréquences des plus et des moins dans chacun des k échantillons. Pour teste l'hypothèse que les k groupes proviennent de la même population, au moins en ce qui concerne les médianes, on calcule la valeur de la statistique suivante

χ2 = ∑i j

(Oij - Eij)2 / Eij

où Oij est le nombre des observations qui se trouvent à l'intersection de la ligne i et de la colonne j et Eij l'espérance de cet effectif sous l'hypothèse Ho . C'est la statistique habituelle du chi 2 d'ajustement appliquée à notre cas où r = 2, c'est à dire que j = 1, 2, i varie de 1 à k, et dont la loi est approximativement celle d'un chi 2 à (k - 1) (r - 1) = k - 1 degrés de liberté. La valeur de Eij est égale à la moitié de l'effectif total dans le groupe j, soit Eij = nj / 2, car si la médiane est la

C. Huber

47

même pour tous les échantillons, on a en moyenne autant de + que de - dans chaque échantillon. Remarque Dans le cas où certaines des valeurs observées sont exactement égales à la médiane globale, il n'est pas correct de considérer que Eij = nj / 2, car la probabilité d'être inférieur ou égal à m a pour estimateur 0. 1 / n , la fréquence relative dans l'échantillon global des valeurs inférieures ou égales à M, qui est supérieure à 1/2. Cela revient à appliquer la technique habituelle qui veut que Eij = Oi. O.j / n , le produit du total de ligne par le total de colonne, divisé par le total général n, l'effectif global. Exemple Un chercheur dans un centre de santé publique veut étudier l'influence du degré d'instruction de la mère sur le soin avec lequel elle assure la surveillance médicale de son enfant. Dans ce but, il considère le niveau maximum de culture atteint par la mère, mesuré par le diplôme le plus élevé, et par conséquent le nombre d'années d'études que cela suppose, et le nombre de visites de contrôle médical effectuées pour l'enfant au cours de ses deux premières années. Niveau d'instruction de la mère Ecole élémentaire 4 3 0 7 1 2 0 3 5 1

Collège

2 4 1 6 3 0 2 5 1 2 1

Lycée (bac) 2 0 4 3 8 0 5 2 1 7 6 5 1

premier cycle d'université 9 4 2 3

licence

2 4 5 2

maîtrise ou au-delà 2 6

Le tableau ci-dessus est obtenu de la manière suivante: Parmi les 528 naissances enregistrées dans une grande maternité pendant une période donnée, il tire dans la liste alphabétique une sur 12 d'entre elles, ce qui lui donne 44 couples (mère-enfant) pour lesquels il a les deux informations précédentes. On distingue 6 groupes de mères ayant le même niveau d'instruction : l'école élémentaire, le collège, jusqu'en troisième, le lycée, jusqu'à l'obtention du bac, le premier cycle des universités, la licence et enfin la maîtrise ou au-delà. L'hypothèse nulle Ho est qu'il n'y a pas de différence en ce qui concerne le nombre des visites de contrôle en fonction du degré d'instruction de la mère. On a donc 6 échantillons indépendants. Si on les regroupe, on trouve pour médiane globale du nombre des visites M = 2.5, valeur qui laisse 22 observations à sa gauche et 22 à sa droite. Les scores dans chacun des groupes donnent donc le tableau suivant.

Niveau d'instruction de la mère

C. Huber

48

Ecole Collège (élémentaire)

Nbre de mères dont les visites sont plus fréquentes que la médiane.

5

4

5

5,5

Lycée (bac)

premier cycle licence maîtrise Total (d'université) (ou au-delà)

7

3

2

1

6,5

2

2

1

6

1

2

1

Nbre de mères dont les visites sont moins fréquen tes que la médiane

5

7

5

5,5

6,5

2

2

1

Total

10

11

13

4

4

2

22

22

44

Les effectifs en italiques représentent les effectifs "calculés", les Eij , alors que les effectifs observés, les Oïj sont indiqués en caractères ordinaires. On constate alors qu'on ne peut pas effectuer un test de chi 2 car un grand nombre de cases ont un effectif inférieur à 5. Cependant, comme les groupes qui contiennent trop peu d'observations concernent les trois niveaux d'instruction les plus élevés, on peut les regrouper pour en faire un seul : celui des mères qui ont fait des études universitaires, quel qu'en soit le niveau. Après regroupement cela donne le tableau suivant Niveau d'instruction de la mère Ecole élémentaire Nbre de mères dont les visites sont plus fréquen tes que la médiane. Nbre de mères dont les visites sont moins fréquentes que la médiane Total

Collège

Lycée (bac)

Etudes universitaires Total

5

4

7

6

5

5,5

6,5

5

5

7

6

4

5

5,5

6,5

5

10

11

13

10

22

22

44

Comme tous les effectifs théoriques (en italique), sont maintenant supérieurs à 5, on peut effectuer un test du chi 2 sur ce tableau, ce qui donne:

χ2 = (Oij - Eij)2/Eij = (5 - 5) 2 / 5 + (4 - 5.5) 2 / 5.5 +..+ (4 - 5) 2 / 5 = 1,295 . Comme il reste 4 classes, le nombre de degrés de liberté est égal à 3. Or la probabilité pour qu'un chi 2 à trois degrés de liberté dépasse cette valeur est égale, d'après la table, à une valeur comprise entre 0,70 et 0,80. On ne peut donc pas rejeter

C. Huber

49

l'hypothèse nulle selon laquelle le nombre des visites médicales de contrôle pour les enfants entre 0 et 2 ans est indépendante du niveau d'instruction de la mère.

2 Analyse de la variance non paramétrique : Test de Kruskal-Wallis. On se souvient que l'analyse de variance classique, qui teste l'égalité des moyennes dans plusieurs populations, suppose que toutes les variables aléatoires concernées sont normales (on dit aussi parfois gaussiennes). Si rien ne permet de faire cette hypothèse de normalité, on peut tester cette hypothèse d'égalité des moyennes grâce au test de Kruskal-Wallis explicité ci-dessous. On remarquera que le test précédent permettait de tester l'égalité des médianes. Les données consistent donc en k échantillons indépendants issus de populations différentes, dont on se demande si elles ont la même moyenne. On ne fait pas l'hypothèse de normalité comme en analyse de variance classique, mais on suppose que les lois sont continues (pour éviter les ex-aequo). Bien sûr, il faut que les grandeurs mesurées le soient sur une échelle ordinale. Notons nj la taille du jème échantillon, j = 1, ..., k, et n le nombre total des observations n = E nj . On ordonne toutes les valeurs dans leur ensemble ( n en tout) et on remplace chaque observation par son rang : 1 pour la plus petite, 2 pour la suivante, etc.., n pour la plus grande. A chacun des k échantillons, on fait ensuite correspondre son score obtenu comme la somme des rangs des observations qui le composent: soit Rj ce score. La statistique de Kruskal-Wallis est ainsi définie Rj2

12

K-W =

___________ ∑ ( _____ ) n (n + 1)

-

3 (n + 1)

nj

j

On peut démontrer que lorsqu'il y a suffisamment d'observations (plus de 5 cas dans chacun des groupes, pour prendre l'approximation habituelle), cette statistique est approximativement distribuée, si Ho est vraie comme un chi 2 à k - 1 degrés de liberté. Dans le cas où k =3 et le nombre des sujets dans chacun des trois échantillons est inférieur à 5, on dispose de tables qui donnent les valeurs critiques exactes pour la statistique K-W. Exemple 1 Un obstétricien se demande si le fait que la mère fume a une influence sur le poids du nouveau-né. Les mères sont divisées en 8 catégories par ordre croissant de quantité de cigarettes fumées par jour, et le poids des nouveau-nés est exprimé en kilos. On obtient le tableau suivant: 1

2

3

4

5

C. Huber

6

7

8

50

4,5 3,8 4,2 4,5 3,3 3,4 3,0 2,6

4,3 4,6 3,6 4,1 4,2 4,3 3,9 4,4 4,2 4,2 K-W =

4,2 4,3 4,2 3,9 4,3 3,5 3,6 3,8

3,6 3,6 3,9 3,0 3,0 3,1

4,1 3,9 4,1 3,5

3,6 3,2 3,2 3,5 2,2 2,2

3,5 3,4 4,0 2,5

3,0 3,8 4,3 3,2 5,4 4,6 2,9 4,3 3,8 1,1

(12 / 56 (56 + 1)) ∑ ( Rj 2 / nj ) - 3 (56+1)

Ce qui donne, d'après le tableau des rangs ci-dessous (12 / 56 (56 + 1)) ( 216,5 2 /8 + 414 2 /10 + 277,5 2 /8+ 105, 5 2 /6 + 122 2 /4 + 72 2 /4 + 317 2 /10) - 3x57 = 18,464.

K-W =

Cette statistique suit une loi qui est à peu près un chi 2 à k- 1 7 degrés de liberté. Or, d'après la table PHo(χ2 > 18,464) < 0,02. On rejette donc Ho .

Rangs des poids de naissance 1 52,5 27,5 41,0 52,5 14,0 15,5 8,5 5,0

2 47,5 54,5 23,0 36,0 41,0 47,5 31,5 51,0 41,0 41,0

3 41,0 47,5 41,1 31,5 47,5 18,5 23,0 27,5

4 23,0 23,0 31,5 8,5 8,5 11,0

5 36,0 31,5 36,0 18,5

De telle sorte que : Rl = 216,5 R2 = 414,0 R3 = 277,5 R4 = 105,5 R5 =122,0 R6 =71,5 R7 =72,0 R8 = 317,0 Remarque

C. Huber

6 23,0 12,5 12,5 18,5 2,5 2,5

7 18,5 15,5 34,0 4,0

8 8,5 27,5 47,5 41,0 56,0 54,5 6,0 47,5 27,5 1,0

51

Cependant, on remarque qu'il y a beaucoup d'ex-aequo, ce qui est contraire à l'hypothèse que l'on fait toujours lorsqu'on veut se servir des rangs l'hypothèse de continuité de la loi sous-jacente, qui interdit les ex-aequo pourvu que la mesure soit très précise. En effet les mesures ici ne sont pas d'une très grande précision et elles provoquent l'apparition de pas mal d'ex-aequo. On sait que si l'on fait la correction pour tenir compte des ex-aequo, on obtiendra une valeur de K-W plus grande et donc un test plus significatif : on dit que le test sans correction est conservatif. Pour faire la correction, il faut diviser K-W par la statistique suivante :

1 - (∑ T )/ (n3 - n) où la sommation a lieu sur toutes les séries d'ex-aequo, et T = t3 où t est le nombre des ex-aequo dans la série. Les premiers ex-aequo apparaissent dans la série 8 où il y a deux ex-aequo de rang 2,5 . Donc dans ce cas, t = 2 et T = 8 - 2 = 6. Les ex-aequo suivants ont le rang 8,5 et sont au nombre de 4, ce qui donne pour la valeur de T correspondante: 43 - 4 = 60. On a ainsi 13 groupes d'ex-aequo : il y a - 5 groupes de 2 ex-aequo, donnant T = 6 et ET = 30 - 1 groupe de 3, qui donne T = 24, - 4 groupes de 4, qui donnent T = 60 et ET = 240, - 1 groupe de 5, donant T = 120, - 1 groupe de 6, donnant T = 2 10, - 1 groupe de 7 donnant T = 336. Donc 1 - (∑ T )/ (n3 - n) = 0,9945, et K-W corrigé vaut 18,464 / 0,9945 = 18,566. Et la probabilité pm un chi 2 à 7 degrés de liberté de dépasser cette valeur est inférieure à 0,0 1, et on rejette donc l'hypothèse nulle avec encore plus de conviction que précédemment.

C. Huber

52

B - Tests non paramétriques pour k échantillons liés. analyse de la variance à deux facteurs. - Test de Cochran réponses binaires. - Test de Friedman réponses ordinales. Si l'on veut utiliser un test de comparaison de deux échantillons pour comparer k échantillons, on aura des difficultés pour deux raisons - D'une part, il faudra effectuer un très grand nombre de tests; par exemple si k = 5, il faudra faire 10 tests, le nombre des combinaisons de 5 objets pris deux par deux. - D'autre part, si chacun de ces tests est fait au niveau 5 %, le résultat obtenu ne le sera pas avec ce même niveau. On peut prouver que le niveau passe alors à 40 %. On va voir maintenant deux tests non pararnétriques destinés à remplacer l'analyse de variance à deux facteurs lorsqu'on n'a pas l'hypothèse de normalité.

1 Le test de Cochran : Le test de Mac Nemar pour deux échantillons peut être étendu au cas où ron a plus de deux échantillons. Voici deux exemples de circonstances dans lesquelles on peut employer un test de ce type : 1) On a plusieurs (n) groupes de (k) sujets comparables (on dit "appariés") qui répondent à une même question dans des circonstances différentes. Par exemple, de deux médicaments qui entrent en compétition pour assurer le même service (on peut penser à l'aspirine et à l'ergotamine pour supprimer les maux de tête par exemple), on leur demande lequel ils préfèrent, avant une campagne publicitaire pour l'un des deux, après une telle campagne, après un scandale impliquant le mauvais usage de l'un des deux produits, etc... . S'il y a k circonstances différentes, on a k échantillons, qui sont liés puisque ce sont des sujets appariés qui répondent 2) On relève, sur n sujets, la présence ou l'absence de k symptômes : on a alors k échantillons qui sont liés car il sagit des mêmes sujets. Dans ces deux cas, on a k échantillons liés de réponses dichotomiques et le test de Cochran peut être employé. Les données peuvent être rangées dans un tableau à n lignes et k colonnes, et on veut tester que la fréquence des réponses d'une certaine sorte est la même dans chacune des k colonnes, ou plutôt que les différences peuvent être imputées au hasard seul. En notant: - Gj le nombre total de "succès" dans la jème colonne, C. Huber

53

- Li le nombre total de "succès" dans la ième ligne, - G la moyenne des Gj , la statistique de Cochran est ainsi définie k

k(k - 1) ∑ (G j − G) 2 j =1

Q=

n

k ∑ Li − i=1

n

∑L i =1

2

i

L'indice de colonne j varie de 1 à k et l'indice de ligne i de 1 à n. Cochran a montré que cette statistique est approximativement distribuée comme un chi 2 à k - 1 degrés de liberté. Une formule équivalente à la précédente, mais plus fàcüe à calculer est la suivante Q = { (k-1)[ k ∑ Gj - (∑ Gj ) ] } / { k ∑ Li - ∑ Li } 2

2

2

Exemple Une interview est conduite auprès de 18 personnes, la question posée étant "De ces deux médicaments, lequel utilisez vous de préférence en telle circonstance ? ", la réponse étant codée 1 s'il s'agit du premier et 0 s'il s'agit du second. On obtient le tableau suivant: Numéro

1 2 3 4 5 6 7 8 9 10 il 12 13 14 15 16 17 18

Interview 1 Interview 2 1 0 1 0 0 1 1 1 0 1 0 1 1 1 1 1 1 1 1

2 0 1 1 0 0 1 1 1 0 0 1 1 1 1 1 1 1 1

Interview 3 3 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 0 0

C. Huber

Li

Li 2

0 2 1 0 1 2 2 1 1 0 3 3 2 2 2 3 2 2

0 4 1 0 1 4 4 1 1 0 9 9 4 4 4 9 4 4

54

G1 = 13

G2 = 13

∑ Li = 29

G3=3

∑ Li2 = 63

Il en résulte que Q = 16,7. Or d'après la table, la probabilité que Q égale ou dépasse une telle valeur est inférieure à 10-3 puisque sa loi est approximativement un chi 2 à k- 1 = 2 degrés de liberté.

2 Le test de Friedman Lorsque les données consistent en k échantillons liés de valeurs ordinales, le test de Friedman permet de tester si ces k échantillons peuvent être considérés comme provenant &une même population. Il permet donc de fàire une analyse de variance à deux facteurs fondée sur les rangs. Comme les k échantillons sont liés, les échantillons ont tous la même taille, n et l'appariement entre les échantillons fait que les sujets vont k par k, soit qu'il y ait effectivement. - n ensembles de k sujets appariés, - n sujets , chacun sous k conditions différentes ( auto-appariement). Exemple 1 : On étudie le délai de disparition &une affection de l'épiderme après remploi de l'une ou l'autre de 4 différentes thérapies, dont dieux consistent en l'application de pommade et deux en l'absorption par voie orale &un certain produit Les observations sont les suivantes sur n = 3 groupes de 4 personnes. Thérapie

Groupe A Groupe B Groupe C

I

11

III

7 8 6

9 6 9

4 5 1

IV 1 2 2

A l'intérieur de chaque ligne, on ordonne les valeurs par ordre croissant et on remplace chacune &elles par son rang, obtenant ainsi le tableau suivant Thérapie

Groupe A Groupe B Groupe C

I

11

III

3 4 3 R1 = 10

4 3 4 R2 = 11

2 2 1 R3 =5

IV 1 1 2 R4 = 4

Si l'hypothèse nulle est vraie, la répartition des rangs dans chacune des colonne doit être la même. C'est à dire que l'on doit s'attendre à avoir la même fréquence de 1, 2, 3 et 4 dans chacune des colonnes, ce qui a pour conséquence que la somme des rangs dans chacune des colonnes devrait être à peu près la même. En notant R, la somme des rangs de la colonne i, la statistique de Friedman est la suivante: C. Huber

55

k 12 2 Ri − 3n(k + 1) Fr = ∑ nk(k + 1) i =1 2

Cette statistique a une loi qui, sous l'hypothèse Ho , est approximativement celle du chi 2 à k -1 degrés de liberté pourvu que n et k soient suffisamment grands. Ici, n n'est pas très grand puisqu'il ne vaut que 3. Aussi on utilise la table exacte pour les petites valeurs de n et k, et on trouve Fr2 = 7,4 , donc PHo ( Fr2 ≥7,4) = 0,033. Aussi rejette-t-on l'hypothèse Ho. Exemple 2 : On s'intéresse au délai nécessaire à l'élimination des traces dans le sang d'un médicament, pour une même dose, lorsque on utilise trois différents modes d'administration. Pour cela, on choisit 18 groupes de 3 personnes appariées sur le sexe, l'âge, le poids et la gravité de la maladie traitée par ce médicament, et on note le temps nécessaire à l'élimination de ce produit dans le sang après la prise du produit. On obtient le tableau d'observations suivant. Type d'administration

1 2 3 4 5 6 7 8 9 10 il 12 13 14 15 16 17 18

I 1 2 1 1 3 2 3 1 3 3 2 2 3 2 2,5 3 3 2 R1 = 39,5

II 3 3 3 2 1 3 2 3 1 1 3 3 2 3 2,5 2 2 3

III 2 1 2 3 2 1 1 2 2 2 1 1 1 1 1 1 1 1

R2 = 42,5

R3 = 26,0

C. Huber

56

Par suite Fr2 = 8,4 pour un nombre de degrés de liberté égal à k - 1 = 3 - 1 = 2. La probabilité qu'un chi 2 à 2 ddl égale ou dépasse cette valeur est comprise entre 0,01 et 0,02. Le test est donc significatif avec un degré de signification inférieur à 2 % et on rejette Ho.

C. Huber

Exercices

57

EXERCICES ET PROBLEMES

1 - Exercices de Révision sur le Calcul des Probabilités 1 Urne Trouver, en fonction de r, la probabilité pour que, de r chiffres tirés au hasard de {0, 1, 2, ...,9}, l'un après l'autre, avec remise, il n'y en ait pas deux qui soient égaux (r < 10). Indication : On pourra commencer par supposer que r = 2, puis r = 3 , puis généraliser. 2 Cartes Un ensemble de 8 cartes contient un joker, et un seul. A et B sont deux joueurs. A choisit 5 cartes au hasard, B prenant celles qui restent. a) Quelle est la probabilité que A ait le joker ? b) A jette maintenant 4 cartes et B 2. Quelle est alors la probabilité pour que A ait le joker sachant que ce dernier n'a pas été jeté ? 3 Conseil de sécurité Le conseil de sécurité comporte 11 membres dont la Grande-Bretagne, la France, la Chine, les Etats Unis et la Russie sont des membres permanents.Si, lors d'un meeting, les membres prennent place au hasard, quelle est la probabilité pour que : Britanniques et Français soient voisins Russes et Américains non a) dans le cas où ils sont alignés, b) dans le cas où ils sont autour d'une table ronde. Indication : on notera B, F, R, A les quatre représentants en question. 1) Compter le nombre total de dispositions possibles . 2) Pour un placement global donné de {B, F, R, A} réalisant la condition demandée, compter : a) le nombre de placements possibles de {B, F, R, A}, b) le nombre de placements possibles des autres membres. 3) Analyser la différence entre l'alignement et la table ronde. 4 Billes en bois et en verre Une urne est pleine de billes de bois (B) ou de verre (V) de couleur rouge (R) ou noire (N). Les 2 / 3 des billes sont rouges, le reste noir. La moitié des billes rouges sont en bois, ainsi que le quart des noires. Vous devez plonger la main dans l'urne et parier sur la couleur. Que faites vous ?

C. Huber

Exercices

58

5 Viager Avant d'acquérir une propriété en viager pour laquelle l'extinction de la rente annuelle et fixe dépend de la disparition des deux conjoints actuellement âgés de 60 anspour la femme et 70 ans pour le mari, un acheteur désire connaître la probabilité de continuation de la rente au bout de 10 ans. a) Comment est il possible d'évaluer cette probabilité à partir du tableau suivant ? Table de mortalité Nombre de survivants Hommes Femmes Naissance 1 000 000 1 000 000 60 ans 381 065 428 583 70 ans 242 442 312 612 80 ans 80 381 139 349 b) En supposant que la rente annuelle est fixe (pas d'inflation, pas d'intérêt), quel doit être son montant r pour être équitable ?

2 - Exercices de génétique Rappel de quelques définitions de génétique : Base Gamète

: cellule reproductrice, mâle ou femelle, dont le noyau ne contient que n chromosomes. Toutes les autres cellules du corps en ont 2n chez les diploïdes. zygote : cellule résultant de la fécondation. diploide : se dit d'un noyau cellulaire possédant un nombre pair de chromosomes, double de celui des gamètes.

Systèmes de croisement Les définitions qui suivent concernent uniquement des populations d'effectif infiniment grand, en l'absence de mutation et de sélection. Cette hypothèse d'absence de mutation et de sélection signifie que le polymorphisme de la population est conditionné par des gènes inaptes à subir des mutations d'une part, et tels qu'aucun des génotypes qu'ils définissent ne soit favorisé par la sélection d'autre part. L'absence de sélection est définie par les trois hypothèses : 1) Lorsqu'un zygote est formé, la probabilité qu'il a de se développer en adulte apte à la reproduction ne dépend pas de son génotype. 2) Le nombre de gamètes formés par un individu apte à la reproduction ne dépend pas de son génotype. 3) La probabilité pour qu'un gamète participe à la formation d'un zygote ne dépend, ni du génotype de l'individu qui l'a formé, ni de son propre génotype. Panmixie : L'hypothèse de panmixie est celle selon laquelle la formation des zygotes résulte de l'union au hasard entre gamètes femelles et gamètes mâles : Tout se passe comme si deux tirages au sort indépendants étaient faits, l'un parmi les gamètes mâles et l'autre parmi les gamètes femelles. Consanguinité 58

C. Huber

Exercices

59

Coefficient de parenté : Le coefficient de parenté de deux individus K et L, qui est noté fKL, est égal à la probabilité pour que, si l'on prend au hasard un des locus (ou loci) du génôme de K et un des locus homologues du génôme de L, ces deux locus soient identiques. Locus identiques : Deux locus sont dits identiques s'ils sont occupés par deux gènes issus par duplications successives d'un même gène ancêtre, ou si l'un est issu de l'autre par un certain nombre de duplications successives. Coefficient de consanguinité individuel : Le coefficient de consanguinité d'un individu diploide I est la probabilité pour que deux locus homologues de son génome soient identiques. On le note fI (Cela entraîne que, dans une espèce diploide, le coefficient de consanguinité de I est égal au coefficient de parenté de ses parents). Coefficient de consanguinité moyen α : d'une population. C'est la probabilité pour que deux locus homologues d'un individu quelconque de la population soient identiques. 6 Maladie génétique dans une population panmictique : Une malformation n'ayant pas de retentissement sur la fécondité et déterminée par un allèle a, récessifautosomique, présente dans une population donnée une fréquence q (= 1 / 10 000) ; on extrait au hasard 10 000 individusde cette population panmictique. a) Donner, sur cet échantillon, une estimation moyenne (ou estimateur de la moyenne) de : α) du nombre d'allèles a appartenant à des individus malades. β) du nombre d'allèles a appartenant à des individus cliniquement sains. b) Au sein de cette population, les mariages se font au hasard (panmixie). Quelles sont les fréquences moyennes des mariages suivants : α) Ceux dont la descendance sera épargnée par la maladie (On donnera une réponse littérale en fonction de p et q, fréquences respectives des allèles A et a) β) Ceux dont les enfants seront touchés avec une probabilité de 1 / 4 γ) Ceux dont les enfants seront touchés avec une probabilité de 1 / 2 c) Si au contraire les homozygotes aa ont une fécondité nulle et en admettant que la sélection n'ait pas d'effet sur les hétérozygotes, calculer quel taux de mutation assurerait à l'allèle a une fréquence stable. 7 Consanguinité : Soit un sujet dont les parents sont doubles cousins germains. a) Etablir l'arbre généalogique b) Simplifier cet arbre en faisant apparaître les chainons unissant les individus concernés. c) Calculer le coefficient de consanguinité de ce sujet. d) Calculer la probabilité a priori pour qu'un tel sujet consanguin développe une mucoviscidose (maladie récessive autosomique de fréquence 1 / 2500) sachant qu'on ne possède aucun renseignement sur la famille.

C. Huber

Exercices

60

8 Achondroplasie : Un couple de nains achondroplases I1et I2 a eu successivement : - II1 enfant achondroplase - II2 enfant normal - II3 enfant d'aspect achondroplase, décédé à la naissance. L'achondroplasie est une maladie dominante autosomique, et on peut considérer l'homozygotie comme létale en général. a) Donner les génotypes les plus probables des sujets : I1, I2, II1, II2 et II3 b) Quel est le génotype le plus probable des parents de I1 et de I2 ? c) Quelle était la probabilité, a priori, pour que le couple ait cette descendance et dans cet ordre ? d) ... dans n'importe quel ordre ? e) Quelle est la probabilité, a priori, pour qu'un tel couple ait 3 enfants tous sains ? f) II2consulte pour un conseil génétique. Evaluer le risque d'achondroplasie pour sa descendance. 9 Groupes sanguins : 556 individus prélevés au hasard dans une population supposée infiniment grande présente les caractéristiquessuivantes, en ce qui concerne les gènes autosomaux codominants M et N : 167 sont M 280 MN 109 N EStimer la fréquence du gène responsable de la synthèse de l'antigène M dans la population étudiée.

10 Phosphatases érythrocytaires : Les hématies humaines renferment des phosphatases dénommées "Phosphatases érythrocytaires". Il en existe trois types, que l'on peut distinguer par électrophorèse, désignés par A, B et C. Chez certains individus, il existe une seule phosphatase érythrocytaire; selon le type de celle ci, on désigne le phénotype d'un tel individu par A, B ou C. Chez d'autres individus, deux sont présentes, les phénotypes correspondants sont AB, AC et BC. Sur 268 individus extraits au hasard d'une population humaine, on dénombre : 25 de phénotype A 106 B 113 AB 9 AC 15 BC Quelle est l'hypothèse la plus simple sur le déterminisme génétique de ces caractères et sur le mode de reproduction de la population, qui rende compte de cette distribution ?

11 Génétique et calcul conditionnel 60

C. Huber

Exercices

61

Le coefficient de parenté de deux individus K et L, noté fkl, est égal à la probabilité pour que, si l'on prend au hasard un des locus du génome de K et un des locus homologues du génome de L, ces deux locus soient identiques. On dit que deux locus sont identiques s'ils sont occupés par deux gènes issus par duplications successives d'un même gène ancêtre ou si l'un est issu de l'autre par duplications successives. 1) Quel est le coefficient de parenté de - deux soeurs ? - deux cousins germains ? 2) Les parents du sujet sont doubles cousins germains. a) Etablir l'arbre généalogique du sujet. b) Calculer le coefficient de consanguinité du sujet. On appelle coefficient de consanguinité d'un sujet la probabilité pour que deux locus homologues de son génome soient identiques. 3) La mucoviscidose est une maladie récessive autosomique de fréquence 1 / 25000. Quelle est la probabilité pour que le sujet développe une mucoviscidose ? 4) Comparer ce risque à celui encouru par un sujet non consanguin. Conclusion ?

3 - Exercices variés (Expérimentation biologique, épidémiologie, essais thérapeutiques) ;

12 Suspension d'organismes virulents Une grande suspension d'organismes virulents est diluée à la concentration moyenne de 1 organisme pour 0. 1 ml. En supposant que les organismes sont répartis aléatoirement dans la suspension et que tout organisme virulent causera une infection chez l'animal de laboratoire à qui il sera injecté, quelle proportion des animaux sera infectée si on injecte 0.1ml à chacun des animaux d'un lot important ?

13 Rhumes Lors d'une étude portant sur les relations entre l'incidence des rhumes à différentes périodes de l'année, un échantillon de 100 personnes a été tiré (au hasard) d'une certaine population. On a obtenu les résultats suivants : - 42 ont été attaqués les deux fois. - 11 ont été attaqués pendant la première période mais pas pendant la seconde. - 19 n'ont jamais été attaqués. 1) Peut on considérer que le fait d'avoir été attaqué pendant la première période a un effet sur le risque encouru lors de la deuxième période ? 2) Cet effet est il plutôt immunisant ou plutôt sensibilisateur ? Justifier vos réponses par un test dont vous donnerez le degré de signification.

14 poids de naissance Les données ci-dessous sont relatives au poids de naissance de 18 645 enfants dans le sudouest de l'Angleterre en 1965 (données de Pethybridge, Brit. J. prev. Soc. Med. 28, p. 10-18 C. Huber

62

Exercices (1974). Poids [0 1[ Effectif 3 Poids Effectif

[1 2[

[2 3[

40

[3 4[

[4 5[

[5 6[

[6 7[

[7 8[

126

364

1182

4173

6723

82

[8 9[

[9 10[

4305

1365

[10 11[ [11 12[ [12 13[ [13 14[ [14 15[ 240

39

2

0

1

Le poids moyen de naissance observé est de 7. 375 livres et l'écart-type observé de 1.2375. 1) Donner un intervalle de confiance à 95% pour le poids moyen de naissance. Donner un intervalle de confiance à 95% et à 98% pour le poids moyen de naissance. 2) Tracer sur un même graphique la fonction de répartition observée et la fonction de répartition de la loi normale de même moyenne et de même variance qu'elle. Ces deux lois vous paraissent elles proches ? 3) Effectuer un test pour vérifier s'il est ou non acceptable de considérer que le poids de naissance suit une loi normale. 15. Poids de naissance et âge de la mère : On désire savoir s'il existe une liaison entre le poids de naissance Y d'un enfant et l'âge X de sa mère à l'accouchement. Dans ce but, on prélève 100 dossiers médicaux dans le fichier des naissances d'une maternité. Les résultats obtenus sont les suivants (X est exprimé en années et Y en kilogrammes) : Σ xi = 2 500 Σ xi2 = 65 000 Σ yi = 300 Σ yi2 = 925 Σ xi yi = 7545 1) Quelle(s) hypothèse(s) devez vous faire pour pouvoir envisager d'utiliser ces données pour répondre à la question que l'on se pose ? Ces hypothèses seront faites dans toute la suite. 2) Tracer la droite de régression observée de Y par rapport à X.Quelle est sa pente ? Commenter. 3) Quelles hypothèses proposez-vous de tester pour mettre en évidence l'existence d'une liaison entre le poids à la naissance d'un enfant et l'âge de sa mère ? Effectuer ce test et énoncer clairement la conclusion correspondante. 4) On a prélevé 100 dossiers médicaux de femmes qui ont accouché récemment, par tirage au sort dans l'ensemble des maternités relatives à la population considérée. Les résultats ainsi obtenus en ce qui concerne l'âge des mères sont les suivants : Σ xi = 26 80 Σ xi2 = 74 350 Quelles hypothèses proposez-vous de tester pour pouvoir vérifier si au moins une partie des hypothèses faites au 1) est justifiée ? 16. Aptitude à goûter la phénylthiocarbamide : L'aptitude à être goûteur ou non goûteur de la PTC (Phénylthiocarbamide) est contrôlée par un locus à 2 allèles T et t, de fréquences respectives p et q. Les individus tt sont non goûteurs. Les individusb TT et Tt sont goûteurs (T est dominant). 62

C. Huber

63

Exercices

1) Quelle est, en fonction de p et q la fréquence des génotypes TT, Tt et tt ? (On suppose que les gènes s'associent de manière indépendante pour former les génotypes). 2) On suppose que les mariages ont lieu au hasard. Combien y a-t-il de mariages différents possibles ? Quelles sont leurs probabilités ? 3) Sur cinq familles de parents Tt x tt ayant un seul enfant chacune, quelle est la probabilité: a) que 3 exactement de ces familles aient un enfant goûteur ? b) que chacune de ces familles ait un enfant goûteur ? 4) Pour estimer la fréquence p' des goûteurs dans la population, on a réalisé une enquête portant sur n = 625 sujets. Parmi eux, 500 sont goûteurs et 125 non goûteurs. Donner un intervalle de confiance de coefficient de confiance 98 % pour p'. 5) Pouvez-vous déduire de la question précédente un intervalle de confiance pour q ? 6) Sachant qu'un couple a cinq enfants en tout dont un seul est goûteur, quelle est la probabilité qu'il s'agisse d'un couple Tt x tt ? 17. Dénombrement de globules rouges Le résultat d'un dénombrement de globules rouges sur les 500 cases d'un hématimètre est donné ci-dessous : X = i le nombre de 0 globules d'une case ni = nombre de cases ayant i globules

1

2

3

4

5

6

7

8

9

10

13 41 90 112 100 66 45

22

9

1

1

N 500

On donne Σ x2 = Σ ni i2 = 8 114 . I– 1) Calculer la moyenne observée m du nombre X de globules par case et la variance s2 de X. 2) Construire l'intervalle de confiance à 5 % de µ, la moyenne théorique. 3) Si l'on suppose que X suit une loi de Poisson de paramètre µ, calculer µ0 l'estimation de µ par le maximum de vraisemblance. Comparer avec le résultat du 1). 4) (ne nécessite pas d'avoir résolu le 3)).Quel estimateur peut-on donner de µ ? Quelles sont les propriétés de cet estimateur ? II – 1) Si l'on admet que pour un sujet sain µ = 4. Formuler complètement le test permettant de savoir, au risque α, si les résultats obtenus peuvent provenir d'un sujet sain. 2) On décide de rejeter l'hypothèse µ = 4 si la moyenne observée m [m1, m2] où m1 et m2 sont définies par Prob [m ∈ (m1, m2) / µ = 4] = 5 %. Quelles sont vos conclusions ? 3) Si le nombre X de globules par case suit une loi de Poisson et si on admet que µ = 4, la répartition théorique moyenne du nombre de globules est donnée par le tableau suivant où Ri est l'effectif théorique ou "attendu" des cases ayant i globules:

C. Huber

64

Exercices X=i Ri

0 9,1

1

2

3

36,6 73,3

97,7

4

5

6

7

8

97,7 78,1 52,1 29,8 14,9

9

10

11

6,6

2,7

1,4

Peut-on admettre au risque de 5 % que les résultats observés initialement sont ceux d'un sujet sain ? 4) Comparez aux résultats du II - 2) et commentez. III – Pour confirmer les résultats de la numération globulaire obtenue pour ce sujet on recommence l'expérience une semaine après. Pour ce deuxième prélèvement on ne compte que le nombre de cases sans globules. On obtient alors les résultats suivants : X

0

21

Nbre total de cases

1er prélèvement

13

487

500

2ème prélèvement

19

481

500

La proportion de cases vides est-elle la même pour ces deux prélèvements ? 18. Délai d'apparition d'une maladie On suppose que le délai X d'apparition d'une maladie après la mise en contact avec un milieu polluant est une variable aléatoire dont la loi admet la densité f (x) = a.exp (-ax) si x ≥ 0 =0 si x < 0 1) Quelle est la fonction de répartition F (x) de cette variable au point x ? 2) Calculer EX et Var (X). 3) Sur n sujets indépendants, on a mesuré le délai d'apparition de la maladie, obtenant un délai moyen d'apparition M = ( X1 + ... +Xn) / n. Que valent l'espérance E(M) et la variance V(M) de M ? 4) Sur n = 100 sujets, on a observé un délai moyen d'apparition de 21 jours avec un écart type empirique de 5 jours. peut on en déduire un intervalle de confiance au risque 3% pour le paramètre inconnu a ? 5) Reprendre le problème en supposant cette fois que la loi de X est la loi uniforme sur le segment [0 a]

64

C. Huber

65

Exercices

19. Diabète infantile Une revue médicale a récemment publié le tableau ci-dessous à la suite d'une enquête sur le diabète infantile. Les 269 patients examinés ont été tirés au hasard de la population Pde diabétiques ainsi définie : d'une part il fallait que le diabète se soit déclaré chez le sujet avant qu'il n'ait atteint l'âge de 15 ans, d'autre part que la durée d'évolution de la maladie, c'est à dire le temps écoulé entre la date d'apparition du diabète et la date de l'enquête, soit supérieure à 15 ans. Sur les 269 sujets observés, 115 sont des hommes et 154 des femmes.

Durée Nombre de d'évolution cas

Rétinopathies

R1

R2

R3

15 < t ≤ 20

173

67

45

15

7

20 < t ≤ 25

58

32

17

12

3

t > 25

38

22

12

7

3

TOTAL

269

121

34

13

74

Les patients, comme on le voit sur le tableau, ont été répartis en 3 classessuivant que la durée t d'évolution de la maladie se situe entre 15 et 20 ans, 20 et 25, ou dépasse 25 ans. Certains sujets sont atteints de rétinopathie (maladie de la rétine), d'autres pas. Ceux qui en sont atteints ont été répartis en trois catégories : R1, R2 et R3 d'après la gravité de la rétinopathie : R1 si l'atteinte est légère, R2 si elle est moyenne et R3 si elle est forte. a) Tester, au seuil de signification de 2 %, l'hypothèse selon laquelle la population P étudiée est composée d'autant d'hommes que de femmes. Pour quelles valeurs du seuil de signification accepterait on cette hypothèse ? b) Donner une estimation par un intervalle de confiance à 5 % de la proportion des malades atteints de rétinopathie dans chacune des classes de durée d'évolution. Peut-on considérer que ce pourcentage croit significativement en même temps que la durée d'évolution, au seuil de 5 % ? c) Parmi les sujets atteints de rétinopathie, la gravité de la rétinopathie dépend elle de la durée d'évolution du diabète ? d) 18 des patients figurant dans l'enquête présentent de l'hypertension artérielle (notée H.T.A.). On a testé sur eux un nouveau médicament destiné à faire baisser la tension, et obtenu au bout de 40 jours de traitement les résultats suivants : Numéro du 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 patient Différence +1 +4 +5 -5 -1 +2 +8 -25 -12 -16 -9 -8 -18 -5 -22 -21 -15 -11 de tension Peut-on considérer que ce traitement est efficace ? (On pourra pour cela tester au seuil de 5% l'hypothèse H0 selon laquelle le traitement n'a aucun effet).

C. Huber

Exercices

66

C. Huber

66

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF