Cours de Statistiques (2e partie)

January 18, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Cours de Statistiques (2e partie)...

Description

LICENCE Scientifique Cours de Statistiques (2e partie) * Henri IMMEDIATO * Ce cours reprend dans ses grandes lignes le cours de Mme F. Duheille-Bienvenüe (MASS 42, 2001, Université Claude Bernard - Lyon 1) dont on n'a pu qu'apprécier la clarté et la concision.

Chapitre 1. Méthodes de simulation d'un échantillon. Effectuer une simulation consiste à générer des données qui sont des réalisations de variables déterministes ou aléatoires selon des lois données, afin d'étudier et de comprendre le fonctionnement de systèmes économiques, industriels, scientifiques, politiques, etc. Exemples : simulation d'un trafic urbain, de gestion d'un hôpital, d'évolution d'une population, de variations boursières, etc. Une simulation permet de provoquer le déroulement d'une expérience de façon rapide et économique, et permet aussi d'éviter les dangers liés à la réalisation de certaines expériences à l'échelle réelle. Elle permet aussi de répéter l'expérience en faisant varier les paramètres. Enfin elle aide à l'élaboration de techniques de prévision et d'amélioration.

1.1. Méthodes de Monte-Carlo. 1.1.1. Principe d'une méthode de Monte-Carlo. Une méthode de Monte-Carlo consiste à calculer un échantillon de loi déterminée à partir d'un échantillon de loi uniforme (nombres choisis au hasard à l'aide d'une table de nombres au hasard, ou nombres pseudo-aléatoires générés par un logiciel). Rappelons qu'on appelle n-échantillon indépendant tout n-uple (X 1, ... , X n) de variables aléatoires indépendantes et identiquement distribuées (c'est-à-dire de même loi), ou, si l'on aime les sigles ésotériques, VA iid. Résultat fondamental : pour une variable aléatoire U de loi uniforme, ou constante, sur l'intervalle [0, 1], X et F X–1 (U) ont la même loi de probabilité. Condition : F X, fonction de répartition de X, est une bijection de R sur ]0, 1[. Etant donné un échantillon U 1, ... , U n, de nombres choisis au hasard dans l'intervalle ] 0, 1 [, les variables aléatoires F X–1 (U 1), ... , F X–1 (U n), forment un échantillon de la loi de X. Cette méthode est utile pour : — construire un échantillon de loi connue permettant d'étudier

les paramètres d'un échantillon de loi inconnue, — donner une estimation d'un paramètre, d'une constante, d'une intégrale, — etc.

1.1.2. Application pratique de la méthode de Monte-Carlo avec la fonction de répartition. Etant donnée une variable aléatoire X : — on fixe a priori, à l'aide de la fonction de répartition de X, pour chaque nombre choisi au hasard, une valeur de X (c'est ce qu'on appelle la transformation par quantile). — on tire au sort n nombres au hasard, — on en déduit n valeurs de X qui constituent la réalisation d'un échantillon de X. 1.1.2.1. Simulation d'une variable aléatoire X de Bernoulli de paramètre p. — pour chaque nombre u i, 1 ≤ i ≤ n, choisi au hasard dans l'intervalle [0, 1] des valeurs de la fonction de répartition, on prend x i = 0 si u i ∈ [0, 1 – p], x i = 1 si u i ∈ ] 1 – p, 1]. Cela revient à tracer un trait horizontal à l'ordonnée u i et à regarder où il coupe la courbe représentative de la fonction de répartition de X, les points de discontinuité étant rejoints par un trait vertical : l'abscisse du point d'intersection est x i. — (x 1, ... , x n) est la réalisation d'un n-échantillon de X : P (X = 1) = P (U ∈ ] 1 – p, 1]) = p. Remarque. Dès qu'on sait simuler une loi de Bernoulli, on sait simuler les lois qui en dérivent : loi géométrique (nombre d'épreuves pour arriver à un succès), somme de variables géométriques de même paramètre (nombre d'épreuves pour arriver à k succès), loi binomiale (nombre de succès en n épreuves).

Exemple (engendré avec la fonction ALEA d'Excel). Uniforme sur [0;1] Bernoulli (0.32)

0.175 0.693 0.162 0.822 0.024 0.051 0.720 0.882 0.069 0.797 0.489 0.206 0.675 0.546 0.880 0.086 0.346 0.986 0.604 0.005

0

Geom*(0.32)

1 2

0

Somme de 2 Geom*(0.32)

1 2 4

0

0

1 3

1 1 4

0

1 2

0

0

0

0

1 5 7

0

0

1 3

0

15

Binom(20;0.32) Uniforme sur [0;1] Bernoulli (0.32)

0.133 0.230 0.802 0.210 0.351 0.806 0.850 0.238 0.282 0.166 0.371 0.332 0.521 0.115 0.751 0.428 0.999 0.065 0.516 0.533

0

0

Geom*(0.32) Somme de 2 Geom*(0.32)

1 5 8

0

0

1 3

1 1 4

0

0

0

0

0

0

0

1 8

0

1 2 10

0

0

Bernoulli (0.32)

0.497 0.008 0.407 0.815 0.800 0.168 0.795 0.552 0.383 0.331 0.366 0.036 0.804 0.604 0.340 0.372 0.002 0.036 0.753 0.561

0

0

0

Geom*(0.32)

1 7

Somme de 2 Geom*(0.32)

1 1 8

0

1 2

0

0

0

0

0

1 6 8

0

0

0

0

0

1 6

Bernoulli (0.32)

0.507 0.315 0.122 0.554 0.387 0.506 0.199 0.025 0.831 0.292 0.862 0.105 0.240 0.651 0.352 0.487 0.027 0.650 0.116 0.281

0

0

0

0

0

0

0

0

Geom*(0.32) Somme de 2 Geom*(0.32)

1 10 16

0

1 2

0

0

0

0

0

0

0

0

0.794 0.714 0.330 0.965 0.643 0.117 0.747 0.403 0.888 0.275 0.802 0.136 0.352 0.356 0.759 0.982 0.911 0.473 0.558 0.634

1 Geom*(0.32) 10 Somme de 2 Geom*(0.32) 12 Bernoulli (0.32)

Binom(20;0.32)

0

16

Binom(20;0.32) Uniforme sur [0;1]

0

16

Binom(20;0.32) Uniforme sur [0;1]

0

22

Binom(20;0.32) Uniforme sur [0;1]

0

1 1

0

1 2 3

0

0

1 3

0

1 2 5

0

1 2

0

0

0

1 4 6

1 1

1 1 2

0

0

0

28

1.1.2.2. Simulation d'une variable aléatoire X de loi discrète à support borné ou non. — pour chaque nombre u i, 1 ≤ i ≤ n, choisi au hasard dans l'intervalle [0, 1] des valeurs de la fonction de répartition, on prend pour valeur x i de X, l'abscisse du point d'intersection de la droite d'ordonnée u i avec la courbe représentative de la fonction de répartition de X. — (x 1, ... , x n) est la réalisation d'un n-échantillon de X.

1.1.2.3. Simulation d'une variable aléatoire X de loi continue à support borné ou non. — pour chaque nombre u i, 1 ≤ i ≤ n, choisi au hasard dans l'intervalle [0, 1] des valeurs de la fonction de répartition, on prend pour valeur x i de X, l'abscisse du point d'intersection de la droite d'ordonnée u i avec la courbe représentative de la fonction de répartition de X. — (x 1, ... , x n) est la réalisation d'un n-échantillon de X. — Si la fonction de répartition n'est continue que par morceaux, on joint les points de discontinuité par des segments verticaux, la longueur du segment étant la probabilité de l'abscisse.

1.1.3. Autres applications pratiques de la méthode de Monte-Carlo. Comme il n'est pas toujours facile de déterminer la valeur de x i à partir de u i et de la fonction de répartition de X, on utilise souvent des méthodes particulières à chaque type de loi. 1.1.3.1. Simulation d'une variable aléatoire X de loi géométrique sur N* de paramètre p. — On a vu plus haut comment procéder. Au lieu d'utiliser la fonction de répartition, on utilise la propriété de la loi géométrique sur N * : c'est la loi de probabilité du nombre de répétitions d'une épreuve de Bernoulli qu'il faut pour atteindre un premier succès. — On tire une suite de nombres au hasard dans l'intervalle [0, 1]. — On en déduit une suite de 0 ou 1, valeurs d'une variable de Bernoulli de paramètre p, d'après 1.1.2.1 et la fonction de répartition de la variable de Bernoulli. — Dans cette suite, on compte le nombre de termes x 1 qu'il faut pour atteindre un 1 (premier succès de l'épreuve de Bernoulli), puis le nombre x 2 de termes suivants, qu'il faut pour atteindre le 1 suivant, etc.

— La suite des x i est un échantillon de loi géométrique sur N * de paramètre p. — L'inconvénient de la méthode est qu'il faut en moyenne

nombres aléatoires u i pour

engendrer une valeur x i. L'avantage de la méthode est qu'elle dispense du calcul de logarithme nécessité par la fonction réciproque de la fonction de répartition de la loi géométrique : X=1+ , où [ x ] désigne la partie entière de x. 1.1.3.2. Simulation d'une variable aléatoire X de loi binomiale de paramètres n et p. — On a vu plus haut comme procéder. Au lieu d'utiliser la fonction de répartition, on utilise la propriété de la loi binomiale de paramètres n et p : c'est la loi de probabilité du nombre de succès dans la répétition n fois d'une épreuve de Bernoulli. — On tire une suite de nombres au hasard dans l'intervalle [0, 1]. — On en déduit une suite de 0 ou 1, valeurs d'une variable de Bernoulli de paramètre p, d'après 1.1.2.1 et la fonction de répartition de la variable de Bernoulli. — Dans cette suite, on compte le nombre de succès x 1 qu'on obtient en n épreuves, puis le nombre x 2 de succès dans les n épreuves suivantes, etc. — La suite des x i est un échantillon de loi binomiale de paramètres n et p. — L'inconvénient de la méthode est qu'il faut n nombres aléatoires u i pour engendrer une valeur x i. L'avantage de la méthode est qu'elle dispense du calcul de la fonction réciproque de la fonction de répartition de la loi binomiale. Méthode alternative. — On tire une suite (u i) 1 ≤ i ≤ n de nombres au hasard dans l'intervalle [0, 1]. — Pour chaque indice i, on pose y 1 = u i, puis yj+1 = , pour 1 ≤ j ≤ k – 1. On désigne par x i le nombre de y j compris entre 1 – p et 1. Explication. Cet algorithme revient à définir, à partir de la variable aléatoire U de loi uniforme sur [0, 1], d'abord une suite (Y j) 1 ≤ j ≤ k de variables aléatoires à valeurs dans [0, 1] par Y 1 = U puis

1 [0, 1 – p] (Y j) +

Yj+1 =

et X =

1 ]1 – p, 1] (Y j)

1 ]1 – p, 1] (Y j).

Y 1 = U suit une loi uniforme sur [0, 1]. Donc la probabilité que Y 1 prenne une valeur dans un intervalle de longueur a contenu dans [0, 1] est a. Supposons, hypothèse de récurrence, que la probabilité que Y j prenne une valeur dans un intervalle de longueur a contenu dans [0, 1] soit a, pour tout a ∈ ]0, 1[. D'après le dessin et la définition de Y j + 1, Y j + 1 est compris entre x et x + a lorsque Y j est compris entre x (1 – p) et (x + a)(1 – p), ou entre p x + (1 – p) et p (x + a) + (1 – p) : P [x < Y j + 1 ≤ x + a] = P [x (1 – p) ≤ Y j ≤ (x + a)(1 – p)] + P [p x + (1 – p) ≤ Y j ≤ p (x + a) + (1 – p)] = a (1 – p) + a p = a. Donc l'hypothèse de récurrence est vraie encore pour j + 1, dès qu'elle est vraie pour j. Le résultat est donc établi pour tout j ∈ N * puisqu'il est vrai pour j = 1 : La probabilité que Y j prenne une valeur dans un intervalle de longueur a contenu dans [0, 1] est égale à a, pour tout a ∈ ]0, 1[. La loi conjointe de 1 [0, 1 – p] (Y j) et 1 [0, 1 – p] (Y j + 1) est donnée par : 1 [0, 1 – p] (Y j + 1)

1 [0, 1 – p] (Y j)

0 1 Total

0

1

Total

p² p (1 – p) p p (1 – p) (1 – p) ² 1 – p p 1–p 1

En effet, on connaît déjà les lois marginales d'après le résultat précédent. Il suffit donc de calculer une seule des quatre probabilités conjointes pour avoir les trois autres par différence. Calculons, par exemple : P [{1 [0, 1 – p] (Y j + 1) = 1}  {1 [0, 1 – p] (Y j) = 1}] = P [{1 [0, 1 – p] (Y j + 1) = 1} | {1 [0, 1 – p] (Y j) = 1}] × P [{1 [0, 1 – p] (Y j) = 1}] = P [0 ≤ Y j + 1 ≤ 1 – p} | {0 ≤ Y j ≤ 1 – p}] × P [{0 ≤ Y j ≤ 1 – p}] P [0 ≤ Y j + 1 ≤ 1 – p} | {0 ≤ Y j ≤ 1 – p}] =

=1–p

P [{1 [0, 1 – p] (Y j + 1) = 1}  {1 [0, 1 – p] (Y j) = 1}] = (1 – p) × (1 – p) = (1 – p) ². C'est bien la valeur indiquée dans le tableau des probabilités conjointes. Le tableau de la loi conjointe montre que les probabilités conjointes peuvent aussi s'obtenir par produit des lois marginales : donc deux variables aléatoires consécutives 1 [0, 1 – p] (Y j) et 1 [0, 1 – p] (Y j + 1) sont indépendantes.

On peut en déduire que les variables aléatoires 1 [0, 1 – p] (Y j) sont indépendantes dans leur ensemble (résultat admis ici) La variable aléatoire X suit une loi binomiale de paramètres k et p, parce que X est somme de k variables aléatoires de Bernoulli indépendantes de paramètre p, car chaque variable aléatoire 1 ]1 – p, 1] (Y j) est une variable de Bernoulli de paramètre p : P [1 ]1 – p, 1] (Y j) = 1] = P [1 – p < Y j ≤ 1] = 1 – (1 – p) = p, pour j ≥ 1, d'après le résultat précédent. Le n-uple (x 1, ... , x n) forme ainsi une réalisation d'un n-échantillon de loi binomiale de paramètres k et p. L'avantage de la méthode est qu'il suffit d'une valeur de U pour définir une valeur de X. 1.1.3.3. Simulation d'une variable aléatoire X de loi exponentielle de paramètre λ. La densité de probabilité est f (x) = λ e – λ x 1 R (x). +

La fonction de répartition est F (x) = (1 – e

–λx

) 1 R (x). +

La fonction réciproque de la fonction de répartition est F – 1 (u) = – 1 [. Pour chaque nombre aléatoire u i ∈ ] 0, 1 [, on pose x i = –

ln (1 – u), u ∈ ] 0,

ln (1 – u i).

On obtient ainsi un échantillon de variable de loi exponentielle de paramètre λ. Remarque. Dès qu'on sait simuler une loi exponentielle, on sait simuler la loi Gamma de paramètres n et λ qui en découle : Y = X 1 + ... + X n, où X 1, ... , X n, suivent une loi exponentielle de même paramètre λ. 1.1.3.4. Simulation d'une variable aléatoire X de loi de Cauchy. La densité de probabilité est f (x) = La fonction de répartition est F (x) =

. (Arctan x + ).

La fonction réciproque de la fonction de répartition est F – 1 (u) = – tan (π u – ) = – cotan (π u). Pour chaque nombre aléatoire u i ∈ ] 0, 1 [, on pose x i = – cotan (π u i). On obtient ainsi un échantillon de variable de loi de Cauchy.

1.2. Méthode de rejet de Von Neumann. 1.2.1. Méthode. On suppose que l'on sait simuler une variable aléatoire Y de loi de probabilité g. On cherche à simuler une variable aléatoire X de densité de probabilité f vérifiant f (x) = c h (x) g (x), avec 0 ≤ h (x) ≤ 1, pour tout x. La méthode de rejet de Von Neumann consiste à : — tirer U selon une loi uniforme sur [0, 1] ; — tirer Y selon la loi de densité g, jusqu'à ce que h (Y) ≥ U ; — puis recommencer : valeur de U, valeur de Y jusqu'à ce que h (Y) ≥ U, ... Les valeurs retenues x i de Y forment une réalisation d'un échantillon de loi f.

1.2.2. Justification. Soit (U i) i ∈ N * une suite de variables aléatoires indépendantes et identiquement distribuées de loi uniforme sur [0, 1]. Soit (Y i) i ∈ N * une suite de variables aléatoires indépendantes et identiquement distribuées de loi g, indépendante de la suite (U i) i ∈ N *. Soit T le nombre d'essais nécessaires pour obtenir la condition d'acceptation de la valeur de Y. On peut écrire X sous la forme X =

Y n 1 {T = n}.

L'événement {T = n} est la conjonction des événements

{U i > h (Y i)} et {U n ≤ h (Y n)}.

Or, pour tout indice j ∈ N *, on a : P [{U j ≤ h (Y j)}] =

du

g (y) dy =

g (y) h (y) dy =

g (y)

dy =

dy = . n–1

De sorte que, par suite de l'indépendance des variables, P [{T = n}] =

× 1–

Cette égalité qui montre que T suit une loi géométrique sur N *, de paramètre . La probabilité de l'événement X ≤ x est donnée par :

.

f (y)

X=

Y n 1 {T = n} ≤ x

P [X ≤ x] =

P [{Y n ≤ x}  {T = n}] n–1

=

P [{Y n ≤ x}  {U n ≤ h (Y n)}]

1–

n–1

Or

1–

=

=c

Donc : P [X ≤ x] = c =c

h (y) g (y) dy

=

f (y) dy

du g (y) dy

Ceci montre que X est une variable aléatoire de densité de probabilité f. Remarque. L'espérance mathématique de T est c. Plus c est petit, moins il faut d'essais, en moyenne, pour obtenir une valeur de X. On aura donc intérêt à prendre la plus petite valeur possible de c, par exemple celle qui fait que les courbes représentatives de f et de c g sont tangentes. Application : simulation de la normale centrée réduite. La densité de probabilité est f (x) =

e

.

On commence par simuler une variable aléatoire A ayant pour densité de probabilité celle de la valeur absolue d'une variable normale centrée réduite. La densité de probabilité de A est de la forme c h (x) g (x) avec c =

, g (x) = e – x, h (x) = e

. g est la densité de probabilité d'une variable exponentielle de paramètre 1 : on sait la simuler (1.1.3.3). La méthode de rejet de Von Neumann permet donc de simuler A. On sait simuler aussi une variable discrète ε prenant les valeurs 1 et – 1 avec les probabilités . La variable aléatoire X = ε A suit une loi normale centrée réduite.

1.3. Méthode polaire de simulation d'une variable normale. Si U et V sont des variables aléatoires indépendantes de loi uniforme sur [0, 1], alors les variables cos (2 π V) et Y =

X=

sin (2 π V)

sont des variables aléatoires normales centrées réduites indépendantes. X ² + Y ² = – 2 ln U U=e tan (2 π V) = V=

Arctan

En effet, l'espérance d'une fonction h de X et Y est donnée par : E [h (X, Y)] = =

h (x, y)

=

h (x, y)

=

h (x, y)

cos (2 π V),

h(

sin (2 π V)) dU dV

dx dy

dx dy

e

dx dy =

h (x, y)

e

e

dx dy

Et ceci montre que les variables X et Y sont indépendantes et suivent chacune la loi normale centrée réduite. Remarque. Dès qu'on sait simuler une variable aléatoire X de loi normale centrée réduite, on sait simuler les lois qui en découlent : — loi normale de paramètres µ et σ ² : Y = µ + σ X, où X suit une loi normale centrée réduite ; — loi χ ² de Karl Pearson à ν degrés de liberté : χ ν ² = X 1 ² + ... + X ν ², où X 1, ... , X ν, suivent une loi normale centrée réduite. — loi de Student à ν degrés de liberté : T = ² une loi de Pearson à ν degrés de liberté ;

, où X suit une loi normale centrée réduite et χ ν

— loi F de Fisher-Snedecor à (n 1, n 2) degrés de liberté : F =

, où χ n ² suit une loi de 1

Pearson à n 1 degrés de liberté, et χ n ² une loi de Pearson à n 2 degrés de liberté. 2

Chapitre 2. Estimation ponctuelle et par intervalle de confiance. 2.1. Estimation d'un pourcentage. Soit F la fréquence d'une modalité d'un caractère (qualitatif ou quantitatif) dans un échantillon de taille n, et f sa réalisation dans l'échantillon dont on dispose. Soit p la probabilité de cette modalité dans la population parent. Le nombre X d'individus d'un échantillon de taille n présentant la modalité étudiée, suit une loi binomiale de paramètres n et p : E (X) = n p, Var (X) = n p (1 – p). F= Var (X) = ; E (F) = E (X) = p ; Var (F) = .

2.1.1. Estimation ponctuelle. F est un estimateur sans biais de p : E (F) = p. On obtient une estimation ponctuelle sans biais de p en prenant la réalisation f de F dans l'échantillon : p*=f

2.1.2. Intervalle de confiance. F est un estimateur robuste de p :

Var (F) = 0.

On obtient une estimation ponctuelle sans biais de Var (F) en prenant la réalisation de l'estimateur de cette variance dans l'échantillon. Petits échantillons : Abaque. Pour les petites valeurs de n, on peut calculer un intervalle de confiance de p à partir de la loi binomiale. En abscisse, on lit la valeur de f ; en ordonnées, on obtient les limites de l'intervalle de confiance au risque choisi pour construire l'abaque. Grands échantillons : Loi normale. Pour les grandes valeurs de n, la loi binomiale se rapproche d'une loi normale. F est un estimateur de p, correct (sans biais et robuste) et asymptotiquement gaussien (sa fonction de répartition tend uniformément, lorsque n tend vers l'infini, vers une fonction de répartition normale). L'intervalle de confiance de p au risque α est donné par : f – uα

; f + uα

où u α est la valeur de u telle que F (u) = 1 –

(F fonction de répartition

de la variable normale centrée réduite). Valeur à connaître : α = 5 % ⇒ u α = 1,960.

2.2. Estimation d'une moyenne. On considère un échantillon aléatoire (X 1, ... , X n) d'une variable aléatoire réelle X et une réalisation (x 1, ... , x n) de cet échantillon. (X) =

X i est un estimateur correct et asymptotiquement gaussien de E (X).

2.2.1. Estimation ponctuelle. E * (X) =

xi

2.2.2. Intervalle de confiance. Petit échantillon de loi connue. Un intervalle de confiance de E (X) peut se calculer éventuellement grâce à cette loi. Echantillon de loi normale (ou supposée normale) et de variance σ ² inconnue. La fonction de répartition F n – 1 de la variable de Student à n – 1 degrés de liberté, permet de calculer un intervalle de confiance de la moyenne au risque α : E * (X) – t α

; E * (X) + t α

où t α est la valeur de t telle que F n – 1 (t) = 1 – , et où σ * est la racine carrée de l'estimation ponctuelle de la variance : σ*²=

xi ² –

xi

Si la taille est grande (dépassant les capacités de la table), la loi de Student peut être remplacée par une loi normale. Echantillon de loi normale (ou supposée normale) et de variance σ ² connue. La fonction de répartition F de la variable normale centrée réduite permet de calculer un intervalle de confiance de la moyenne au risque α : E * (X) – u α

; E * (X) + u α

où u α est la valeur de u telle que F (u) = 1 – .

Valeur à connaître : α = 5 % ⇒ u α = 1,960. Echantillon de loi quelconque, de grande taille et de variance σ ² connue. La fonction de répartition F de la variable normale centrée réduite permet de calculer un intervalle de confiance de la moyenne au risque α : E * (X) – u α

; E * (X) + u α

où u α est la valeur de u telle que F (u) = 1 – . Valeur à connaître : α = 5 % ⇒ u α = 1,960. Echantillon de loi quelconque, de grande taille et de variance σ ² inconnue. La fonction de répartition F de la variable normale centrée réduite permet de calculer un intervalle de confiance de la moyenne au risque α : E * (X) – u α

; E * (X) + u α

où u α est la valeur de u telle que F (u) = 1 – . et où σ * est la racine carrée de l'estimation ponctuelle de la variance : σ*²=

xi ² –

xi

Valeur à connaître : α = 5 % ⇒ u α = 1,960.

2.3. Estimation d'une variance. On considère un échantillon aléatoire (X 1, ... , X n) de taille n d'une variable aléatoire réelle X et une réalisation (x 1, ... , x n) de cet échantillon. ² (X) =

Xi ² –

Xi

est un estimateur correct et asymptotiquement

gaussien de Var (X).

2.3.1. Estimation ponctuelle. La réalisation de

² (X) est une estimation ponctuelle de la variance :

σ*²=

2.3.2. Intervalle de confiance.

xi ² –

xi

(n – 1)

est une variable de χ ² à n – 1 degrés de libertés.

L'intervalle de confiance de la variance σ ² au risque α est :

(n – 1)

; (n – 1)

où χ ε ² désigna la valeur de χ ² pour laquelle la fonction de répartition à n – 1

χ ²) = ε. degrés de liberté est F n – 1 (χ

Les racines carrées des bornes donnent un intervalle de confiance de l'écart-type au risque α :

Lorsque n tend vers l'infini, la loi du χ ² se rapproche d'une loi normale. Lorsque n est grand, on peut prendre pour intervalle de confiance de l'écart-type σ au risque α : σ * – uα

; σ * + uα

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 16

Chapitre 3. Tests statistiques. 3.1. Généralités sur les tests. 3.1.1. Hypothèses soumises au test. Les statistiques développent des techniques et des méthodes qui permettent d'analyser les données issues de l'observation, afin de cerner les caractéristiques de la population concernée et d'identifier un modèle capable d'engendrer ces données. Dans ce cadre, on est amené à faire des hypothèses, c'est-à-dire à émettre des assertions concernant ces caractéristiques ou ce modèle. Une hypothèse est dite paramétrique si elle se rapporte aux paramètres d'une loi. Elle est dite non paramétrique dans les autres cas. Une hypothèse paramétrique est dite simple si elle est associée à une valeur unique. Elle est dite multiple dans les autres cas. Le plus souvent, la situation se résume en une alternative constituée de deux hypothèses H 0 et H 1, qui s'excluent mutuellement et qui sont appelées respectivement l'hypothèse nulle, ou fondamentale, et l'hypothèse alternative, ou contraire. En général, les hypothèses H 0 et H 1 ne jouent pas des rôles symétriques, et on choisit pour hypothèse nulle H 0 l'hypothèse à laquelle on croit ou on tient, ou encore celle qui permet de faire des calculs, ou encore celle dont le rejet est lourd de conséquences.

3.1.2. Test. 3.1.2.1. Définition. Les hypothèses à confronter, H 0 et H 1, étant identifiées, leur validité est soumise à l'épreuve à l'aide d'un test d'hypothèses. Un test d'hypothèses est une règle de décision qui permet, sur la base des données obsdervées et avec des risques d'erreur déterminés, d'accepter ou de refuser une hypothèse statistique.

3.1.2.2. Erreur, risque, niveau, puissance. La règle de décision d'un test étant basée sur l'observation d'un échantillon et non sur la base d'une information exhaustive, on n'est jamais sûr de l'exactitude de la conclusion : il y a donc toujours un risque d'erreur. L'erreur de première espèce consiste à rejeter H 0 à tort : le risque d'erreur de première espèce est noté α, c'est le risque d'erreur que l'on prend en rejetant H 0 alors qu'elle est vraie. On l'appelle aussi le niveau du test. L'erreur de deuxième espèce consiste à rejeter H 1 à tort : le risque d'erreur de deuxième espèce est noté β, c'est le risque d'erreur que l'on prend en rejetant H 1 alors qu'elle est vraie. η = 1 – β est appelé la puissance du test.

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 17

On s'efforce de construire des tests qui limitent les risques à des niveaux jugés acceptables. En règle générale, on impose un seuil α à ne pas dépasser (par exemple 5 %, par défaut) et, compte tenu de cette contrainte, on cherche à construire les tests ayant la plus grande puissance possible.

3.1.2.3. Fonction discriminante. Un test basé sur un échantillon de taille n est déterminé par une région R de R n appelée région critique, ou région de refus de l'hypothèse H 0. Le complémentaire A de R est appelé la région d'acceptation de H 0. La règle de décision d'un test est la suivante : si x = (x 1, ... , x n) est le vecteur des valeurs observées, on décide de refuser H 0 (et d'accepter H 1) si x ∈ R, et on décide d'accepter H 0 si x ∉ R. Dans la pratique, on essaie de définir une variable aléatoire D, que l'on appelle variable de décision, ou fonction discriminante, et dont la loi est connue, au moins sous l'hypothèse H 0. La région critique sera alors la région dans laquelle la probabilité des valeurs de la fonction discriminante a tendance à augmenter lorsque H 0 n'est pas vraie. Cette région est définie à l'aide du risque α de première espèce du test.

3.1.2.4. Probabilité critique. Si l'on note t la valeur de la fonction discriminante T, on appelle probabilité critique de l'hypothèse H0 : — P (T ≥ t | H 0) si T a tendance à prendre de grandes valeurs lorsque H 0 n'est pas vraie (test unilatéral à gauche, queue de probabilité à droite) ; — P (T ≤ t | H 0) si T a tendance à prendre de petites valeurs lorsque H 0 n'est pas vraie (test unilatéral à droite, queue de probabilité à gauche) ; — P (| T | ≥ | t | | H 0) si T a tendance à s'éloigner de 0 lorsque H 0 n'est pas vraie (test bilatéral). La probabilité critique fournit une mesure de crédibilité de l'hypothèse H 0 : — une valeur très faible de la probabilité critique signifie que H 0 n'est pas valable, — une valeur trop élevée permet de mettre en doute le caractère aléatoire de l'expérience et la fiabilité des données et des calculs.

3.2. Tests non paramétriques. 3.2.1. Test du Khi-deux de Pearson. 3.2.1.1. Nature et principe du test. Le test du Khi-deux (χ ²) est un test non paramétrique qui permet de tester l'hypothèse H 0 selon laquelle les données observées sont engendrées par un modèle faisant intervenir une loi de probabilité, ou une famille de lois de probabilité. Le choix du modèle résulte de diverses considérations théoriques ou expérimentales, et il importe de tester son adéquation. Le principe du test est le suivant.

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 18

On définit une fonction discriminante D n qui constitue une mesure normalisée de l'écart entre les valeurs théoriques déduites du modèle et les valeurs observées dans l'échantillon. Lorsque H 0 n'est pas vraie, les valeurs de D n augmentent et lorsque H 0 est vraie, D n suit, au moins asymptotiquement, une loi du χ ² de Pearson à ν degrés de liberté. La région critique du test est donc constituée des grandes valeurs de D n. Le risque α étant donné, on note χ 1 – α ² le fractile d'ordre 1 – α de la loi du χ ² de Pearson à ν degrés de liberté défini par P (D n ≥ χ 1 – α ²) = α.

On note d la valeur observée de D n dans l'échantillon, et on compare la valeur de d à χ 1 – α ².

Lorsque l'approximation par la loi du χ ² de Pearson à ν degrés de liberté est valable, cette comparaison définit la règle de décision suivante, appelée test asymptotique de niveau α : 1. Si d < χ 1 – α ², on considère que l'écart est dû au hasard de l'échantillonnage et qu'il n'est pas significatif : on accepte H 0.

2. Si d ≥ χ 1 – α ², on considère que l'écart observé est trop important pour être attribué aux seules fluctuations d'échantillonnage et qu'il révèle l'inadéquation du modèle : on refuse H 0. On peut aussi, au vu de la réalisation d de D, calculer la probabilité critique p = P [D ≥ d] et apprécier la crédibilité de l'hypothèse H 0.

3.2.1.2. Expression et loi asymptotique de la fonction discriminante D. Soient X le vecteur ou la variable aléatoire étudiée, (X 1, ... , X n) un n-échantillon de X, et µ la mesure de probabilité de X lorsque H 0 est vraie. On partage l'ensemble des valeurs X (Ω) en k classes (C i) 1 ≤ i ≤ k. Si X est une variable aléatoire continue, les C i sont en général des intervalles ou des produits d'intervalles. Si X est une variable aléatoire discrète ou modale, les C i sont en général des points. Pour tout indice i de 1 à k, on note p i la probabilité théorique de la classe C i donnée par la loi µ : p i = P (X ∈ C i) = µ (C i) =

dµ (au sens de Stieltjes),

ce qui suppose que la loi µ est entièrement déterminée. Lorsque µ dépend de paramètres inconnus, on note

la loi entièrement spécifiée obtenue en estimant

les paramètres de la loi µ (généralement par la méthode du maximum de vraisemblance), et )=

i

d l'estimation correspondante de la probabilité théorique de la classe C i.

Ainsi, pour tout indice i de 1 à k, n p i (resp. n i) représente l'effectif (resp. une estimation de l'effectif) théorique espéré de la classe C i en n observations, sous l'hypothèse H 0.

i

=

(C

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 19

Pour la validité de l'approximation par la loi du Khi-deux avec un nombre correct de degrés de liberté, tous ces effectifs théoriques doivent, en général, être supérieurs à 5. Pour chaque indice i de 1 à k, on note N i le nombre d'observations appartenant à la classe C i : c'est l'effectif empirique ou observé de la classe C i. Avec ces notations, la variable :

Dn =

représente une mesure normalisée de l'écart global entre les valeurs théoriques et les valeurs observées. Pour tout indice i de 1 à k,

est l'écart individuel de la classe C i.

On démontre alors que D n suit asymptotiquement une loi du Khi-deux à ν degrés de liberté, avec ν = k – r – 1, r étant le nombre de paramètres estimés de la loi théorique. Lorsque ν = 1, il est recommandé de tenir compte de la correction de continuité en prenant comme expression de l'écart correspondant à la classe C i.

3.2.1.3. Conditions d'application. 1. On considère que l'approximation par la loi du Khi-deux est satisfaisante si n ≥ 30 et si tous les effectifs théoriques sont supérieurs ou égaux à 5. Si les effectifs des classes extrêmes sont inférieurs à 5, il faut procéder à des regroupements de classes. 2. Le choix des classes, quand il est possible, doit être tel que les effectifs théoriques soient proches les uns des autres, quand ils ne sont pas tous égaux. 3. Le nombre k des classes, lorsqu'il est à définir, doit être à la fois assez grand pour perdre le moins d'information possible, et assez petit pour que les effectifs des classes ne soient pas trop réduits. Empiriquement, la formule k = [ ] (partie entière de la racine carrée de n) paraît convenable.

3.2.1.4. Principales utilisations. Disposition des calculs. 3.2.1.4.1. Test d'ajustement. Soit X une variable aléatoire de loi L (le plus souvent inconnue). On souhaite tester l'ajustement de celle loi à une loi connue L 0 retenue comme étant un modèle convenable. Cette loi L 0 peut être entièrement spécifiée ou appartenir à une famille de lois (par exemple loi normale).

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 20

On teste donc l'hypothèse H 0 : L = L 0 contre l'hypothèse H 1 : L ≠ L 0. Pour cela, on partage convenablement l'ensemble des valeurs de X en k classes et, sur la base de n observations, on définit la fonction discriminante :

Dn =

(si les p i sont inconnus)

ou D n =

(si les p i sont connus).

Sous réserve des conditions d'application, la fonction discriminante D n suit une loi du Khi-deux à n – r – 1 degrés de liberté, où r est le nombre de paramètres de la loi L 0 qu'il a fallu estimer à partir des données. On présente les données et les résultats des calculs dans un tableau à quatre colonnes correspondant respectivement aux intitulés des classes, aux effectifs observés, aux effectifs théoriques, aux écarts. Connaissant le niveau α du test, on peut calculer la valeur critique de D n, à laquelle on compare la valeur observée d de D n. On peut aussi calculer, à partir de la valeur observée d de D n, la probabilité critique, qui permet d'apprécier la crédibilité de l'hypothèse H 0. 3.2.1.4.2. Test d'indépendance. On considère deux caractères A et B, quantitatifs ou qualitatifs. Le caractère A présente r modalités (r classes si A est quantitatif). Le caractère B présente s modalités (s classes si B est quantitatif). Les effectifs conjoints sont répartis en k = r s modalités A i f B j. On souhaite tester l'hypothèse H 0 : les caractères A et B sont indépendants, contre l'hypothèse H 1 : les caractères A et B ne sont pas indépendants. On appelle N i j l'effectif observé de la modalité conjointe A i f B j et n i j sa réalisation dans l'échantillon de taille n =

Nij =

n i j étudié.

Ni. =

N i j est l'effectif marginal de la modalité A i et n i . sa réalisation dans l'échantillon étudié ;

N.j =

N i j est l'effectif marginal de la modalité B j et n . j sa réalisation dans l'échantillon étudié.

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 21

On note p i la probabilité de la modalité A i, et q j la probabilité de la modalité B j. Sous l'hypothèse d'indépendance H 0, la probabilité de la modalité conjointe A i f B j est p i q j et l'effectif théorique espéré dans un échantillon de taille n est n p i q j. Mais p i et q j sont inconnus, il faut donc les estimer par espéré est alors une variable aléatoire C i j = n n, la valeur c i j =

j

=

=

et

j

=

: l'effectif théorique

, qui prend, dans l'échantillon de taille

.

L'écart correspondant à la modalité A i f B j est

=

i

i

. Il prend dans l'échantillon la valeur d i j

et l'écart entre la distribution d'effectifs observés et la distribution théorique

espérée sous l'hypothèse d'indépendance est mesurée par la valeur d =

de la

fonction discriminante D n. Ici, le nombre de paramètres estimés est (r – 1) + (s – 1) et le nombre de degrés de liberté est : ν = r s – 1 – [(r – 1) + (s – 1)] = (r – 1) (s – 1). Si les conditions d'application sont vérifiées, la fonction discriminante suit une loi du Khi-deux à ν = (r – 1) (s – 1) degrés de liberté.

Les données et les calculs sont présentés dans un tableau à r + 2 lignes et s + 2 colonnes : — dans la première colonne, figurent les modalités du caractère A ; dans la première ligne, figurent les modalités du caractère B ; — dans la dernière ligne, figurent les effectifs marginaux des modalités de B ; dans la dernière

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 22

colonne, figurent les effectifs marginaux des modalités de A ; — dans chaque case du tableau de contingence restant figurent : les effectifs observés n i j, les effectifs théoriques espérés c i j, les écarts d i j =

correspondants.

Connaissant le niveau α du test, on peut calculer la valeur critique de D n, à laquelle on compare la valeur observée d =

d i j de D n.

On peut aussi calculer, à partir de la valeur observée d de D n, la probabilité critique, qui permet d'apprécier la crédibilité de l'hypothèse H 0. 3.2.1.4.3. Test d'homogénéité. On considère ici la répartition d'un caractère A, qualitatif ou quantitatif, dans s populations, B 1, ... , B . s Le caractère A présente r modalités, A 1, ... , A r. Le problème est de savoir si, au vu d'un échantillon, la répartition du caractère A dépend ou non de la population. On teste donc : — l'hypothèse H 0 : la répartition du caractère A est indépendante de la population, contre : — l'hypothèse H 1 : la répartition du caractère A n'est pas indépendante de la population. Le problème est exactement du même type que le précédent : seule la formulation change un peu. La présentation, les calculs et la conclusion, se font donc de manière tout à fait analogue à ce qui vient d'être fait dans le test d'indépendance.

3.2.2. Test d'ajustement de Kolmogorov-Smirnov. Le test d'ajustement de Kolmogorov-Smirnov est un test non paramétrique qui permet de tester l'hypothèse H 0 selon laquelle les données observées sont engendrées par une loi de probabilité théorique considérée comme étant un modèle convenable. Mais contrairement au test Khi-deux, la loi théorique doit ici être continue et entièrement spécifiée, sans paramètre inconnu. Dans ce test, les calculs sur les lois de probabilité se font sur les fonctions de répartition : on mesure l'écart entre la fonction de répartition théorique et la fonction de répartition observée. On considère ainsi une variable aléatoire X de fonction de répartition F, que l'on veut comparer à une fonction de répartition théorique F 0 continue. On souhaite tester : — l'hypothèse H 0 : F = F 0, contre : — l'hypothèse H 1 : F ≠ F 0. Si (X 1, ... , X n) est un n-échantillon de X, la fonction de répartition empirique associée à cet

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 23

échantillon est : 1 ]–∞, x] (X k)

F n (x) =

F n (x) est la proportion des observations dont la valeur est inférieure ou égale à x. L'écart entre les valeurs observées et les valeurs théoriques du modèle déduites de la fonction de répartition F 0 peut donc être mesuré par la variable aléatoire : ∆n =

| F n (x) – F 0 (x) |

qui sera la variable de décision, ou fonction discriminante, du test. En posant U n =

∆ n, on démontre que lorsque H 0 n'est pas vraie, U n tend vers + ∞, et, lorsque H 0

est vraie, U n suit asymptotiquement une loi sur R + définie par sa fonction de répartition K (y) = e – 2 n ² y ². La région critique du test est donc constituée des grandes valeurs de ∆ n. Le niveau α étant donné, on peut définir la valeur critique de deux façons : — La loi de ∆ n étant tabulée, le fractile c n (1 – α) d'ordre 1 – α de cette loi, fournit un test exact de niveau α en rejetant l'hypothèse H 0 si la valeur observée δ n de ∆ n dépasse c n (1 – α), et en l'acceptant dans le cas contraire. Ce test est donc valable pour toute taille n de l'échantillon. — La loi limite étant tabulée, le fractile c (1 – α) d'ordre 1 – α de cette loi, fournit un test asymptotique de niveau α en rejetant l'hypothèse H 0 si la valeur observée δ n de ∆ n dépasse c (1 – α), et en l'acceptant dans le cas contraire. La convergence vers la loi limite étant assez rapide, ce test est largement acceptable pour n > 100.

Remarques. On démontre que : 1. Les valeurs de δ n sont toujours comprises entre

et 1.

2. Pour tout n ≥ 1 et tout t ≥ 0, P [{ ∆ n ≥ t}] ≤ 6 e – 2 t ². 3. Pour n > 100, la valeur critique du test de Kolmogorov-Smirnov est, approximativement de la forme . Les valeurs usuelles de c en fonction de α sont :

. Ces valeurs

donnent déjà une orientation à partir de n = 30. 4. On peut, par exemple, tester convenablement l'adéquation de la fonction discriminante D n d'un test de Khi-deux, à la loi du Khi-deux, à l'aide d'un test de Kolmogorov-Smirnov : cette astuce permet de tester indirectement l'hypothèse du test du Khi-deux concernant une loi quelconque.

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 24

3.2.3. Tests de Wilcoxon. Les tests de Wilcoxon sont des tests non paramétriques utilisés pour comparer deux variables X et Y de fonctions de répartition F X et F Y continues, en comparant F X et F Y, ou en comparant F X – Y et F Y – . X On dit que X a tendance à être plus grande que Y, ou encore que X est stochastiquement plus grande que Y si l'on a F X ≤ F Y. Le test de Wilcoxon permet de déceler l'absence ou la présence d'un décalage d'une répartition par rapport à une autre, ou une surcharge latérale d'une distribution. Ces tests sont sensibles et puissants lorsque F X et F Y se déduisent l'un de l'autre par une translation ou une propriété analogue. Dans le cas général, les hypothèses à tester doivent être considérées avec soin et doivent correspondre à une idée pertinente de la situation traitée pour éviter les conclusions erronées. En l'absence d'information supplémentaire, on adoptera la règle suivante. Lorsque la variable de décision appartient à la région critique, on refuse H 0, et lorsqu'elle appartient à la région d'acceptation, on refuse H 1. On distingue deux cas selon que les échantillons sont indépendants ou appariés.

3.2.3.1. Echantillons indépendants : test des rangs. On considère un m-échantillon (X 1, ... , X m) d'une variable aléatoire X, et un n-échantillon (Y 1, ... , Y ) d'une variable aléatoire Y, ces deux échantillons étant indépendants. n On prend pour hypothèse H 0 : X et Y sont stochastiquement indépendants, ce qui se traduit par F X = F Y. Dans le cas d'un test bilatéral, on prend pour hypothèse H 1 : il existe un décalage de l'une des distributions par rapport à l'autre, ce qui se traduit par F X ≠ F Y. Dans le cas d'un test unilatéral, on peut prendre pour hypothèse H 1 : X est stochastiquement plus grande que Y (F X < F Y), ou X est stochastiquement plus petite que Y (F X > F Y). L'idée générale du test de Wilcoxon est de définir une fonction discriminante qui prend des valeurs centrales sous H 0, et qui a tendance à prendre des petites ou des grandes valeurs sinon. On fait ce choix de la façon suivante, en considérant la somme des rangs des valeurs d'un échantillon. Après avoir rangé par ordre croissant la suite des valeurs {X 1, ... , X m, Y 1, ... , Y n} supposées toutes distinctes, on note R X le vecteur rang des observations de X : c'est le vecteur (R X , ... , R X ), où R X , 1

m

i

1 ≤ i ≤ m, est le rang de l'observation X i dans la suite ordonnée des valeurs {X 1, ... , X m, Y 1, ... , Y n}. De même, on note R Y le vecteur rang des observations de Y. On note : — W X la somme — WY =

R X des rangs des observations de X ; i

R Y la somme des rangs des observations de Y ; j

— N = m + n le nombre total d'observations.

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Nous avons : W X + W Y =

Page 25

.

Sous l'hypothèse H 0, la loi de probabilité de W X, appelée loi de Wilcoxon, (donc aussi celle de W Y), ne dépend pas de F X, elle dépend seulement de m et n : la probabilité de l'événement {W X = k } est le rapport entre le nombre de combinaisons de m des N = m + n nombres de 1 à m + n dont la somme est k, et le nombre total des combinaisons de m + n éléments m à m, chaque combinaison ayant la même probabilité sous H 0. Cependant, il n'y a pas d'expression simple de cette loi et on la calcule une fois pour toute par récurrence : la loi est donc tabulée et on se sert de tables pour appliquer le test. Les valeurs de W X vont de 1 + 2 + ... + m = = m (n + 1) +

à (m + n) + (m + n – 1) + ... + (m + n – (m – 1))

=

et la loi de W X est symétrique par rapport à la valeur centrale

+ m (n + 1) +

=

. L'espérance mathématique de W X est donc E (W X) =

.

On peut calculer aussi la variance de W X : Var (W X) =

.

Lorsque m et n deviennent très grands, la loi de probabilité de W X tend asymptotiquement vers une loi normale. Sous l'hypothèse H 1, les valeurs de W X ont tendance à s'éloigner de la valeur moyenne

.

On prendra donc pour région critique : — dans un test bilatéral, une région de la forme

;

+c

t

–c;

; — dans un test unilatéral, une région de la forme c;

;

+c

ou

, suivant le sens du test.

Remarques. 1. Test de Mann-Whitney. Au lieu de considérer la somme des rangs W X, on peut considérer la variable de Mann-Whitney

UX = U X est le nombre de couples (X i, Y j) tels que X i > Y j.

1 {X

i

>Y } j

.



Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 26

Si l'on note R ' X , 1 ≤ i ≤ m, est le rang de l'observation X i dans la suite ordonnée des valeurs {X 1, ... i

, X m}, nous avons : 1 {X

RX = R 'X + i

WX =

i

RX =

i

>Y } j

1 {X

R 'X +

i

i

WX =

i

>Y } j

+ UX

Nous voyons donc que U X prend des valeurs de 0 à m n, et que, sous H 0, sa loi de probabilité dans cet intervalle de N est une loi symétrique, d'espérance

et de variance

= Var (W X).

Comme la loi de Wilcoxon, la loi de Mann-Whitney tend asymptotiquement vers une loi normale. 2. La loi asymptotique de W X est normale. Bien qu'il existe des tables de la loi de Wilcoxon pour des valeurs de m et n allant jusqu'à 50, de nombreux auteurs tolèrent l'application de la loi normale pour Min (m, n) > 8. Il est alors recommandé dans ce cas, de tenir compte de la correction de continuité et d'utiliser la loi normale centrée réduite pour la variable :

Z=

=

3. Les cas d'ex aequo sont traités par la méthode du rang moyen.

Dans le cas où les valeurs de X et Y ne sont pas toutes distinctes, W X est remplacé par où

X

i

X

=

est le rang moyen du groupe d'ex aequo auquel appartient X i.

Si c k est le nombre d'observations du groupe d'ex aequo auquel appartient X i, le rang moyen de chaque valeur du groupe est : (R + (R + 1) + ... + (R + (c k – 1)) = R +

,

R étant le rang qu'aurait la valeur commune des X i du groupe si elle était unique. Autrement dit, quand on affecte un rang à chaque valeur de X, la première valeur d'un groupe d'ex aequo peut être affectée du rang R, puis, pour chaque valeur suivante ex aequo, on augmente la valeur du rang de . On montre alors que, sous H 0 : E[

X

]=

,

X

, i

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 27

C'est la même expression que pour E [W X] quand il n'y a pas d'ex aequo.

Var [

X

]=



c k (c k ² – 1),

r étant le nombre de groupes d'ex aequo, et c k le nombre d'observations du k ème groupe d'ex aequo. Le signe moins dans l'expression montre que l'existence de groupes d'ex aequo (c k > 1) a tendance à diminuer la dispersion des valeurs de la somme des rangs.

3.2.3.2. Echantillons appariés : test des signes et des rangs. On observe maintenant un n-échantillon ((X 1, Y 1), ... , (X n, Y n)) d'une variable (X, Y). On note Z = Y – X et Z i = Y i – X i, 1 ≤ i ≤ n. Dire que X et Y sont stochastiquement indépendantes revient à dire que la loi de Z est symétrique autour de 0. Ici, l'hypothèse H 0 est F Z = F – Z. Pour un test bilatéral, on prendra, pour hypothèse H 1, F Z ≠ F – Z. Pour un test unilatéral, on prendra, pour hypothèse H 1, F Z > F – Z, ou F Z < F – Z, suivant que Y a tendance à prendre des valeurs plus grandes que X, ou que X a tendance à prendre des valeurs plus grandes que Y. On définit une variable de décision, ou fonction discriminante, qui a tendance à s'éloigner de 0 lorsque H 1 est vraie : elle prendra en compte le signe de chaque Z i et sa valeur absolue. Pour cela, on range par ordre croissant la suite des valeurs absolues ( | Z 1 |, ... , | Z n | ), qu'on suppose, dans un premier temps, toutes distinctes et non nulles. On note R Z = ( ε (Z 1) R Z , ... , ε (Z n) R Z ) le vecteur des signes et des rangs de l'échantillon (Z 1, ... , 1

n

Z n). R Z est le rang de | Z i | dans la suite des valeurs absolues ( | Z 1 |, ... , | Z n | ) rangée par ordre i

croissant. ε (Z i) est le signe de Z i : + 1 si Z i est positive, – 1 si Z i est négative.

On note W + =

R Z , la somme des rangs des valeurs positives de Z, et W – =

R Z , la

i

i

somme des rangs des valeurs négatives de Z. W + prend des valeurs de 0 (aucune valeur de Z n'est positive) à

(toutes les valeurs de Z sont

positives). W+ + W– =

.

Sous l'hypothèse H 0, W + et W – suivent la même loi de probabilité qui ne dépend pas de la loi de Z. La loi de W + et W – est une loi symétrique autour de son espérance E [W +] =

.

Statistiques - 2e année - Chapitre 3 - Tests statistiques

La variance de W + est Var [W +] =

Page 28

.

La loi de probabilité de W + est tabulée. Dans un test bilatéral, sous l'hypothèse H 1, W + a tendance à prendre des valeurs qui s'éloignent de la valeur moyenne

et on prendra une région critique de la forme [ 0 ; c ] t

–c;

. Dans un test unilatéral, la région critique prendra la forme [ 0 ; c ] ou

–c;

suivant que, sous H 1, X a tendance à prendre des valeurs plus grandes que Y, ou que Y a tendance à prendre des valeurs plus grandes que X.

Remarques. 1. Sous H 0, la loi asymptotique de W + est normale. On tolère l'application de la loi normale pour n > 8. Il est alors recommandé dans ce cas, de tenir compte de la correction de continuité et d'utiliser la loi normale centrée réduite pour la variable :

Z=

=

2. Les cas d'ex aequo sont traités par la méthode du rang moyen. Soit r le nombre de groupes d'ex aequo non nuls, c k est le nombre d'observations du k ème groupe d'ex aequo non nuls, c 0 le nombre d'observations nulles. Les premiers rangs sont ceux des c 0 observations nulles. W + est alors remplacé par

+

=

Z

, où i

Z

est le rang moyen du groupe d'ex aequo auquel i

appartient l'observation non nulle Z i. On montre alors que, sous H 0 : E[

+

Var [

]= +

]=

[ n (n + 1) – c 0 (c 0 + 1) ] [ n (n + 1) (2 n + 1) – c 0 (c 0 + 1) (2 c 0 + 1)] –

c k (c k ² – 1)

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 29

3.3. Tests paramétriques. 3.3.1. Introduction. Les tests paramétriques sont les tests que l'on peut faire sur des hypothèses concernant les moyennes et les variances des lois considérées, ou, plus généralement, les moments de ces lois. Les tests sur les moyennes et les variances font intervenir les estimateurs et S ² de l'espérance mathématique et de la variance de la variable aléatoire parent d'un échantillon de taille n, et des fonctions de ces variables aléatoires qui, sous l'hypothèse H 0, doivent suivre des lois de probabilité connues, indépendantes des paramètres inconnus objets du test. Une telle fonction est appelée une fonction discriminante. Le calcul des régions de refus ou d'acceptation d'un test paramétrique est fait à partir d'une fonction discriminante. Quand on dispose des valeurs observées, on peut calculer les réalisations et s ² de et S ², et on calcule la valeur observée de la fonction discriminante. La comparaison de la valeur observée de la fonction discriminante et de la région d'acceptation de l'hypothèse H 0 permet de conclure. En réalité, il est souvent plus intéressant de calculer, à partir de la valeur observée de la fonction discriminante, la probabilité critique du test, qui donne une vision plus complète de la situation et donne une mesure de crédibilité de l'hypothèse H 0. Pour les autres échantillons, une étude adaptée doit être faite, ou alors des propriétés asymptotiques sont utilisées lorsque les échantillons sont de grande taille. Dans ce qui suit, sauf mention expresse du contraire, les variables parents des échantillons étudiés sont supposées normales. — Si l'on n'est pas certain de la normalité de la variable parent d'un échantillon, on pourra toujours faire un test de normalité : test d'adéquation de la loi normale, test de symétrie, test d'aplatissement. Si le test est positif, on admet que la variable parente est normale. — Pour les grands échantillons, le théorème central limite permet d'affirmer que la moyenne empirique de l'échantillon suit, au moins à peu près, une loi normale. Pour chaque test V, on est amené à considérer trois versions : un test bilatéral V 0 et deux tests unilatéraux V + et V –. On précise alors les hypothèses H 0 et H 1 à confronter, le niveau α du test et les régions d'acceptation ou de refus de l'hypothèse H 0.

3.3.2. Tests de conformité à une valeur standard. Soient X une variable aléatoire normale de moyenne µ et de variance σ ², et (X 1, ... , X n) un néchantillon de X, c'est-à-dire une suite (X i) 1 ≤ i ≤ n de variables aléatoires indépendantes de même loi que X. On note :

Statistiques - 2e année - Chapitre 3 - Tests statistiques



=

Page 30

X i, la moyenne empirique aléatoire.

La moyenne empirique aléatoire est un estimateur de µ, correct (sans biais (E ( ) = µ) et robuste ( Var ( ) = 0)) et asymptotiquement gaussien (la fonction de répartition de tend uniformément vers la fonction de répartition d'une variable normale). 2

—S²=

(X i –

)²=

Xi ² –

Xi

, la variance empirique

aléatoire, estimateur correct et asymptotiquement gaussien de la variance σ ². —U=

,T=

, K = (n – 1)

.

3.3.2.1. Tests de comparaison d'une moyenne à une valeur de référence. Hypothèses à tester. H0 : µ = µ0 H 10 : µ ≠ µ 0, test bilatéral V 0. H 1+ : µ > µ 0, test unilatéral à droite V +. H 1– : µ < µ 0, test unilatéral à gauche V –. 3.3.2.1.1. Variance connue.

La fonction discriminante est U =

Sous l'hypothèse H 0, U =

.

suit une loi normale centrée réduite.

V 0 (test bilatéral). Sous l'hypothèse H 0, les valeurs de U ne doivent pas trop s'éloigner de 0. La région d'acceptation est un intervalle de la forme d'indice 1 –

–u

;+u

, où u

est le fractile

de la loi normale centrée réduite, c'est-à-dire la valeur de u telle que F u

=1–

, F étant la fonction de répartition de la variable normale centrée réduite. V + (test unilatéral à droite). Sous l'hypothèse H 0, les valeurs de U ne doivent pas être trop grandes, sinon on est plutôt en faveur de l'hypothèse H 1+ : µ > µ 0.

Statistiques - 2e année - Chapitre 3 - Tests statistiques

La région d'acceptation est un intervalle de la forme

Page 31

– ∞ ; u 1 – α , où u 1 – α est le fractile d'indice 1

– α de la loi normale centrée réduite, c'est-à-dire la valeur de u telle que F (u 1 – α) = 1 – α, F étant la fonction de répartition de la variable normale centrée réduite. V – (test unilatéral à gauche). Sous l'hypothèse H 0, les valeurs de U ne doivent pas être trop petites, sinon on est plutôt en faveur de l'hypothèse H 1– : µ < µ 0. La région d'acceptation est un intervalle de la forme

– u 1 – α ; + ∞ , où u 1 – α est le fractile d'indice

1 – α de la loi normale centrée réduite, c'est-à-dire la valeur de u telle que F (u 1 – α) = 1 – α, F étant la fonction de répartition de la variable normale centrée réduite. 3.3.2.1.2. Variance inconnue.

La fonction discriminante est T =

Sous l'hypothèse H 0, T =

.

suit une loi de Student à n – 1 degrés de liberté.

V 0 (test bilatéral). Sous l'hypothèse H 0, les valeurs de T ne doivent pas trop s'éloigner de 0. La région d'acceptation est un intervalle de la forme d'indice 1 –

–t

;+t

, où t

est le fractile

de la loi de Student à n – 1 degrés de liberté, c'est-à-dire la valeur de t telle que F t

= 1 – , F étant la fonction de répartition de la variable de Student à n – 1 degrés de liberté. V + (test unilatéral à droite). Sous l'hypothèse H 0, les valeurs de T ne doivent pas être trop grandes, sinon on est plutôt en faveur de l'hypothèse H 1+ : µ > µ 0. La région d'acceptation est un intervalle de la forme

– ∞ ; t 1 – α , où t 1 – α est le fractile d'indice 1

– α de la loi de Student à n – 1 degrés de liberté, c'est-à-dire la valeur de t telle que F (t 1 – α) = 1 – α, F étant la fonction de répartition de la variable de Student à n – 1 degrés de liberté. V – (test unilatéral à gauche). Sous l'hypothèse H 0, les valeurs de T ne doivent pas être trop petites, sinon on est plutôt en faveur de l'hypothèse H 1– : µ < µ 0. La région d'acceptation est un intervalle de la forme

– t 1 – α ; + ∞ , où t 1 – α est le fractile d'indice 1

– α de la loi de Student à n – 1 degrés de liberté, c'est-à-dire la valeur de t telle que F (t 1 – α) = 1 – α,

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 32

F étant la fonction de répartition de la variable de Student à n – 1 degrés de liberté.

3.3.2.2. Test de comparaison d'une variance à une valeur de référence. Hypothèses à tester. H0 : σ ² = σ0 ² H 10 : σ ² ≠ σ 0 ², test bilatéral V 0. H 1+ : σ ² > σ 0 ², test unilatéral à droite V +. H 1– : σ ² < σ 0 ², test unilatéral à gauche V –. La fonction discriminante est K = (n – 1) Sous l'hypothèse H 0, K = (n – 1)

.

suit une loi du Khi-deux à n – 1 degrés de liberté.

V 0 (test bilatéral). Sous l'hypothèse H 0, les valeurs de K ne doivent pas trop s'éloigner de son espérance n – 1. La région d'acceptation est un intervalle de la forme

χ ²;χ

² , où χ ² vérifie F χ ² =

F étant la fonction de répartition de la variable Khi-deux à n – 1 degrés de liberté, et F χ –

,

² =1

.

V + (test unilatéral à droite). Sous l'hypothèse H 0, les valeurs de K ne doivent pas être trop grandes, sinon on est plutôt en faveur de l'hypothèse H 1+ : σ ² > σ 0 ². La région d'acceptation est un intervalle de la forme

0 ; χ 1 – α ² , où χ 1 – α ² vérifie F χ 1 – α ² = 1

– α, F étant la fonction de répartition de la variable Khi-deux à n – 1 degrés de liberté. V – (test unilatéral à gauche). Sous l'hypothèse H 0, les valeurs de K ne doivent pas être trop petites, sinon on est plutôt en faveur de l'hypothèse H 1– : σ ² < σ 0 ². La région d'acceptation est un intervalle de la forme

χα ² ; + ∞

, où χ α ² vérifie F χ α ² = α, F

étant la fonction de répartition de la variable Khi-deux à n – 1 degrés de liberté.

3.3.3. Tests d'homogénéité. Au lieu d'un seul échantillon comme précédemment, on considère ici k échantillons, k entier supérieur ou égal à 2. Pout tout entier i compris entre 1 et k, on considère un n i-échantillon E i = (X i 1, ... , X i n ), d'une i

variable normale X i de moyenne µ i et de variance σ i ².

Statistiques - 2e année - Chapitre 3 - Tests statistiques

On pose ν i = n i – 1, n =

ni , ν =

Page 33

ν i = n – k.

On note : —

i

=

X i j la moyenne empirique de E i , estimateur de µ i ,

— Si ² =

(X i j –

) ² la variance empirique de E i , estimateur de σ i ².

i

Enfin, on note aussi :



=

Xij =

ni

i

, moyenne arithmétique des moyennes empiriques des

échantillons pondérées par les tailles, ν i S i ², moyenne arithmétique des variances empiriques des échantillons

—S²=

pondérées par les nombres de degré de liberté. Le problème est de savoir si les moyennes µ i sont homogènes (hypothèse H 0 : µ i = µ j pour tout i ∈ [ 1 ; k ] et tout j ∈ [ 1 ; k ], i ≠ j ), ou si les variances σ i ² sont homogènes (hypothèse H 0 : σ i ² = σ j ² pour tout i ∈ [ 1 ; k ] et tout j ∈ [ 1 ; k ], i ≠ j ).

3.3.3.1. Tests de moyennes : cas de deux échantillons (k = 2). 3.3.3.1.1. Echantillons indépendants, variances connues.

1

G µ 1,

;

2

G µ 2,

Sous l'hypothèse H 0 : µ 1 = µ 2, U =

;

1



2

G µ 1 – µ 2,

+

.

suit une loi normale centrée réduite.

On a alors les versions suivantes du test. V 0 (test bilatéral). H 0 : µ 1 = µ 2 ; H 1 : µ 1 ≠ µ 2. Sous l'hypothèse H 0, les valeurs de U ne doivent pas trop s'éloigner de 0. La région d'acceptation est un intervalle de la forme

–u

;+u

, où u

est le fractile

Statistiques - 2e année - Chapitre 3 - Tests statistiques

d'indice 1 –

Page 34

de la loi normale centrée réduite, c'est-à-dire la valeur de u telle que F u

=1–

, F étant la fonction de répartition de la variable normale centrée réduite. V + (test unilatéral à droite). H 0 : µ 1 = µ 2 ; H 1+ : µ 1 > µ 2. Sous l'hypothèse H 0, les valeurs de U ne doivent pas être trop grandes, sinon on est plutôt en faveur de l'hypothèse H 1+ : µ 1 – µ 2 > 0. – ∞ ; u 1 – α , où u 1 – α est le fractile d'indice 1

La région d'acceptation est un intervalle de la forme

– α de la loi normale centrée réduite, c'est-à-dire la valeur de u telle que F (u 1 – α) = 1 – α, F étant la fonction de répartition de la variable normale centrée réduite. V – (test unilatéral à gauche). H 0 : µ 1 = µ 2 ; H 1– : µ 1 < µ 2. Sous l'hypothèse H 0, les valeurs de U ne doivent pas être trop petites, sinon on est plutôt en faveur de l'hypothèse H 1– : µ 1 – µ 2 < 0. – u 1 – α ; + ∞ , où u 1 – α est le fractile d'indice

La région d'acceptation est un intervalle de la forme

1 – α de la loi normale centrée réduite, c'est-à-dire la valeur de u telle que F (u 1 – α) = 1 – α, F étant la fonction de répartition de la variable normale centrée réduite. 3.3.3.1.2. Echantillons indépendants, variances inconnues mais égales. Dans ce cas, S ² = +

(ν 1 S 1 ² + ν 2 S 2 ²) est un estimateur de la variance commune.

est un estimateur de la variance de

Sous l'hypothèse H 0, T =

1



.

2

suit une loi de Student à ν = n 1 + n 2 – 2 degrés de liberté.

V 0 (test bilatéral). Sous l'hypothèse H 0, les valeurs de T ne doivent pas trop s'éloigner de 0. La région d'acceptation est un intervalle de la forme d'indice 1 –

–t

;+t

, où t

est le fractile

de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F t

= 1 – , F étant la fonction de répartition de la variable de Student à ν degrés de liberté. V + (test unilatéral à droite). Sous l'hypothèse H 0, les valeurs de T ne doivent pas être trop grandes, sinon on est plutôt en faveur de l'hypothèse H 1+ : µ 1 – µ 2 > 0. La région d'acceptation est un intervalle de la forme

– ∞ ; t 1 – α , où t 1 – α est le fractile d'indice 1

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 35

– α de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F (t 1 – α) = 1 – α, F étant la fonction de répartition de la variable de Student à ν degrés de liberté.

V – (test unilatéral à gauche). Sous l'hypothèse H 0, les valeurs de T ne doivent pas être trop petites, sinon on est plutôt en faveur de l'hypothèse H 1– : µ 1 – µ 2 < 0. La région d'acceptation est un intervalle de la forme

– t 1 – α ; + ∞ , où t 1 – α est le fractile d'indice 1

– α de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F (t 1 – α) = 1 – α, F étant la fonction de répartition de la variable de Student à ν degrés de liberté.

3.3.3.1.3. Echantillons indépendants, variances inconnues et différentes. +

est un estimateur de la variance de 2

En prenant ν tel que

+

alors, sous l'hypothèse H 0, T =

1



2

.

2

=

2

+

,

suit une loi de Student à ν degrés de liberté.

V 0 (test bilatéral). Sous l'hypothèse H 0, les valeurs de T ne doivent pas trop s'éloigner de 0. La région d'acceptation est un intervalle de la forme d'indice 1 –

–t

;+t

, où t

est le fractile

de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F t

= 1 – , F étant la fonction de répartition de la variable de Student à ν degrés de liberté. V + (test unilatéral à droite). Sous l'hypothèse H 0, les valeurs de T ne doivent pas être trop grandes, sinon on est plutôt en faveur de l'hypothèse H 1+ : µ 1 – µ 2 > 0. La région d'acceptation est un intervalle de la forme

– ∞ ; t 1 – α , où t 1 – α est le fractile d'indice 1

– α de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F (t 1 – α) = 1 – α, F étant la fonction de répartition de la variable de Student à ν degrés de liberté.

V – (test unilatéral à gauche). Sous l'hypothèse H 0, les valeurs de T ne doivent pas être trop petites, sinon on est plutôt en faveur de l'hypothèse H 1– : µ 1 – µ 2 < 0. La région d'acceptation est un intervalle de la forme

– t 1 – α ; + ∞ , où t 1 – α est le fractile d'indice 1

– α de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F (t 1 – α) = 1 – α, F étant la fonction de répartition de la variable de Student à ν degrés de liberté.

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 36

3.3.3.1.3. Echantillons indépendants, variances inconnues et différentes. +

est un estimateur de la variance de 2

En prenant ν tel que

+

alors, sous l'hypothèse H 0, T =

1



2

.

2

=

2

+

,

suit une loi de Student à ν degrés de liberté.

V 0 (test bilatéral). Sous l'hypothèse H 0, les valeurs de T ne doivent pas trop s'éloigner de 0. La région d'acceptation est un intervalle de la forme d'indice 1 –

–t

;+t

, où t

est le fractile

de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F t

= 1 – , F étant la fonction de répartition de la variable de Student à ν degrés de liberté. V + (test unilatéral à droite). Sous l'hypothèse H 0, les valeurs de T ne doivent pas être trop grandes, sinon on est plutôt en faveur de l'hypothèse H 1+ : µ 1 – µ 2 > 0. La région d'acceptation est un intervalle de la forme

– ∞ ; t 1 – α , où t 1 – α est le fractile d'indice 1

– α de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F (t 1 – α) = 1 – α, F étant la fonction de répartition de la variable de Student à ν degrés de liberté.

V – (test unilatéral à gauche). Sous l'hypothèse H 0, les valeurs de T ne doivent pas être trop petites, sinon on est plutôt en faveur de l'hypothèse H 1– : µ 1 – µ 2 < 0. La région d'acceptation est un intervalle de la forme

– t 1 – α ; + ∞ , où t 1 – α est le fractile d'indice 1

– α de la loi de Student à ν degrés de liberté, c'est-à-dire la valeur de t telle que F (t 1 – α) = 1 – α, F étant la fonction de répartition de la variable de Student à ν degrés de liberté. 3.3.3.1.4. Echantillons appariés. Ici, n 1 = n 2 = n. Le test se ramène à une test de conformité à une moyenne nulle de l'échantillon (Z 1 , ... , Z n), avec Z i = X 1 i – X 2 i. Ce cas a déjà été traité auparavant, dans 3.3.2.1 : test de Gauss si la variance est connue, test de Student si la variance est inconnue.

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 37

3.3.3.2. Tests de moyennes : cas de plusieurs échantillons (k ≥ 2). Analyse de variance à un facteur contrôlé. Ici, on suppose que les échantillons E i sont indépendants et qu'ils ont des variables parentes normales de même variance σ ² : σ i ² = σ ², pour tout i, 1 ≤ i ≤ k. Si l'on n'est pas certain que la variance est la même, on fera un test d'égalité des variances (3.3.3.4). Si le test est positif, on admet l'égalité des variances. On souhaite définir une fonction discriminante pour tester : — l'hypothèse H 0 : µ i = µ j, pour tout (i, j) ∈ {1, ... , k} ², i ≠ j, contre : — l'hypothèse contraire H 1 : les moyennes ne sont pas toutes égales.

On a posé : n =

n i, n i étant la taille de l'échantillon E i.

3.3.3.2.1. Equation de l'analyse de la variance.

Soit µ =

n i µ i la moyenne arithmétique des moyennes µ i pondérées par les effectifs n i.

Dans l'hypothèse H 0, toutes les moyennes µ i ont pour valeur commune µ. L'influence de l'échantillon E i sur l'hypothèse H 0 se mesure par l'écart a i = µ i – µ. On a toujours

ni ai =

ni µi –

ni µ =

n i µ i – n µ = 0.

Dire que H 0 est vraie, c'est dire que les a i sont tous nuls. Dans l'hypothèse H 0 : —



=

i

=

X i j, moyenne empirique de E i , est un estimateur de µ i donc de µ ; Xij =

ni

i

, moyenne arithmétique des moyennes empiriques des

échantillons pondérées par les tailles, est aussi un estimateur de µ =

E(

i

)=

n i µ i et E ( ) =

n i µ i = µ.

Par conséquent, si H 0 est vraie, les valeurs des

i

devraient être proches de

Les écarts i – sont d'autant plus importants que les µ i sont différentes. On les appelle les écarts expliqués (par les différences de moyennes). Pour tout i et tout j, entre 1 et k, on peut écrire :

.

ni

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 38

X i j – = ( i – ) + (X i j – i). L'écart entre une observation et la moyenne générale est la somme de l'écart expliqué par la différence des moyennes, et d'un écart résiduel (X i j – i) entre cette observation et la moyenne de son groupe résultant de fluctuations aléatoires. En élevant au carré la relation précédente et en additionnant pour toutes les valeurs possibles de i et j, on obtient l'équation suivante, appelée équation de l'analyse de la variance :

(X i j –

)²=

ni (

i



)²+

(X i j –



i

En effet, la somme des doubles produits est nulle :

(

=

ni



i

i

) (X i j –

²–

i

ni

La covariance de (

i



)=

i



ni

i

Xij –

i

) et de (X i j –

²+

Xij – ni

i

ni

i

²+

ni

i

= 0.

) est nulle.

i

Dans l'équation d'analyse de la variance : —



(X i j – ni (

i



) ² est la somme des carrés des écarts expliqués (SCE), ou entre échantillons,

(X i j –



) ² est la somme des carrés des écarts totale (SCT),

i

) ² est la somme des carrés des écarts résiduels (SCR), on à l'intérieur des

échantillons, et l'équation d'analyse de la variance s'écrit : SCT = SCE + SCR

En divisant par n =

n i, on retrouve la relation s ² = s b ² + s w ² du théorème de la variance

conditionnée. 3.3.3.2.2. Indépendance de SCE et SCR. Posons Y i j = X i j – a i. Ei (Y i j) = Ei (X i j) – a i = µ i – (µ i – µ) = µ E (Y i j) = E (Ei (Y i j)) (théorème de la moyenne conditionnée). E (Y i j) = E (µ) = µ, quels que soient i ∈ {1, ... , k} et j ∈ {1, ... , n i }. Toutes les variables Y i j ont la même espérance µ.

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 39

La variance de Y i j est Var (X i j – a i) = Var (X i j) = σ i ², puisque a i = µ i – µ est une constante. Et, puisque, par hypothèse, σ i ² = σ ², pour tout i, 1 ≤ i ≤ k, on obtient : Var (Y i j ) = σ ², pour tout i, 1 ≤ i ≤ k, et tout j, 1 ≤ j ≤ n i . Donc, si les X i j sont des variables normales indépendantes, les Y i j sont des variables aléatoires indépendantes qui suivent toutes la même loi normale d'espérance µ et de variance σ ².

Soit

=

Y i j la moyenne empirique des Y i j, tous échantillons confondus.

=

=

(X i j – a i) = ni ai =



Xij –

ai

.

E ( ) = E ( ) = µ. Il en résulte : X i j – = (Y i j – ) + a i (X i j – ) ² = (Y i j – ) ² + a i ² + 2 a i (Y i j – ) (X i j – =

(Y i j – ) ² +

(Y i j – ) ² +

L'espérance de

E

)²=

ni ai ² + 2

a i (Y i j – )

a i (Y i j – ) est nulle car

a i (Y i j – ) = =

ai ² + 2

a i E (Y i j – )

a i (E (Y i j) – E ( )) =

a i (µ – µ) = 0

L'égalité précédente donne alors :

E (SCT) = E

=E

(Y i j – ) ² + E (Y i j – ) ² +

ni ai ²

ni ai ²

a i (Y i j – )

Statistiques - 2e année - Chapitre 3 - Tests statistiques

D'après Probabilités, Chapitre 18, Exercice 2.1°,

Page 40

(Y i j – ) ² peut se mettre sous la forme :

(Y i j – ) ² = Var (Y i j)

Zh ² = σ ²

Z h ²,

où les Z h sont des variables normales centrées réduites. On obtient donc :

E

(Y i j – ) ² = σ ²

E (SCT) = (n – 1) σ ² +

E (Z h ²) = (n – 1) σ ²

ni ai ²

On obtient, de même :

E (SCR) =

ν i E (S i ²) = ν σ ² = (n – k) σ ².

et, par différence : E (SCE) = (k – 1) σ ² +

ni ai ²

Enfin, on peut démontrer que la covariance de SCE et SCR est nulle, ce qui entraîne, lorsque les échantillons sont gaussiens, l'indépendance de SCE et SCR. 3.3.3.2.3. Test de Fischer-Snedecor de l'analyse de variance. Sous l'hypothèse H 0, tous les a i sont nuls, les carrés moyens CME = deux des estimateurs sans biais de σ ²,

et

et CMR =

sont tous

suivent des lois du Khi-deux à (k – 1) degrés de

liberté et à (n – k) degrés de liberté, respectivement. Le rapport F =

suit une loi de Fisher-Snedecor à (k – 1, n – k) degrés de liberté.

Lorsque H 1 est vraie, certains des a i ne sont pas nuls, donc CME a tendance à prendre de grandes valeurs puisque sa moyenne a tendance à augmenter donc F augmente. On peut donc prendre F pour fonction discriminante et la région critique sera un intervalle [ f 1 – α , +

∞ [, où le fractile f 1 – α vérifie F (f 1 – α) = 1 – α, F étant la fonction de répartition de la variable de Fisher-Snedecor à (k – 1, n – k) degrés de liberté.

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 41

Les calculs précédents sont présentés dans un tableau qu'on appelle le tableau d'analyse de la variance : Source

Somme de carrés Carrés moyens Degrés de liberté

F observé

Expliquée

SCE

CME

k–1

Résiduelle

SCR

CMR

n–k

valeur critique f 1 – α

Totale

SCT

CMT

n–1

probabilité critique

Remarques. 1. Pour k = 2 (deux échantillons), la loi de Fisher-Snedecor à (1, n 1 + n 2 – 2) degrés de liberté est la loi de probabilité du carré d'une variable de Student à n 1 + n 2 – 2 degrés de liberté : le test d'analyse de variance est donc équivalent au test de Student (3.3.3.1.2). 2. L'expérience montre que l'analyse de variance est peu sensible à la non-normalité des échantillons. En pratique, il suffit de ne pas l'utiliser lorsque les distributions dans les échantillons sont, d'une part, très différentes entre elles et, d'autre part, très différentes de distributions normales, et, surtout, de ne pas l'utiliser lorsque les échantillons sont trop petits. 3. L'hypothèse de l'égalité des variances semble relativement secondaire lorsque les effectifs des échantillons ne sont pas trop différents entre eux. 4. Lorsque les conditions d'application du test ne sont pas satisfaites, il existe des techniques de transformation qui permettent de normaliser les distributions et de stabiliser les variances. On peut utiliser aussi des tests non paramétriques.

3.3.3.3. Tests de variances : cas de deux échantillons. S1 ² =

(X 1 j –

) ², variance empirique de E 1 , est un estimateur de σ 1 ².

1

Dans l'hypothèse normale, (n 1 – 1) S2 ² =

(X 2 j –

suit une loi du Khi-deux à (n 1 – 1) degrés de liberté.

) ², variance empirique de E 2 , est un estimateur de σ 2 ².

2

Dans l'hypothèse normale, (n 2 – 1)

suit une loi du Khi-deux à (n 2 – 1) degrés de liberté.

En divisant les variables de Khi-deux par leurs nombres de degré de liberté, on trouve donc que

suit une loi de Fisher-Snedecor à (n 1 – 1, n 2 – 1) degrés de liberté. Dans l'hypothèse H 0 : σ 1 ² = σ 2 ², le rapport F = 1) degrés de liberté.

suit une loi de Fisher-Snedecor à (n 1 – 1, n 2 –

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 42

On prend donc F comme fonction discriminante et le résultat du test dépend de l'hypothèse H 1. V 0 (test bilatéral). Sous l'hypothèse H 0, les valeurs de F ne doivent pas trop s'éloigner de 1. La région d'acceptation est un intervalle de la forme

f ;f

, où f vérifie F (f ) =

, et F (f

) = 1 – , F étant la fonction de répartition de la variable de Fisher-Snedecor à (n 1 – 1, n 2 – 1) degrés de liberté. V + (test unilatéral à droite). Sous l'hypothèse H 0, les valeurs de F ne doivent pas être trop grandes, sinon on est plutôt en faveur de l'hypothèse H 1+ : σ 1 ² > σ 2 ². La région d'acceptation est un intervalle de la forme

0 ; f 1 – α , où f 1 – α vérifie F (f 1 – α) = 1 – α, F

étant la fonction de répartition de la variable de Fisher-Snedecor à (n 1 – 1, n 2 – 1) degrés de liberté. V – (test unilatéral à gauche). Sous l'hypothèse H 0, les valeurs de F ne doivent pas être trop petites, sinon on est plutôt en faveur de l'hypothèse H 1– : σ 1 ² < σ 2 ². La région d'acceptation est un intervalle de la forme

f α ; + ∞ , où f α vérifie F (f α) = α, F étant la

fonction de répartition de la variable de Fisher-Snedecor à (n 1 – 1, n 2 – 1) degrés de liberté.

3.3.3.4. Tests de variances : cas de plusieurs échantillons. Ici, les hypothèses à tester sont : H 0 : σ 1 ² = σ 2 ² = ... = σ k ², toutes les variances des variables parentes des échantillons sont égales, contre H 1 = non (H 0 ), les variances des variables parentes des échantillons ne sont pas toutes égales. Nous présentons trois tests usuels. 3.3.3.4.1. Test de Hartley. La fonction discriminante est H =

, dont la loi de probabilité est tabulée dans certains

cas, notamment lorsque tous les échantillons ont la même taille. La région critique (région de rejet de l'hypothèse H 0) est de la forme [ h 1 – α ; + ∞ [. Elle correspond aux grandes valeurs de H. Soit i 1 tel que Max (S i ²) = S i ², et i 2 tel que Min (S i ²) = S i ². 1

2

Alors, si F (f 1 – α) = 1 – α, F étant la fonction de répartition de la variable de Fisher-Snedecor à (n i – 1

1, n i – 1) degrés de liberté, on a f 1 – α ≤ h 1 – α. 2

Donc si la valeur observée h de H est inférieure à f 1 – α, on est déjà assuré d'accepter l'hypothèse H 0.

Statistiques - 2e année - Chapitre 3 - Tests statistiques

Page 43

Ce test est d'autant plus satisfaisant que les effectifs des échantillons sont proches les uns des autres. Il est très sensible à la non-normalité des échantillons : il est donc peu fiable lorsque les échantillons ne sont pas tirés de populations normales. 3.3.3.4.2. Test de Bartlett.

La fonction discriminante est B =

, avec Q = ν ln S ² –

ν i ln S i ² et C = 1 +



. Q ne prend que des valeurs positives, petites lorsque les variances sont égales. Sous H 0, B suit à peu près une loi du Khi-deux à k – 1 degrés de liberté. La région critique (région de rejet de l'hypothèse H 0) est de la forme [ χ 1 – α ² ; + ∞ [, où F (χ 1 – α ²) =

1 – α, F étant la fonction de répartition de la variable du Khi-deux à k – 1 degrés de liberté. Remarques.

1. L'approximation par la loi du Khi-deux à k – 1 degrés de liberté est satisfaisante si les effectifs n i des échantillons sont suffisamment élevés (supérieurs à 4) et si k n'est pas très élevé par rapport aux effectifs n i. 2. Le test est très sensible à la non-normalité des échantillons : il est donc peu fiables lorsque les variables parentes des échantillons ne sont pas gaussiennes. 3. Le test de Hartley est moins puissant que le test de Bartlett dans les conditions normales d'utilisation, mais, en fait, la perte de puissance semble négligeable dans de nombreux cas. 3.3.3.4.3. Test de Levene. L'idée de ce test est de se ramener à une égalité de moyennes. La fonction discriminante L de ce test est la même que celle de l'analyse de variance F en remplaçant les X i j par Y i j = | X i j – i |. La région de rejet est [ f 1 – α ; + ∞ [, où FS (f 1 – α) = 1 – α, FS étant la fonction de répartition de la variable de Fisher-Snedecor à (k – 1, n – k) degrés de liberté. Remarque. Les cas étudiés montrent que ce test est raisonnable et qu'il est d'autant plus satisfaisant que les effectifs des échantillons sont proches les uns des autres. De plus, le test de Levene est peu sensible à la non-normalité des variables parentes des échantillons : il est robuste.

Statistiques - 2e année - Chapitre 4 - Analyse de variance

Page 44

Chapitre 4. Analyse de variance. 4.1. Analyse de variance à un facteur contrôlé. On étudie l'influence d'un facteur A sur une variable expliquée X. Le facteur A possède k modalités ou niveaux, et on postule que ces modalités ont un effet uniquement sur la moyenne de X : on suppose donc que la variance de X est la même quelle que soit la modalité de A. Cette variance commune est notée σ ². Pour la modalité i du facteur A, on considère un échantillon E i = (X i 1 , ... , X i n ) de taille n i de la i

variable expliquée. L'échantillon E i est donc constitué de n i variables aléatoires indépendantes et identiquement distribuées, de moyenne µ i et de variance σ ². On étudie ici uniquement le cas où la variable parente est normale (gaussienne). Sous certaines conditions (échantillons de grande taille, par exemple), les résultats obtenus peuvent s'étendre au cas où la variable parente n'est pas gaussienne. L'échantillon global E = (E 1 , ... , E k ) est de taille n =

n i et il est constitué de k échantillons

indépendants.

Conditions d'application. 1. Echantillons indépendants constitués chacun de variables aléatoires indépendantes et identiquement distribuées. 2. Variable aléatoire parente normale dans chaque échantillon. 3. Variance commune des variables parentes des échantillons. On peut tester la validité de ces trois conditions : — Indépendance : répartition au hasard des résidus. — Normalité : test de normalité dans chaque échantillon, test du coefficient de symétrie, test du coefficient d'aplatissement. — Homogénéité des variances : test de Hartley, test de Bartlett, test de Levene. L'équation d'analyse de la variance s'écrit (voir Statistiques (2e année), chapitre 3, § 3.3.3.2.1) : SCT = SCE + SCR Le tableau d'analyse de la variance se présente de la façon suivante :

avec :

Statistiques - 2e année - Chapitre 4 - Analyse de variance

SCT =

SCE =

(X i j – ni (

i







(X i j –

SCR =

i

)²;

i

=

Xij ;

4.1.1. Réalisation des calculs. Les données se présentent sous forme d'un tableau à k colonnes (une par modalité du facteur A). Dans la colonne i, il y a n lignes utiles. Le tableau i des données possède donc k colonnes et Max (n i) lignes. Dans la colonne i, la cellule de la j-ème ligne, 1 ≤ j ≤ n i, contient la valeur x i j de la variable aléatoire X i j. En bas de chaque colonne, on ajoute : — une ligne pour la valeur de n i, — une ligne pour la valeur de x i . =

Page 45

x i j,

— une ligne pour la valeur de x i . ², — une ligne pour la valeur de c i . = — une ligne pour la valeur de r i ² = c i . –

x i j ², x i . ²,

— une ligne vide pour le calcul de SCT, — une ligne pour la valeur de s i ² =

r i ²,

=

Xij =

ni

i

.

Statistiques - 2e année - Chapitre 4 - Analyse de variance

— une ligne pour la valeur de

i

=

Page 46

x i ..

A gauche des lignes ajoutées, on ajoute une colonne pour les totaux et les moyennes. SCE s'obtient par l'équation d'analyse de la variance : SCE = SCT – SCR.

4.1.2. Tests en analyse de variance. L'objet de l'étude est de savoir si A influence la moyenne de X. Le test est donc un test d'homogénéité de moyennes : on l'a déjà étudié (Cours de Statistiques (2e année), Chapitre 3, § 3.3.3.2). On teste : — l'hypothèse H 0 : µ i = µ j, pour tout i ∈ {1, ... , k} et tout j ∈ {1, ... , k}, i ≠ j, contre : — l'hypothèse H 1 : les moyennes µ i ne sont pas toutes égales. Les valeurs obtenues dans le tableau de calculs permettent de remplir le tableau d'analyse de la variance. La fonction discriminante est F = . Sous l'hypothèse H 0, elle suit une loi de Fisher-Snedecor à (k – 1, n – k) degrés de liberté. La dernière colonne du tableau d'analyse de la variance peut être remplie à l'aide de la table de la fonction de répartition de la variable de Fisher-Snedecor à (k – 1, n – k) degrés de liberté. Si la valeur observée de F est inférieure à la valeur seuil f 1 – α, on accepte H 0, sinon on rejette H 0.

4.1.3. Estimation en analyse de variance. Les paramètres du modèle sont la variance σ ² et les moyennes µ i , 1 ≤ i ≤ k. 1. Le carré moyen résiduel ² = CMR est un estimateur sans biais de la variance σ ². On peut construire un intervalle de confiance de la variance σ ² à l'aide de la loi du Khi-deux à n – k degrés de liberté. 2. Lorsque H 0 est acceptée, La variable T =

est un estimateur sans biais de la moyenne commune µ.

suit une loi de Student à n – k degrés de liberté.

On peut construire un intervalle de confiance de la moyenne commune µ à l'aide de la loi de Student à n – k degrés de liberté.

3. Lorsque H 0 est refusée : on pose µ = a)

i

n i µ i.

est un estimateur sans biais de la moyenne µ i.

Statistiques - 2e année - Chapitre 4 - Analyse de variance

La variable T i =

Page 47

suit une loi de Student à n i – 1 degrés de liberté et permet de

construire un intervalle de confiance de µ i. b) A i = i – est un estimateur de l'effet a i = µ i – µ de la modalité i du facteur A. c) Les contrastes µ i – µ j sont estimés sans biais par i – j et la loi de Student à n – k degrés de liberté permet de construire un intervalle de confiance. 4. Dans le cas où tous les n i ont la même valeur h (n = k h), le test de Newmann-Keuls donne des précisions supplémentaires sur les contrastes et permet de regrouper les modalités de A en groupes homogènes ne présentant pas de différence significative de moyennes. On commence par classer les modalités de A par valeurs décroissantes de moyenne i. La table "Range Studentisé" donne, en fonction du nombre a de moyennes à regrouper et du nombre de degrés de liberté n – k de la variance résiduelle CMR, une valeur seuil t s. La formule PPAS = t s ×

permet de calculer la plus petite amplitude significative (PPAS)

correspondant à a. • La comparaison des différentes moyennes i avec les PPAS permet de regrouper les modalités de A en groupes homogènes pour lesquelles les différences de moyennes ne sont pas significatives, au seuil de 5 %. • Si l'on trouve un seul groupe homogène, c'est que toutes les moyennes sont homogènes : le test de Newmann-Keuls peut donc remplacer l'analyse de variance pour étudier l'influence du facteur A sur la moyenne.

4.2. Analyse de variance à deux facteurs contrôlés. On étudie maintenant l'influence de deux facteurs A et B sur la moyenne d'une variable normale X, en supposant, comme précédemment que les facteurs A et B peuvent avoir une influence sur la moyenne µ, mais pas sur la variance σ ². On suppose que le facteur A présente p modalités, ou niveaux, A i , 1 ≤ i ≤ p, et que le facteur B présente q modalités, ou niveaux, B j , 1 ≤ j ≤ q. Pour tout couple (i, j) ∈ {1, ... , p} × {1, ... , q}, on considère un échantillon E i j de taille n i j de la variable expliquée X i j, présentant la modalité conjointe (A i , B j ). On note n i . =

nij , n.j =

nij , n =

nij =

ni. =

n . j.

L'échantillon E i j est donc constitué de n i j variables aléatoires X i j k, 1 ≤ k ≤ n i j, normales indépendantes et identiquement distribuées, de moyenne µ i j et de variance σ ². On pose µ i . =

nij µij ; µ.j =

nij µij ; µ =

L'ensemble E des échantillons E i j constitue un modèle. Ce modèle est dit complet si aucun des n i j n'est nul. Il est dit sans répétition si tous les n i j valent 0 ou 1. Il est dit avec répétition si tous les n i j sont supérieurs ou égaux à 2.

nij µij .

Statistiques - 2e année - Chapitre 4 - Analyse de variance

Page 48

Il est dit équilibré si les n i j sont tous égaux à un entier r ≥ 1 (tous les échantillons ont la même taille r). Il est dit orthogonal si, pour tout couple (i, j) ∈ {1, ... , p} × {1, ... , q}, on a n i j =

.

Dans un modèle complet sans répétition, tous les n i j valent 1. Tout modèle complet sans répétition est équilibré. Dans un modèle équilibré :

ni. =

Donc

n i j = q r, n . j =

n i j = p r, n =

n i . = p q r.

= r = n i j.

Tout modèle équilibré est orthogonal. Comme dans le cas d'un seul facteur, on décompose convenablement l'écart d'une observation X i j k à la moyenne générale pour mettre en évidence l'effet des différentes modalités (niveaux) et combinaisons de modalités (traitements). On pose :

ij

=

X i j k, moyenne empirique du traitement (A i , B j ),

ij

i.

=

nij

i.

.j

G µij ,

=

=

X i j k, moyenne empirique du niveau A i ,

=

X i j k, moyenne empirique du niveau B j ,

G µi. , nij

.j

ij

ij

G µ.j ,

=

Xijk =

ni.

;

G 0,

i.

=

n.j

.j

, moyenne empirique

générale. G µ, Xijk – = ( ij – Le terme (X i j k – Xijk –

ij

–µ

.

) + (X i j k – i j ) ) traduit l'écart entre une observation et la moyenne du traitement (A i , B j ). ij G 0,σ² 1–

Statistiques - 2e année - Chapitre 4 - Analyse de variance

Page 49

Par exemple, dans un modèle complet sans répétition, il y a une, et une seule, observation par traitement, tous les n i j valent 1, et X i j k = i j. Comme dans l'analyse de variance à un facteur contrôlé, nous avons toujours l'équation d'analyse de la variance :

(X i j k – =

nij (

( ij – ) = ( (X i j k – ) = ( (

ij



ij

)²=



)²+

– )+( – )+( i.

i.

)²=(

i.



(



)²+

(X i j k –

– )+( – )+( .j

.j

)²+(

ij

.j



– – ij

– – i.

ij

i.

ij

(X i j k –

ij





+ ) + ) + (X i j k – .j

.j

ij

)

) ² + Rij

Le terme ( i . – ) ² traduit l'influence principale du facteur A. Le terme ( . j – ) ² traduit l'influence principale du facteur B. Le terme R i j est un terme qui traduit l'influence de l'interaction des facteurs A et B. R i j = ( i j – i . – . j + ) ² + 2 ( i j – i . – . j + ) [( i . – ) + ( . j – )] + 2 ( i . – ) ( ) = ( i j – i . – . j + ) ² + 2 ( i j – i . – . j + )( i . – ) + 2 ( i j – i . – . j + )( . j – 2 ( i. – ) ( .j – ) = ( i j – i . – . j + ) ² + 2 ( i j – i . )( i . – ) + 2 ( i j – . j )( . j – ) – 2 ( i . – ) ( )

.j



)+

.j



Nous obtenons alors :

nij ( =

ni. (

ij

i.





)²=

)²+

nij Rij = nij (

ij



nij (

.j

)(

n.j (

.j

nij (

ij



)–2

.j



i.





)²+

nij (

)²+

i.



.j

se réduit à :



)²+

nij Rij

n i j R i j.

+

nij (

)²+2

i.

Dans le cas d'un modèle orthogonal, nous avons n i j = j

.j



nij ( )(

.j



ij



i.

)(

i.



)+2

)

, et on montre alors que

nij Ri

Statistiques - 2e année - Chapitre 4 - Analyse de variance

nij Rij =

nij (

ij



i.



.j

+

Page 50

) ²,

De sorte que l'équation d'analyse de la variance prend alors une expression de la forme :

(X i j k –

)²=

ni. (

i.



)²+

n.j (

.j



) ² + SCRM + SCRV

SCT = SCEA + SCEB + SCEAB + SCR dans laquelle :

(X i j k –

SCT =

SCEA =

ni. (

i.



) ² est la somme des carrés des écarts totale,

) ² est la somme des carrés des écarts expliquée par A, elle traduit les

variations de la moyenne marginale SCEB =

n.j (

.j



nij (

autour de sa moyenne µ i ..

) ² est la somme des carrés des écarts expliquée par B, elle traduit les

variations de la moyenne marginale SCEAB =

i.

ij



i.



.j

.j

autour de sa moyenne µ . j. +

) ² est la somme des carrés des écarts résiduels de la

moyenne, traduisant les fluctuations de i j autour de sa moyenne µ, abstraction faite des variations des moyennes marginales i . et . j. Cette somme des carrés des écarts mesure donc l'influence l'interaction des facteurs A et B sur la moyenne. SCR =

(X i j k –

ij

) ² est la somme des carrés des écarts résiduels de la variable :

elle traduit les fluctuations aléatoires de X i j k autour de sa moyenne µ i j dans le traitement (A i , B j ). L'espérance de SCT est E (SCET) = (n – 1) σ ² +

n i j (µ i j – µ) ².

L'espérance de SCEA est E (SCEA) = (p – 1) σ ² +

n i . (µ i . – µ) ².

L'espérance de SCEB est E (SCEB) = (q – 1) σ ² +

n . j (µ . j – µ) ².

L'espérance de SCEAB est E (SCEAB) = (p – 1) (q – 1) σ ² + L'espérance de SCR est E (SCR) = (n – p q) σ ².

n i j (µ i j – µ i . – µ . j + µ) ².

Statistiques - 2e année - Chapitre 4 - Analyse de variance

Page 51

4.2.1. Tests en analyse de la variance. On se place dans le cas d'un modèle orthogonal n i j =

.

4.2.1.1. Test d'absence d'action du facteur A. Hypothèse H 0 : µ i . = µ, pour tout i, 1 ≤ i ≤ p. Hypothèse H 1 : non (H 0). On a alors : E (SCEA) = (p – 1) σ ², E (SCR) = (n – p q) σ ². Si bien que les carrés moyens des écarts CMEA =

, CMR =

lorsque n n'est pas égal à p

q, sont tous des estimateurs sans biais de la variance σ ². suit une loi de Fisher-Snedecor à (p – 1, n – p q) degrés de liberté : il Leur rapport F A = permet de tester l'influence du facteur A. Sous l'hypothèse H 1, le numérateur de F A augmente, puisqu'on ajoute les termes

n i . (µ i . – µ) ².

On rejettera l'hypothèse H 0 pour les grandes valeurs du rapport et l'intervalle critique (zone de rejet) sera de la forme [ c 1 – α ; + ∞ [, intervalle de probabilité α : F (c 1 – α) = 1 – α, où F est la fonction de répartition de la variable de Fisher-Snedecor à (p – 1, n – p q) degrés de liberté.

4.2.1.2. Test d'absence d'action du facteur B. Hypothèse H 0 : µ . j = µ, pour tout j, 1 ≤ j ≤ q. Hypothèse H 1 : non (H 0). On a alors : E (SCEB) = (q – 1) σ ², E (SCR) = (n – p q) σ ². Si bien que les carrés moyens des écarts CMEB =

, CMR =

lorsque n n'est pas égal à p

q, sont tous des estimateurs sans biais de la variance σ ². Leur rapport F B = suit une loi de Fisher-Snedecor à (q – 1, n – p q) degrés de liberté : il permet de tester l'influence du facteur B. Sous l'hypothèse H 1, le numérateur de F B augmente, puisqu'on ajoute les termes

n . j (µ . j – µ) ².

On rejettera l'hypothèse H 0 pour les grandes valeurs du rapport et l'intervalle critique (zone de rejet) sera de la forme [ c 1 – α ; + ∞ [, intervalle de probabilité α : F (c 1 – α) = 1 – α, où F est la fonction de répartition de la variable de Fisher-Snedecor à (q – 1, n – p q) degrés de liberté.

4.2.1.3. Test d'absence d'interaction des facteurs A et B. Hypothèse H 0 : µ i j – µ i . – µ . j + µ = 0, pour tout i, 1 ≤ i ≤ p et tout j, 1 ≤ j ≤ q. Hypothèse H 1 : non (H 0).

Statistiques - 2e année - Chapitre 4 - Analyse de variance

Page 52

On a alors : E (SCEAB) = (p – 1)(q – 1) σ ², E (SCR) = (n – p q) σ ². Si bien que les carrés moyens des écarts CMEAB =

, CMR =

lorsque n n'est pas

égal à p q, sont tous des estimateurs sans biais de la variance σ ². Leur rapport F AB = suit une loi de Fisher-Snedecor à ((p – 1)(q – 1), n – p q) degrés de liberté : il permet de tester l'influence de l'interaction des facteurs A et B. Sous l'hypothèse H 1, le numérateur de F AB augmente, puisqu'on ajoute les termes

n i j (µ i j –

µ i . – µ . j + µ) ². On rejettera l'hypothèse H 0 pour les grandes valeurs du rapport et l'intervalle critique (zone de rejet) sera de la forme [ c 1 – α ; + ∞ [, intervalle de probabilité α : F (c 1 – α) = 1 – α, où F est la fonction de répartition de la variable de Fisher-Snedecor à ((p – 1)(q – 1), n – p q) degrés de liberté. En résumé, lorsque le modèle orthogonal est avec répétition : suit une loi de Fisher-Snedecor à (p – 1, n – p q) degrés de liberté : il — Le rapport F A = permet de tester l'influence du facteur A. — Le rapport F B = suit une loi de Fisher-Snedecor à (q – 1, n – p q) degrés de liberté : il permet de tester l'influence du facteur B. — Le rapport F AB = suit une loi de Fisher-Snedecor à ((p – 1)(q – 1), n – p q) degrés de liberté : il permet de tester l'influence de l'interaction du facteur A et du facteur B. Sous l'hypothèse H 1, les numérateurs de F A, F B, F AB, ont tendance à augmenter : on rejettera l'hypothèse H 0 pour les grandes valeurs du rapport et l'intervalle critique (zone de rejet) sera de la forme [ c 1 – α ; + ∞ [, intervalle de probabilité α.

4.2.1.4. Absence d'interaction. Lorsque le test du rapport F AB est négatif, et permet donc de conclure à l'absence d'influence de l'interaction de A et B sur la moyenne, on pourra prendre comme somme de carrés résiduelle (variance résiduelle) : SCR' = SCEAB + SCR. C'est la somme d'une variable de Khi-deux à (p – 1)(q – 1) degrés de liberté et d'une variable de Khideux à (n – p q) degrés de liberté : c'est donc une variable de Khi-deux à (p – 1)(q – 1) + (n – p q) = (n – p – q + 1) degrés de liberté, et le carré moyen correspondant est CMR' = . Dans ce cas, on obtient un test plus puissant en prenant CMR' à la place de CMR, puisque l'estimation de la variance donnée par CMR' est plus précise que l'estimation donnée par CMR (elle possède plus de degrés de liberté) : — Le rapport F' A = suit une loi de Fisher-Snedecor à (p – 1, n – p – q + 1) degrés de liberté : il permet de tester l'influence du facteur A. suit une loi de Fisher-Snedecor à (q – 1, n – p – q + 1) degrés de — Le rapport F' B = liberté : il permet de tester l'influence du facteur B.

4.2.1.5. Modèle sans répétition On ne peut pas, dans ce cas, tester l'absence d'influence de l'interaction de A et B, puisque n i j = 1 et n

Statistiques - 2e année - Chapitre 4 - Analyse de variance

Page 53

= p q, donc SCR = 0. On suppose alors que le modèle est additif, ce qui veut dire qu'il n'y a pas d'interaction de A et B. La variance résiduelle est CMEAB, qui tient compte des variations aléatoires des observations autour de leur moyenne, déduction faite de l'influence principale de A et de l'influence principale de B. — Le rapport F A = suit une loi de Fisher-Snedecor à (p – 1, n – p – q + 1) degrés de liberté : il permet de tester l'influence du facteur A. — Le rapport F B = suit une loi de Fisher-Snedecor à (q – 1, n – p – q + 1) degrés de liberté : il permet de tester l'influence du facteur B. Comme précédemment, l'intervalle de rejet de l'hypothèse H 0 dans chacun de ces tests est un intervalle [ c 1 – α ; + ∞ [, de probabilité α, variable suivant le nombre de degrés de liberté.

Statistiques - 2e année - Chapitre 4 - Analyse de variance

4.2.2. Réalisation des calculs.

Page 54

Statistiques - 2e année - Chapitre 4 - Analyse de variance

Page 55

Statistiques - 2e année - Chapitre 4 - Analyse de variance

Page 56

Le tableau des calculs précédent permet de construire le tableau d'analyse de la variance. Source de variations

Somme des Degrés de Carrés des Ecarts liberté

Carrés moyens

Probabilité critique

F

SCT

n–1

CMT =

Facteur A

SCEA

p–1

CMEA =

FA =

Facteur B

SCEB

q–1

CMEB =

FB =

SCEAB

(p – 1)(q – 1)

SCR

n–pq

Totale

Interaction AB Résiduelle

CMEAB =

F AB =

pA pB p AB

CMR =

4.2.3. Le modèle additif. Un modèle sans interaction de A et B est appelé un modèle additif. Dans ce cas, on l'a vu, on obtient un test plus puissant en prenant pour tableau d'analyse de la variance :

Source de variations Totale Facteur A

Facteur B

Résiduelle

Somme des Carrés des Ecarts

Degrés de liberté

SCT

n–1

CMT =

SCEA

p–1

CMEA =

F' A =

q–1

CMEB =

F' B =

SCEB

Carrés moyens

F

Probabilité critique

p' A p' B

SCR' = SCR + CMR' = SCEAB n–p–q+ = SCT – SCEA 1 – SCEB

C'est le cas, dans un modèle orthogonal avec répétition, lorsque la probabilité critique p AB du test d'interaction de A et B est grande, supérieure à 0,25 ou à 0,50 par exemple (on accepte H 0). C'est le cas, dans un modèle complet sans répétition (n i j = 1), dans lequel on admet qu'il n'y a pas d'interaction des facteurs A et B.

4.2.4. Cas du plan complet équilibré. Dans un plan complet équilibré, tous les effectifs n i j des échantillons sont égaux à un entier r ≥ 1.

Statistiques - 2e année - Chapitre 4 - Analyse de variance

Page 57

4.2.4.1. Plan complet équilibré avec répétition : r ≥ 2. La seule chose qui change dans le tableau d'analyse de la variance est que n est égal à p q r.

4.2.4.2. Plan complet équilibré sans répétition : r = 1. n = p q. La somme des carrés des écarts résiduels SCER est nulle. Il faut supposer que le modèle est additif (pas d'interaction de A et B). Le tableau d'analyse de la variance se réduit à :

Source de variations Totale

Somme des Carrés des Ecarts

Degrés de liberté

SCT

n–1

CMT = F' A = F' B =

Carrés moyens

Facteur A

SCEA

p–1

CMEA =

Facteur B

SCEB

q–1

CMEB =

Résiduelle

SCR' = SCT – n – p – q + SCEA – SCEB 1

F

Probabilité critique

p' A p' B

CMR' =

Le test d'additivité de Tukey permet de vérifier l'absence d'interaction.

On pose SCADD =

et F =

.

Sous l'hypothèse d'additivité, F suit une loi de Fisher-Snedecor à (1, (p – 1)(q – 1) – 1) degrés de liberté : on rejette l'hypothèse d'additivité pour les grandes valeurs de F.

4.2.5. Estimation en analyse de la variance. est un estimateur sans biais de µ. est un estimateur sans biais de µ i j. ij est un estimateur sans biais de µ i .. i. est un estimateur sans biais de µ . j. .j – est un estimateur sans biais de a i = µ i . – µ. i. – est un estimateur sans biais de b j = µ . j – µ. .j – i . – . j + est un estimateur sans biais de c i j = µ i j – µ i . – µ . j + µ. ij CMR (CMR' dans un modèle additif) est un estimateur sans biais de la variance σ ².

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF