Statistiques de base

January 16, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Statistiques de base...

Description

Notes de cours Statistique de base

Anne-Catherine Favre Ecole Nationale Supérieure de l’Energie, l’Eau et l’Environnement (ENSE3 ) Institut polytechnique de Grenoble (GINP) Laboratoire d’Etude des Transferts en Hydrologie et Environnement (LTHE) [email protected]

septembre 2016

Chapitre 1 Statistique exploratoire Nous supposons que nous avons 20 observations x1 , x2 , . . . , x20 du pH de l’eau. Ces données proviennent de mesures indépendantes qui ont été effectuées dans les mêmes conditions. De telles observations sont appelées échantillon en statistique. La statistique exploratoire sert à résumer quelques propriétés de l’échantillon à la fois par des caractéristiques numériques et des représentations graphiques.

1.1 1.1.1

Valeurs caractéristiques Caractéristiques de tendance centrale

Moyenne arithmétique n

1X xi x¯ = n i=1 Médiane La médiane qˆ(50%) est la valeur qui partage en deux effectifs égaux (donc de 50 %) les données rangées par ordre croissant : x[1] ≤ x[2] ≤ · · · ≤ x[n]  x[n+1]/2 pour n impair qˆ(50%) = 1 (x + x ) pour n pair. [n/2] [n/2]+1 2 Une généralisation de la médiane est la notion de quantile empirique. Définition 1.1 Soient x1 , x2 , . . . , xn , n données réelles et soit p une proportion entre 0 % et 100 %. Le quantile empirique qˆ(p) est défini comme étant la valeur telle qu’une proportion p des observations soit plus petite que qˆ(p). Le quantile qˆ(p) peut s’interpréter de la manière suivante : par exemple pour p = 10%, qˆ(10%) est la valeur telle que nous avons 10% de chances d’observer une valeur inférieure à qˆ(10%) et, par conséquent, 90% des chances d’obtenir une valeur supérieure. Le quantile empirique s’obtient comme qˆ(p) = x[(n+1)p] . 1

Exemple 1.1 Soit le tableau de données suivant (où les deux jeux de données sont identiques si on excepte la dernière valeur qui augmente 12 → 120) données x[1] no1 2 no2 2

x[2] 4 4

x[3] 8 8

x[4] 9 9

x[5] 11 11

x[6] 11 11

x[7] x¯ qˆ(50%) 12 8.1 9 120 23.6 9

La moyenne arithmétique augmente beaucoup (8.1 → 23.6) alors que la médiane ne change pas. Les caractéristiques telles la médiane sont dites mesures robustes. Mode Le mode est la valeur la plus fréquente de la série des données.

1.1.2

Caractéristiques de dispersion

Etendue ou intervalle de variation r = xmax − xmin Variance empirique n

1 X (xi − x¯)2 s = n − 1 i=1 2

Il est à noter que pour des raisons techniques, le dénominateur est (n − 1) au lieu de n. En statistique, la racine carrée de la variance empirique, s, dénommée écart-type empirique est souvent utilisée. Coefficient de variation empirique Le coefficient de variation empirique CV est une mesure de dispersion relative. Il correspond à l’écart-type mesuré en pourcentage de la moyenne : CV =

s . x¯

L’avantage de ce coefficient est d’être adimensionnel. Intervalle inter-quartile iqr = qˆ(75%) − qˆ(25%) Exemple 1.2 Considérons le même tableau de données que dans l’exemple 1.1. données x[1] no1 2 no2 2

x[2] 4 4

x[3] 8 8

x[4] 9 9

x[5] 11 11 2

x[6] 11 11

x[7] 12 120

r s2 10 3.82 118 42.72

iqr 11-4=7 11-4=7

La comparaison des caractéristiques de dispersion nous montre que l’étendue augmente (10 → 118) ainsi que la variance (3.82 → 42.72 ) alors que l’intervalle inter-quartile reste le même. L’intervalle inter-quartile est appelé mesure robuste de la dispersion.

1.1.3

Caractéristiques de forme

Définition 1.2 Le j-ème moment centré empirique est défini par n 1 X mj = (xi − x¯)j n − 1 i=1

Nous remarquons que m2 correspond exactement à la variance empirique. Coefficient de symétrie m3 s3 • si γ = 0, la distribution est symétrique, • si γ < 0, la distribution est étalée à gauche, • si γ > 0, la distribution est étalée à droite. On peut dire qu’une distribution est symétrique si elle présente (à peu près) la même forme de part et d’autre du centre de la distribution. Sinon, elle est dite asymétrique. Une distribution a une asymétrie négative si elle présente une queue (extrémité de la distribution) vers la gauche (vers les valeurs négatives) et elle possède une asymétrie positive si elle présente une queue vers la droite (vers les valeurs positives). La figure 1.1. montre des histogrammes illustrant plusieurs valeurs du coefficient de symétrie. L’histogramme de gauche présente une asymétrie positive, l’histogramme central une asymétrie nulle alors que l’histogramme de droite illustre une asymétrie négative. γ=

Coefficient quartile de symétrie qs =

[ˆ q (75%) − qˆ(50%)] − [ˆ q (50%) − qˆ(25%)] qˆ(75%) − qˆ(25%)

Le coefficient quartile de symétrie s’interprète comme le coefficient de symétrie. Coefficient d’aplatissement κ=

m4 −3 s4

• si κ = 0, la courbe est mésokurtique, • si κ > 0, la courbe est leptokurtique, • si κ < 0, la courbe est platykurtique.

3

Figure 1.1 – Histogrammes présentant diverses valeurs du coefficient de symétrie γ.

Une distribution est dite mésokurtique si les observations sont aussi concentrées que sous l’hypothèse de normalité. Elle est dite leptokurtique si les observations sont plus concentrées et platykurtique si les observations sont moins concentrées que sous l’hypothèse de normalité. La figure 1.2 présente des histogrammes illustrant plusieurs valeurs du coefficient d’aplatissement.

Figure 1.2 – Histogrammes présentant diverses valeurs du coefficient d’aplatissement κ.

1.2

Représentation graphique des données

Pour illustrer l’apport de la représentation graphique dans l’analyse des données nous allons utiliser les précipitations annuelles (totales) à Québec (mesurées à la station Québec A, no 7016294, altitude 74 m) de 1966 à 1994 ainsi que les précipitations annuelles à la forêt Montmorency de 1966 à 1994 (à la station forêt Montmorency, no 7042388, altitude

4

640 m). Ces précipitations sont synthétisées respectivement dans les tableaux 1.1 et 1.2.

Table 1.1 – Précipitations annuelles en mm à la station Québec A de 1966 à 1994 année pluie [mm] année pluie [mm] année pluie [mm]

1966 1195 1976 1477 1986 1429

1967 1243 1977 1174 1987 1130

1968 902 1978 1135 1988 1052

1969 1209 1979 1308 1989 1192

1970 1120 1980 1157 1990 1295

1971 1271 1981 1303 1991 988

1971 1370 1982 1071 1992 1233

1973 1578 1983 1365 1993 1296

1974 1277 1984 1055 1994 1251

1975 1230 1985 989

Table 1.2 – Précipitations annuelles en mm à la station forêt Montmorency de 1966 à 1994 année pluie [mm] année pluie [mm] année pluie [mm]

1.2.1

1966 1374 1976 1931 1986 1771

1967 1385 1977 1482 1987 1323

1968 1149 1978 1382 1988 1580

1969 1362 1979 1556 1989 1485

1970 1436 1980 1489 1990 1825

1971 1332 1981 1566 1991 1427

1971 1641 1982 1525 1992 1526

1973 1671 1983 1789 1993 1799

1974 1810 1984 1290 1994 1660

1975 1592 1985 1491

Histogramme

Lorsque nous voulons résumer l’information contenue dans une variable quantitative, le nombre de valeurs possibles est très élevé et la fréquence de chacune de ces valeurs est souvent petite. Nous ne pouvons donc pas utiliser le tableau de fréquence (liste des valeurs observées avec leur fréquence) directement. Par contre, nous pouvons regrouper les valeurs par classe et calculer la fréquence de chacune de ces classes. L’histogramme sert à décrire la répartition des mesures. Il montre le nombre d’observations dans des classes déterminées par une division en intervalles de même longueur. Le log10 n. La nombre de classes k choisi est primordial. Idéalement k est environ égal à 1+ 10 3 figure 1.3 représente deux histogrammes des précipitations annuelles à Québec construits avec 2 classes différentes.

1.2.2

Diagramme en boîte (boxplot)

Construction 1. Dessiner un rectangle représentant qˆ(25%), qˆ(50%), qˆ(75%). 2. Calculer les bornes     qˆ(25%) − 1.5 qˆ(75%) − qˆ(25%) et qˆ(75%) + 1.5 qˆ(75%) − qˆ(25%) 3. Déterminer les valeurs adjacentes (plus petite et plus grande observations situées entre les deux bornes). 4. Relier la boîte et les valeurs adjacentes par des segments de droite. 5

Figure 1.3 – Histogrammes des précipitations annuelles à Québec (k = 4 et k = 14).

5. Représenter les valeurs aberrantes (à l’extérieur des deux bornes) par un symbole. Le diagramme en boîte résume graphiquement : 1. le centre des données (la médiane qˆ(50%) - la ligne à l’intérieur de la boîte), 2. la dispersion (intervalle inter-quartile - la longueur de la boîte), 3. la symétrie (la longueur relative des demi-boîtes séparées par la médiane qˆ(50)%), 4. la présence de valeurs aberrantes (au-delà des valeurs adjacentes). La figure 1.4 montre, à fin de comparaison, les boxplots en parallèle des précipitations annuelles à Québec et à la forêt Montmorency.

1.2.3

Nuage de points

Le nuage de points (scatter plot) permet de visualiser la relation entre deux variables en utilisant deux axes perpendiculaires. La figure 1.5 montre la relation sous forme de nuages de points entre les précipitations annuelles à Québec et à la forêt Montmorency. La diagonale est également représentée sur cette figure illustrant que les précitations annuelles à la forêt Montmorency sont toujours supérieures à celles de Québec.

1.2.4

Séries temporelles

Il s’agit d’une représentation chronologique où les valeurs correspondant à des temps voisins sont reliés. La figure 1.6 illustre une telle représentation.

6

Figure 1.4 – Boxplots en parallèle des précipitations annuelles à Québec et à la forêt Montmorency.

Figure 1.5 – Nuage de points mettant en relation les précipitations annuelles à Québec et à la forêt Montmorency.

7

Figure 1.6 – Série temporelle des précipitations annuelles à Québec.

8

Chapitre 2 Calcul des probabilités 2.1

Probabilités d’événements

“...On réalise en fin de compte que la théorie des probabilités n’est tout simplement que le bon sens réduit à du calcul. Elle nous fait apprécier avec exactitude ce que l’esprit bien fait sent déjà par une sorte d’instinct, souvent sans être capable d’en rendre compte... Il est remarquable que cette science, qui a pris son origine dans l’étude des jeux de chance, soit devenue l’objet le plus important de la connaissance humaine. Les questions les plus importantes de la vie ne sont en réalité, pour l’essentiel, que des problèmes de probabilité”. Ainsi pensait le “Newton” des Français, le célèbre mathématicien et astronome Pierre Simon, marquis de Laplace. On est en droit de penser que l’illustre marquis a un peu exagéré. Il n’en est pas moins certain que la théorie des probabilités est devenue un outil d’importance fondamentale pour un nombre considérable de scientifiques, d’ingénieurs, de médecins, de juristes et d’industriels. En fait l’homme éclairé a appris à ne plus demander “est-ce ainsi ?” mais plutôt “quelle est la probabilité qu’il en soit ainsi ?”.

2.1.1

Modèle probabiliste

Dans le langage de la théorie des probabilités, les actions qui peuvent amener des résultats aléatoires sont dites des expériences (aléatoires), tandis qu’un ensemble de résultats possibles est appelé un événement. L’ensemble S de tous les résultats possibles est dit l’ensemble fondamental.

Exemple 2.1 Ensemble fondamental et événements • Jet d’une pièce de monnaie homogène. On obtient ’Pile’ ou ’Face’ : S={P,F}. • Jet d’un dé, S={1,2,3,4,5,6}. • Trois jets d’une pièce de monnaie : S={PPP,FPP,PFP,PPF,PFF,FPF,FFP,FFF} Parmi les événements possibles considérons E1 , E2 , E3 et E4 E1 : on a exactement 2 F E1={PFF,FPF,FFP} E2 : on a plus de P que de F E2={PPP,FPP,PFP,PPF} E3 : on a un même nombre de P que de F E3= ∅ : ensemble vide E4 : on a moins de 4 F E4=S

9

La probabilité d’un événement est la proportion de cas où l’événement se manifeste si l’expérience est répétée indépendamment et sous les mêmes conditions à l’infini. Soit S un ensemble fondamental. Soit P une fonction définie pour tout sous-ensemble E de S. P est une probabilité si elle satisfait aux règles : 1. P {E} ≥ 0 pour tout E ⊂ S, 2. si E et F sont 2 sous-ensembles de S tels que E ∩ F = ∅ (sous ensemble disjoints ou incompatibles) alors P {E ∪ F } = P (E) + P (F ), 3. P {S} = 1 (S est l’événement certain). Propriétés : 1. P {∅} = 0 (∅ est l’événement impossible), ¯ = 1 − P {E} où E¯ est l’événement complémentaire de E, 2. P {E} 3. P {E ∪ F } = P {E} + P {F } − P {E ∩ F }, 4. si E ⊂ F alors P {E} ≤ P {F }. Définition 2.1 Le couple (S, P ) est appelé modèle probabiliste.

2.1.2

Probabilités conditionnelles

Définition 2.2 La probabilité conditionnelle de l’événement E en connaissant (en sachant) F est donnée par : P {E|F } =

P {E ∩ F } . P {F }

Exemple 2.2 Une pièce de monnaie est lancée deux fois. Quelle est la probabilité que les deux jets soient ’face’ sachant que le premier jet est ’face’ ? L’ensemble fondamental est S={FF,FP,PF,PP}. Soit A l’événement les 2 jets montrent ’face’ et B l’événement le premier jet donne ’face’, la probabilité cherchée est donnée par : P {A|B} =

P {A∩B} P {B}

=

P {F F } P {F F,F P }

=

1 4 2 4

=

1 2

Définition 2.3 Deux événements E et F sont indépendants, si et seulement si la probabilité de l’événement E conditionnée par la réalisation de l’événement F ne dépend pas de F . P {E|F } = P {E} et P {F |E} = P {F }. Remarque : L’indépendance de E et F équivaut à P {E ∩ F } = P {E} · P {F }.

10

Exemple 2.3 On tire au hasard une carte d’un paquet de 52 cartes à jouer ordinaires. Désignons par R l’événement la ’carte tirée est un roi’ et par C ’elle est un coeur’. Dans 1 d’une part, alors que d’autre ce cas R et C sont indépendants ; en effet P {R ∩ C} = 52 13 4 part P {R} = 52 et P {C} = 52 . Exemple 2.4 On jette deux dés équilibrés. E est l’événement la ’somme des dés est 6’ et F désigne le ’premier dé montre un 4’. E et F ne sont pas indépendants. En effet 1 5 1 5 P {E ∩ F } = P {(4, 2)} = 36 alors que P {E}P {F } = 36 = 216 . 6 Définition 2.4 Soit S un ensemble fondamental, on dit que les événements Bi ⊂ S (i = 1, 2, . . . , n) forment une partition de S si : Bi ∩ Bj = ∅ i 6= j et ∪ni=1 Bi = S. Théorème 2.1 Soient Bi , i = 1, 2, . . . , n une partition de S et soit E un événement de S. Alors P {E}

= P {E ∩ B1 } + P {E ∩ B2 } + · · · + P {E ∩ Bn } = P {E|B1 }P {B1 } + P {E|B2 }P {B2 } + · · · + P {E|Bn }P {Bn }

P {Bi |E} =

P {E|Bi }P {Bi } . P {E}

La deuxième égalité de ce théorème est connue sous théorème de Bayes. Exemple 2.5 Une usine dispose de 3 machines avec les caractéristiques suivantes : machine % du total de la production % de déchet par machine A 45 % 10 % B 35 % 10 % C 20 % 15 % – Quel pourcentage de la production totale est défectueuse ? – Quelle est la probabilité qu’une pièce provienne de la machine B sachant qu’elle est défectueuse ? Notons EX l’événement ’la pièce provient de la machine X’ et D ’la pièce est défectueuse’. On cherche P {D}. P {D} = = = =

P {D ∩ EA } + P {D ∩ EB } + P {D ∩ EC } P {D|EA }P {EA } + P {D|EB }P {EB } + P {D|EC }P {EC } 0.1 · 0.45 + 0.1 · 0.35 + 0.15 · 0.20 0.11.

On cherche P {EB |D}. P {EB |D} =

P {EB ∩D} P {D}

=

P {D|EB }P {EB } P {D}

=

0.1·0.35 0.11

= 0.32. 11

2.1.3

Variables aléatoires

Une variable aléatoire X est une fonction définie sur S à valeur dans l’ensemble des nombres réels. Cette fonction est le résultat d’une expérience aléatoire. Distribution d’une variable aléatoire Il y a deux types de variables aléatoires : • les variables discrètes dont l’ensemble des valeurs possibles est fini ou dénombrable ; • les variables continues dont l’ensemble des valeurs possibles est un intervalle (ouvert, fermé, semi-ouvert ou toute la droite réelle). Définition 2.5 La distribution (ou fonction de répartition ou loi) d’une variables aléatoire X est la fonction FX (x) définie par : FX (x) = P {X ≤ x} = probabilité que Xsoit plus petit ou égal à x. Cette fonction est définie pour toutes les valeurs x réelles et prend des valeurs entre 0 et 1. Définition 2.6 Soit X une variable aléatoire discrète qui prend comme valeurs possibles x1 , x2 , . . . . Dans ce cas, la fonction de répartition est sous forme d’un escalier avec des sauts aux xi . La fonction qui décrit ces sauts, fX (xi ) = P {X = xi }, est dite fonction de fréquences de la variable aléatoire discrète X. Définition 2.7 Une variable X avec FX (x) dérivable est dite variable aléatoire continue. La dérivée fX (x) =

d FX (x) = FX0 (x), (X continue) dx

est dite la densité. Remarque : P {a < X ≤ b} = FX (b) − FX (a) =

Rb a

fX (x)dx.

Exemple 2.6 La durée de vie X d’un certain type de diode de radio est une variable aléatoire de densité donnée par ( 0 x ≤ 100 fX (x) = 100 x > 100 x2 Quelle est la probabilité qu’exactement 2 des 5 diodes de ce type doivent être remplacées lors des 150 premières heures de service de la radio ? On admettra que les événements Ei : ’la ième diode doit être remplacée avant la 150ème heure de service’, i = 1, 2, . . . , 5 12

sont indépendants. On a

R 150 P {Ei } = 100 fX (x)dx R 150 = 100 100 x−2 dx = 31 . L’indépendance des Ei permet alors d’écrire la probabilité cherchée :    2  3 2 80 1 5 · = . · 2 3 3 243 Maintenant nous allons nous intéresser à certaines caractéristiques permettant de résumer la distribution d’une variable aléatoire.

2.1.4

Espérance mathématique

Définition 2.8 Soit X une variable aléatoire discrète avec fonction de fréquences fX (xi ) = P {X = xi } = pi (i = 1, 2, . . . ) où pi > 0 (i = 1, 2, . . . ) et p1 + p2 + · · · + · · · = 1. Dans ce cas général, l’espérance mathématique de X est X E(X) = p i xi . i

En termes concrets, l’espérance de X est la moyenne pondérée des valeurs que X peut prendre, les poids étant les probabilités que ces valeurs apparaissent. Exemple 2.7 On cherche l’espérance E(X) de la variable X, résultat du lancer d’un dé équilibré. Comme P {X = 1} = P {X = 2} = · · · = P {X = 6} = 16 , on aura             1 1 1 1 1 7 1 +2 +3 +4 +5 +6 = . E(X) = 1 6 6 6 6 6 6 2 Définition 2.9 Soit X une variable aléatoire avec densité fX (x). L’espérance mathématique de X est : Z ∞ E(X) = xfX (x)dx, (Xcontinue). −∞

Exemple 2.8 Soit la variable aléatoire X telle que ( 1 a 0 et on note X ∼ Gamma(λ, α) si sa densité est ( λ α e−αx xλ−1 x ≥ 0 Γ(λ) fX (x) = 0 x 10} = 10 10 Z 20 1 −x P {10 < X < 20} = e 10 dx = −e−2 + e−1 = 0.233. 10 10 Il est à noter que d’autre distributions sont utilisées en analyse fréquentielle telles que la loi des extrêmes généralisées, la loi Pearson type III, la loi log Pearson type III et la loi de Pareto généralisée.

21

Chapitre 3 Estimation des paramètres 3.1

Introduction

Un modèle mathématique pour décrire des données doit évidemment tenir compte de l’aspect aléatoire. Quoi qu’on fasse, il reste un élément impossible de prédire avec certitude. Les modèles statistiques sont utilisés dans de telles situations. Pour modéliser des erreurs aléatoires et imprévisibles avec certitude, on fait appel à des variables aléatoires. Un modèle statistique simple pour une série de mesures x1 , . . . , xn prend donc la forme suivante : On suppose que chaque observation xi est une réalisation d’une variable aléatoire Xi avec une distribution commune partiellement connue. A la base de chaque raisonnement statistique concernant des données se trouvent les notions d’échantillon et de population. Une série de mesures x1 , . . . , xn est dite échantillon si chacune des mesures a été obtenue sous des conditions identiques. En notation statistique, on dit que les observations x1 , . . . , xn sont des réalisations des variables aléatoires X1 , . . . , Xn indépendantes et qui possèdent une distribution commune, notée par X ∼ FX . Tout ceci est inclus dans la phrase x1 , . . . , xn est un échantillon provenant de la loi FX . Souvent la connaissance partielle de FX implique que la forme de la distribution FX est connue (ou supposée connue) à l’exclusion de quelques paramètres qui doivent être estimés à l’aide d’un échantillon. La spécification FX (x) = FX (x; θ) – c’est-à-dire que l’on connaît la forme de FX mais pas le paramètre θ – est dite modèle de distribution pour les données x1 , . . . , xn . Le terme population est utilisé en statistique pour un entité globale théorique, désignée par X, dont font partie les sujets choisis d’une étude statistique. En lien avec l’estimation d’un paramètre inconnu d’un modèle de distribution, le terme population réfère au vrai paramètre inconnu, à la vraie espérance, variance, distribution, etc...

3.2

Estimation des paramètres inconnus

Étant donné que les données sont traitées comme réalisations de variables aléatoires, modéliser des données consiste à spécifier les répartitions possibles de ces variables, leurs dépendances, etc. 22

Exemple 3.1 On effectue plusieurs mesures x1 , . . . , xn du débit de la rivière Manicouagan à Baie Comeau. De telles mesures ont en général une composante aléatoire due aux erreurs de mesure. Un mécanisme d’erreur possible est le modèle additif suivant : erreur{zde mesure} . mesure valeur théorique + une | {z } = vraie | {z } | xi

i

µ

Si les mesures ne sont pas soumises à une erreur systématique, l’erreur aléatoire doit être centrée dans le sens que E(i ) = 0. Il est également souvent raisonnable de penser que la précision de chaque mesure est la même, c’est-à-dire que Var(i ) = σ 2 est constante d’une mesure à l’autre. Une spécification possible pour la distribution de l’erreur est la loi normale avec espérance zéro et variance σ 2 . Le modèle de distribution spécifié dans cet exemple est : Xi est une variable aléatoire ayant une distribution N (µ, σ 2 ) avec µ et σ 2 inconnues. Une fois un modèle choisi, l’intérêt se tourne vers l’estimation des inconnues, les paramètres du modèle. Intuitivement la notion d’estimation est claire. On observe les réalisations d’une variable aléatoire dont on spécifie la distribution à l’exclusion de quelques paramètres. A l’aide des réalisations observées, on doit estimer les valeurs des paramètres inconnus.

3.3 3.3.1

Méthodes d’estimation Méthode des moments

C’est une méthode ’quasi-naturelle’ ou intuitive. On suppose que l’échantillon x1 , . . . , xn est issu des variables aléatoires indépendantes X1 , . . . , Xn de distribution identique FX (x; θ1 , . . . , θr ). Les moments empiriques de l’échantillon doivent être proches des moments théoriques de la population. Dans le cas présent on a r paramètres θ1 , . . . , θr à estimer. Pour trouver les estimateurs θˆ1 , . . . , θˆr , il suffit de poser pour X ∼ FX (x; θ1 , . . . , θr ) : n

X b k) = 1 X k k = 1, 2, . . . r. E(X n i=1 i où ˆ indique l’estimation. En utilisant les relations entre les paramètres θ1 , . . . , θr de la loi FX et ses moments d’ordre k, E(X k ) on trouve les estimateurs θˆ1 , . . . , θˆr . Exemple 3.2 Xi ∼ N (µ, σ 2 ), i = 1, . . . , n. Deux paramètres sont à estimer µ et σ 2 . Nous avons les relations suivantes entre les paramètres µ, σ 2 et les moments de la loi normale : E(X) = µ 2 E(X 2 ) = Var(X) + E(X) = σ 2 + µ2 . En utilisant la méthode des moments, on obtient : P ¯ µ ˆ = n1 ni=1 Xi = X P P ¯ 2. σ ˆ2 + µ ˆ2 = n1 ni=1 Xi2 d’où σ ˆ 2 = n1 ni=1 Xi2 − X Pour obtenir la valeur observée des estimateurs, il suffit de remplacer Xi par l’observation xi appartenant à l’échantillon. 23

3.3.2

Méthode du maximum de vraisemblance

Nous allons d’abord aborder la méthode du maximum de vraisemblance par le biais d’une approche expérimentale. Exemple 3.3 On jette une pièce de monnaie 10 fois et on obtient : PFPPFFFPFF. On ne connaît pas p = P {pile} et on veut l’estimer. D’après la série, intuitivement on peut 4 = 52 . trouver pˆ = 10 Enumération des jets résultat prob

P p

F P (1-p) p

P F p (1-p)

F (1-p)

F (1-p)

P F p (1-p)

F (1-p)

La vraisemblance V est dans ce cas p4 (1 − p)6 . On veut trouver une valeur de pˆ qui rende V le plus grand possible ; pour cela on maximise V . dV = 4p3 (1 − p)6 − 6p4 (1 − p)5 = 2p3 (1 − p)5 (2(1 − p) − 3p) . dp = 0 on déduit que pˆ = 0 ou pˆ = 1 ou pˆ = 25 . Seule la dernière valeur est retenue De dV dp car elle correspond à une valeur de V maximale. La vraisemblance offre une approche générale à l’estimation des paramètres inconnus d’un modèle de distribution à l’aide des données. Soit x1 , . . . , xn un échantillon provenant d’une loi FX (x; θ), où θ est un paramètre inconnu. Définition 3.1 La fonction V (θ) = V (θ; X1 , . . . , Xn ) = fX1 (X1 ; θ) · · · · · fXn (Xn ; θ) est dite vraisemblance. Pour connaître la vraisemblance de l’échantillon, il suffit de remplacer les arguments des fonctions fX1 , . . . , fXn par les observations x1 , . . . , xn . Exemple 3.4 Soit x1 , x2 , . . . , xn un échantillon d’une loi exponentielle Exp(λ) avec densité fX (x; λ) = λexp(−λx) (x ≥ 0). La vraisemblance est égale à V (λ) = λexp(−λX1 )λexp(−λX2 ) · · · λexp(−λXn ) = λn exp(−λ(X1 + X2 + · · · + Xn )). Définition 3.2 L’estimateur du maximum de vraisemblance θˆ est le point qui maximise la vraisemblance V (θ) : ˆ ≥ V (θ) pour chaque θ. V (θ) Remarque. Pour les calculs il est généralement plus facile d’utiliser le logarithme de la vraisemblance. 24

Exemple 3.5 On désire déterminer l’estimateur du maximum de vraisemblance de la loi exponentielle. Selon l’exemple 3.4 le logarithme de la vraisemblance est égal à log(V (λ)) = nlog(λ) − λ(X1 + X2 + · · · + Xn ). L’équation   n d log V (λ) = − (X1 + X2 + · · · + Xn ) = 0 dλ λ n 1 ˆ= ¯ = . Parce que la seconde dérivée est partout a comme solution unique λ X1 +X2 +···+Xn X négative, cette valeur correspond à un maximum.

3.4

Propriétés d’un estimateur : biais et carré moyen de l’erreur

Supposons que le paramètre inconnu qui décrit la loi sous-jacente à nos observations soit un nombre réel θ et que notre estimateur soit ˆ θ(données) = θ, une certaine fonction des données. La qualité de cet estimateur dépend de la différence entre la valeur estimée à l’aide des données et la vraie valeur du paramètre (inconnue). ˆ − θ est dite le biais de l’estimateur θ. ˆ Ici Définition 3.3 La quantité b(θ) = Eθ (θ) Eθ (·) signifie que l’espérance est calculée sous l’hypothèse que θ soit la vraie valeur du paramètre. Un estimateur θˆ sans biais (dit estimateur non biaisé) est tel que sous l’influence du hasard il donnera une fois des valeurs estimées trop grandes, une autre fois des valeurs estimées trop petites. A la longue les erreurs se balancent. Un autre élément important de la qualité d’un estimateur est la taille de la différence θˆ − θ. Définition 3.4 Le carré de l’erreur d’un estimateur θˆ est défini comme (θˆ − θ)2 , où θ est la vraie valeur du paramètre. L’espérance de ce carré de l’erreur est dite carré moyen de l’erreur (CME) ˆ = Eθ ((θˆ − θ)2 ), CMEθ (θ) où Eθ (·) signifie que l’espérance est calculée sous l’hypothèse que θ soit la vraie valeur du paramètre. Les deux mesures de qualité servent à comparer différents estimateurs possibles pour un paramètre et à en choisir un qui répond aux besoins du problème en question. De plus elles permettent de quantifier la précision des résultats d’une analyse statistique pour en tirer des conclusions concrètes.

25

3.5

Estimation par intervalle

En statistique inférentielle, on est intéressé à estimer un paramètre θ de la population à partir d’un échantillon x1 , x2 , . . . , xn représentatif de cette population. Une estimation ponctuelle θˆ de cette quantité est obtenue à partir des observations composant l’échantillon. Cette estimation est fort probablement légèrement différente de la vraie valeur de θ, puisqu’on s’attend à des erreurs d’échantillonnage. Il est par conséquent intéressant de calculer un intervalle de valeurs pour l’estimateur de θ plutôt qu’une valeur ponctuelle. Définition 3.5 Un intervalle de confiance [I, S] pour un paramètre θ ayant un niveau de confiance (1 − α) vérifie : Pθ {θ ∈ [I; S]} = Pθ {I ≤ θ ≤ S} = 1 − α pour chaque θ. Les variables aléatoires I et S sont dites bornes de confiance inférieure et supérieure. Ces bornes dépendent uniquement des données. L’interprétation exacte d’un intervalle de confiance est que la probabilité que l’intervalle [I, S] couvre la vraie valeur du paramètre inconnu lorsque l’on répète l’expérience est de 95 %.

3.5.1

Intervalle de confiance pour la moyenne

Nous supposons que X ∼ N (µ, σ 2 ) et que nous désirons construire un intervalle de confiance pour µ. Nous faisons l’hypothèse dans un premier temps que σ 2 est connu. Nous déduisons des propriétés de l’espérance et de la variance (cf. sections 2.1.4 et 2.1.5) que ¯ = µ et Var(X) ¯ = σ 2 /n E(X) ¯ suit une loi normale Z ∼ N (0, 1). On a par donc la variable centrée réduite Z = √X−µ 2 σ /n

conséquent que √

 ¯ − µ) n(X ≤ z1−α/2 1 − α = P zα/2 ≤ σ   σ σ ¯ ¯ 1 − α = P X + √ zα/2 ≤ µ ≤ X + √ z1−α/2 n n   σ σ ¯ ¯ 1 − α = P X − √ z1−α/2 ≤ µ ≤ X + √ z1−α/2 n n 

Nous avons donc que l’intervalle de confiance est donné par :   σ σ ¯ ¯ IC = X − √ z1−α/2 ; X + √ z1−α/2 n n Ici nous avons fait l’hypothèse de la normalité. Cependant des considérations asymptotiques (théorème central limite) stipulent que si n est suffisamment grand, la moyenne de ¯ suit une loi normale indépendamment de la distribution originale de Xi . l’échantillon, X Si σ 2 est inconnu, ce qui arrive dans la majorité des cas dans la pratique, alors il √ ¯ n(X−µ) 2 faut l’estimer par la variance échantillonale s . Dans ce cas on a que suit une loi s 26

de Student à (n − 1) degrés de liberté. Le même raisonnement que ci-dessus conduit à l’intervalle de confiance suivant :   s s ¯ + √ qtn−1 (1 − α/2) ¯ − √ qtn−1 (1 − α/2); X IC = X n n Exemple 3.6 Nous désirons construire un intervalle de confiance pour la moyenne des précipitations annuelles à Québec. Nous avons dans ce cas que n = 29, x¯ = 1217.07 et s = 150.44. L’intervalle de confiance observé de niveau de confiance 95 % se calcule donc ainsi   150.44 150.44 qt28 (97.5%); 1217.07 + √ qt28 (97.5%) ICobs = 1217.07 − √ 29 29 = [1159.85; 1274.29] La moyenne des précipitations annuelles à Québec se trouve donc dans l’intervalle [1159.85 ;1274.29] avec une probabilité de 95 %.

27

Chapitre 4 Tests statistiques 4.1

Introduction

L’exemple suivant est adapté de G. Saporta, Probabilités, analyse des données et statistique, Technip, 1990. Des relevés effectués pendant de nombreuses années ont permis d’établir que la lame précipitée annuelle dans la Beauce (France) en [mm] suit une loi normale N (600, 10000). Des entrepreneurs, surnommés faiseurs de pluie, prétendaient pouvoir augmenter de 50 mm le niveau moyen de pluie, ceci par l’insémination des nuages au moyen d’iodure d’argent et au-delà d’augmenter le taux de production requise. Avec ce nouveau procédé la Beauce deviendrait un véritable grenier français (cf. Charles Péguy). Leur procédé fut mis à l’essai entre 1951 et 1959. Les hauteurs de pluies relevés à cette occasion se trouvent dans le tableau 4.1. Table 4.1 – Hauteur annuelle des pluies dans la Beauce (France) en mm, de 1951 à 1959 Année [mm]

1951 510

1952 614

1953 780

1954 512

1955 501

1956 534

1957 603

1958 788

1959 650

Que pouvait-on conclure ? Deux hypothèses s’affrontaient : ou bien l’insémination était sans effet, ou bien elle augmentait réellement le niveau moyen de pluie de 50 mm. Ces hypothèses pouvaient se formaliser comme suit : Si µ désigne l’espérance mathématique de X, variable aléatoire correspondant à la hauteur annuelle de pluie, on formule alors les hypothèses suivantes :  Hypothèse nulle : µ = 600 [mm] Hypothèse alternative : µ = 650 [mm] Les agriculteurs hésitant à opter pour le procédé forcément onéreux des faiseurs de pluie tenaient pour l’hypothèse nulle et il fallait donc que l’expérience puisse les convaincre,

28

c’est-à-dire que les faits observés contredisent nettement la validité de l’hypothèse nulle. Définition 4.1 On appelle test statistique une démarche de la statistique inférentielle consistant à : • contrôler la validité d’une hypothèse considérée comme vraie a priori, appelée hypothèse nulle et notée H0 . • admettre une hypothèse différente lorsque le contrôle se révèle négatif, appelée hypothèse alternative et notée H1 . Les agriculteurs choisirent α=0.05 comme niveau de probabilité. Autrement dit, ils admettaient implicitement que des événements rares ne sauraient se produire sans remettre en cause le bien-fondé de l’hypothèse de départ H0 ; ce faisant, ils assumaient le risque de se tromper dans 5 cas sur 100, cas où précisément les événements rares arrivent quand même. Comment décider ? Puisqu’il s’agit de tester la moyenne µ il est naturel de s’intéresser ¯ ¯ à X, la moyenne des observations qui nous apporte le plus de renseignements sur µ. X est appelée variable de décision. ¯ suit une loi normale Si H0 est vraie, comme l’expérience a porté sur n = 9 ans, X . Nous avons donc d’espérance 600 et de variance 10000 9  10000  ¯ X ∼ N 600, . 9 ¯ sont improbables et on prendra comme règle de En principe, de grandes valeurs de X décision la règle suivante : si x¯ est trop grand, c’est-à-dire si x¯ est supérieur à un seuil k qui n’a que 5 chances sur 100 d’être dépassé, on optera pour H1 avec une probabilité 0.05 de se tromper. Si x¯ < k on ne pourra pas rejeter H0 faute de preuves suffisantes. Le seuil k est appelé valeur critique. Il est défini comme la valeur telle que (k − µ)/σ = z((1 − 0.05)%) = 1.64 où z indique le quantile de la loi normale centrée réduite. Donc 1.64 = 655. La règle de décision est donc la suivante : k = 600 + 100 3 • si x¯ > 655, rejeter H0 et accepter H1 • si x¯ < 655, conserver H0 . L’ensemble d’événements {¯ x > 655} s’appelle la région critique ou région de rejet de H0 . Or les données relevés indiquent que x¯ = 610.2 mm. La conclusion était donc de conserver H0 ; c’est-à-dire que l’insémination était sans effet notable sur la hauteur des pluies : les valeurs observées pouvaient donc être dues au hasard (aléa climatique) en l’absence de toute influence de l’iodure d’argent. La figure 4.1 montre la densité de la loi normale, la statistique de test ainsi que la zone de rejet. La p-valeur (notée p) est la probabilité que la statistique de test soit aussi extrême ou plus extrême que le score obtenu si l’on fait l’hypothèse que H0 est vérifiée. C’est une notion très utilisée dans le domaine des tests statistiques car il suffit de comparer cette quantité avec α pour décider si l’on peut rejeter l’hypothèse nulle ou non. Si la p-valeur est inférieure à α, on rejette l’hypothèse nulle. Dans le cas contraire, on ne peut pas rejeter ¯ ≥ 610.2} = 1 − PH0 {X ¯ ≤ 610.2} = 1 − P{Z ≤ H0 . Dans notre exemple p = PH0 {X (610.2 − 600)/(100/3)} = 1 − φ(0.3060) = 0.36 avec Z ∼ N (0, 1). La figure 4.2 représente la densité normale avec l’aire sous la zone hachurée égale à la p-valeur. Cependant, rien ne dit que ne pas rejeter H0 mette à l’abri de se tromper : en effet, les faiseurs de pluie ont peut-être raison, mais on ne s’en est pas aperçu. 29

Figure 4.1 – Illustration de la zone de rejet.

Figure 4.2 – Illustration de la p-valeur.

Il y avait en fait deux manières de se tromper : croire les faiseurs de pluie, alors qu’ils n’étaient pour rien dans le résultat obtenu (probabilité α = 0.05) ; ne pas croire les faiseurs de pluie, alors que leur méthode est bonne et que seul le hasard (malencontreux pour eux), dû au faible nombre d’observations, a donné des résultats insuffisants pour convaincre les agriculteurs. Supposons que les faiseurs de pluie ont raison, on commet alors une erreur chaque fois que x¯ prend une  valeur inférieure à 655 mm, c’est-à-dire avec ¯ ¯ − 650)/(100/3) < (655 − 650)/(100/3) = une probabilité : β = P{X < 655} = P (X P{Z < 0.15} = 0.56 avec Z ∼ N (0, 1). Cette probabilité est non négligeable. • α s’appelle le risque de première espèce (probabilité de choisir H1 alors que H0 est vraie), en l’occurrence 5% dans cet exemple. C’est le risque qu’on limite. • β s’appelle le risque de deuxième espèce (probabilité de conserver H0 alors que H1 est vraie), c’est-à-dire 56 % dans cette application. Ce risque est souvent inconnu. • π = 1 − β est appelé la puissance. Elle correspond à la probabilité de rejeter 30

l’hypothèse nulle quand H1 est vraie. Le tableau 4.2 résume les notions ci-dessus. Table 4.2 – Notions de risque de première et deuxième espèce Vérité H0 H1

H0 pas d’erreur erreur de première espèce risque α

H1 erreur de deuxième espèce risque β puissance π = 1 − β

Ces erreurs impliquent des risques différents en pratique ; ainsi dans l’exemple des faiseurs de pluie le risque de première espèce consiste à acheter un procédé d’insémination qui ne vaut rien ; le risque de deuxième espèce à laisser perdre une occasion d’augmenter le niveau de pluie et peut-être des récoltes plus abondantes. Dans la pratique des tests statistiques, il est d’usage de se fixer α comme donnée (les valeurs les plus courantes sont 0.05, 0.01 ou 0.1) de préférence en fonction du risque de première espèce couru, ce qui fait jouer à H0 un rôle prééminent. Sur la base de cet exemple, la démarche d’un test peut se résumer comme suit : • Choix et formulation de H0 et H1 . • Choix de α. • Détermination de la variable de décision. • Calcul de la valeur critique et de la région critique en fonction de α. • Calcul de la valeur expérimentale de la variable de décision. • Conclusion : rejet ou acceptation de H0 .

4.2

Classification des tests

Les tests statistiques peuvent se classer suivant divers critères. On distingue d’abord les tests paramétriques et non paramétriques. Un certain nombre de tests s’appuient sur une hypothèse : la variable étudiée suit une loi statistique connue (normale, Student...). C’est la connaissance de cette loi qui permet de calculer la statistique de test et de conclure au rejet ou non de l’hypothèse nulle. C’est ainsi que dans le cas précédent, on fait l’hypothèse que X suit une distribution particulière : la loi normale. Ce type de test est appelé paramétrique. Un test est dit non-paramétrique, lorsqu’il ne dépend pas de paramètres, tels que la moyenne, l’écart-type, etc..., ou que son application n’exige pas une distribution particulière de la variable ou des variables étudiées. Dans le cas d’un test non paramétrique, on n’a pas besoin de connaître a priori la distribution des variables. Ces tests sont peu sensibles aux valeurs aberrantes. On privilégiera donc les tests non paramétriques lorsque les échantillons sont petits. On peut également classer les tests selon leurs buts. On peut considérer dans ce cadre des tests de comparaison des centres de distribution, des test de comparaison de variances et des tests d’adéquation. Dans ce cours nous traiterons des deux premières catégories (tests de comparaison des centres de distribution et tests de comparaison de variances). 31

4.3 4.3.1

Tests de comparaison des centres de distribution Comparaison d’une moyenne observée à une moyenne théorique

Test z Soient X1 , . . . , Xn des variables aléatoires indépendantes, identiquement distribuées selon une loi normale de moyenne µ et de variance σ 2 . On a que Xi ∼ N (µ, σ 2 ). On suppose que la variance σ 2 est connue. On désire tester l’hypothèse que la moyenne est égale à une valeur fixée (norme), soit H0 : µ = µ0 . Les hypothèses alternatives possibles sont résumées dans le tableau ci-dessous : H1 : µ 6= µ0 test bilatéral

H1 : µ ≤ µ0 test unilatéral à gauche

H1 : µ ≥ µ0 test unilatéral à droite

Comme il s’agit ici de comparer une moyenne observée à une moyenne théorique, la ¯ La différence X ¯ − µ0 semble un bon indicateur pour la véracité variable de décision est X. de H0 car la valeur de cette différence serait grande si µ était plus grande que µ0 . ¯ = µ et Var(X) ¯ = σ 2 /n. La statistique Z se calcule comme suit On a que E(X) √ ¯ n(X − µ) Z= . σ Si l’hypothèse nulle est vérifiée, c’est-à-dire si µ = µ0 , alors Z suit une loi normale centrée réduite. On choisit α comme niveau du test. Les graphiques de la figure 4.3 présentent les zones de rejet de l’hypothèse nulle selon les 3 types d’hypothèses alternatives.











z(α/2)

0

z(1−α/2)

z(α)

0

test bilatéral



test unilatéral à gauche







0

z(1−α)

test unilatéral à droite

Figure 4.3 – Les zones de rejet du test z en fonction de l’hypothèse alternative

Si la population n’est pas gaussienne (normale), le test précédent s’applique encore dès que n est assez grand (n> 30 environ) en raison de considérations asymptotiques (théorème central-limite). 32

Exemple 4.1 On connaît bien le pH des rivières au Nord du Québec. Il est en moyenne de 7.2 et d’écart-type 1. On effectue 30 mesures du pH de la rivière Caniapiscau et on aimerait savoir si cette caractéristique chimique est significativement différente de 7.2. On fait l’hypothèse que X1 , X2 , . . . , X30 ∼ N (µ, σ 2 ) et on désire tester que µ = µ0 au niveau de confiance α = 0.05. On a donc les hypothèses nulle et alternative suivantes :  H0 : µ = 7.2 H1 : µ 6= 7.2 ¯ La moyenne des 30 mesures de pH est de 6.9. Comme La variable de décision est X. √ on connaît la variance, le test z s’applique. On a z = 30(6.9−7.2) = −1.643. Nous avons 1 ici un test bilatéral. Nous devons donc comparer z aux quantiles z(α/2) = z(2.5%) et z(1 − α/2) = z(97.5%) d’une loi normale centrée réduite. On a que -1.96 µX . On effectue donc le test suivant :  H0 : µX = µY H1 : µY > µX Comme les variances ne sont pas significativement différentes (cf. Exemple 4.4), on peut appliquer le test de Student. On a que x¯ = 1217.07, y¯ = 1539.62, s2x = 150.442 , s2y = 187.632 . On obtient donc s2p = (28 · 150.442 + 28 · 187.632 )/(29 + 29 − 2) = 170.052 . Finalement le score du test s’écrit p tobs = (1539.62 − 1217.07)/ 170.052 · (29 + 29)/(29 · 29) = 7.22. Le test est unilatéral à droite et on compare le score obtenu avec le quantile t29+29−2 (95%) = 1.67. Comme 7.22 > 1.67 on rejette l’hypothèse nulle. La figure 4.6 illustre le résultat du test.

Figure 4.6 – Zone de rejet et score obtenu pour le test t de Student

Test de Wilcoxon-Mann-Whitney Soient X1 . . . , Xn des variables aléatoires indépendantes identiquement distribuées et Y1 , . . . , Ym également des variables aléatoires indépendantes identiquement distribuées. On veut tester l’hypothèse que FY (y) = FX (x − ∆), c’est-à-dire que les deux variables 36

aléatoires X et Y ont la même distribution à l’exception d’un décalage. L’hypothèse nulle est alors que ∆ = 0. Considérons alors les trois possibilités suivantes H0 : ∆ = 0, H1 : ∆ > 0 et H−1 : ∆ < 0. Si H0 est vraie, alors les deux suites d’observations x1 , . . . , xn et y1 , . . . , ym devraient se chevaucher. Si par contre H1 est vraie, alors les observations y1 , . . . , ym devraient être décalées à droite par rapport aux observations x1 , . . . , xn . L’inverse devrait être le cas si H−1 était vraie. La statistique suivante est la mesure empirique du degré de décalage : U = (nombre des yj < x1 ) + (nombre des yj < x2 ) + · · · + (nombre des yj < xn ). Pour de petites valeurs de U – c’est-à-dire s’il est rare que les observations de deuxième échantillon y1 , . . . , ym soient plus petites que celles du premier échantillon – on devrait décider en faveur de H1 . Par contre pour des grandes valeurs de U on devrait favoriser H−1 . Il est évident que la statistique U n’est rien d’autre que : U = (R1 − 1) + (R2 − 1) + · · · + (Rn − 1) − (0 + 1 + · · · + (n − 1)) U = (R1 + R2 + · · · + Rn ) − n(n + 1)/2 où Ri est le rang de xi dans l’échantillon mélangé. Cette formule découle du fait que le nombre des xi ou yj plus petit que xk est égal à Rk − 1. Mais la statistique U compte uniquement le nombre de yj plus petit que xk , tandis que, comme nous venons de le constater, Rk − 1 compte aussi bien les xi que les yj . Il est facile de corriger en réalisant que le plus petit des xk n’a aucun autre xi plus petit que lui, le deuxième plus petit a exactement un xi plus petit et ainsi de suite. Le test U est dit test de Mann-Whitney. Au lieu de U on prend souvent la statistique équivalente : W = R1 + · · · + Rn , la somme des rangs du premier échantillon dite test de Wilcoxon pour deux échantillons. Ce test, basé uniquement sur les rangs, est non paramétrique. Il est simple de montrer que E(W ) = n(n + m + 1)/2 et Var(W ) = nm(n + m + 1)/12. Approximativement on a que   n(n + m + 1) nm(n + m + 1) , . W ∼N 2 12 Cette approximation est suffisamment bonne si n et m sont plus grands que 10. Pour les valeurs plus petites, il faut consulter une table de la loi exacte de W lorsqu’on veut effectuer ce test (cf. Annexe Tables statistiques. Tab. 4.6) Exemple 4.4 On veut tester que FY (y) = FX (x − ∆) où X est la variable aléatoire représentant les précipitations annuelles à Québec et Y la variable aléatoire représentant les précipitations annuelles à la forêt Montmorency. Comme on suppose que les précipitations à la forêt Montmorency sont supérieures à celle de Québec (effet de l’altitude), on effectue donc le test en posant les hypothèses nulle et alternative suivantes :  H0 : ∆ = 0 H1 : ∆ > 0 La statistique de Wilcoxon correspond à la somme des rangs du premier échantillon. Le tableau ci-dessous présente l’échantillon mélangé trié ainsi que les rangs. Les valeurs en gras indiquent les précipitations à la forêt Montmorency. 37

précipitations 902 988 989 1052 . . . rang 1 2 3 4 ...

1149 1157 . . . 10 11 . . .

1825 1931 57 58

On a que WX = 1 + 2 + 3 + 4 + · · · + 11 + · · · + 36 + 38 + 47 = 501. Comme la taille des échantillons est suffisamment grande, n = m = 29, on peut utiliser l’approximation = −5.5. normale W ∼ N (855.5, 64.402 ). On centre et on réduit la variable z = 501−855.5 64.4 Le test est unilatéral à gauche. On compare donc le score à celui d’une loi normale centrée réduite à 5%. Comme -5.5 k avec k > 1. Si les deux échantillons n−1

ont la même taille n = m, le calcul se simplifie et on obtient : F = 38

s2X . s2Y

Exemple 4.5 On veut tester si les variances des précipitations annuelles à Québec et à la forêt Montmorency sont les mêmes (cf. Tab 1.1.). On a dans ce cas que n = m = 29. Soit X la variable aléatoire représentant les précipitations annuelles à Québec et Y les précipitations annuelles à Montmorency. Un hydrologue nous indique que selon sa connaissance les précipitations à la forêt Montmorency doivent être plus variables que celles de Québec car l’altitude est plus élevée. Nous désirons donc effectuer le test suivant :  2 H0 : σX = σY2 2 2 H1 : σY > σX s2

Comme dans notre cas n = m, la statistique de test se simplifie en F = s2Y . On a que X s2X = 150.442 et s2Y = 187.632 . F est donc égal à 1.55. Comme le test est unilatéral à droite, on compare le score obtenu avec le quantile de la loi F28,28 à 95 %=1.88. Comme 1.55
View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF