Support de Cours L2 Statistiques - Université Nice Sophia Antipolis

January 15, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités

Short Description

Download Support de Cours L2 Statistiques - Université Nice Sophia Antipolis...

Description

Cours Statistiques L2 Université Nice Sophia-Antipolis François Delarue

Table des matières Chapitre 1. Rappels de Probabilités 1. Espaces de probabilité et Variables aléatoires 2. Espérances et variances

5 5 7

Chapitre 2. Modèles Statistiques et Estimateurs. (Rappels de Probabilités.) 1. Notion de Modèle Statistique 2. Notion d’estimateur

11 11 17

Chapitre 3. Utilisation et construction d’Estimateurs. 1. Intervalles et Régions de Confiance 2. Estimation empirique

23 23 27

Chapitre 4. Chapitre 4. Modèles Gaussiens. 1. Rappels : Distribution Gaussienne 2. Construction d’intervalles de confiance pour la moyenne 3. Construction d’intervalle de confiance pour l’écart-type

37 37 39 44

Chapitre 5. Chapitre 5. Tests. 1. Principes 2. Notions générales et autres exemples 3. Tests unilatères

47 47 49 51

3

CHAPITRE 1

Rappels de Probabilités 1. Espaces de probabilité et Variables aléatoires 1.1. Espaces de probabilité. Un espace de probabilité est un triplet (Ω, A, P) modélisant une ou plusieurs expériences : (1) Ω désigne un univers contenant l’ensemble des issues possibles de la ou des expériences. (Dans le cas du lancer de dé, Ω = {1, . . . , 6}2 .) (2) A désigne une collection de parties de Ω, décrivant les événements observables à la suite de la ou des expériences modélisées. (3) P est une mesure de probabilité permettant de mesurer la taille des événements. Exemple 1. (Cas fini.) Lorsque Ω est de cardinal fini, A est usuellement choisie égale à P(Ω). Le cas échéant, P est une mesure de probabilité s’il s’agit d’une application de P(Ω) à valeurs dans [0, 1] vérifiant (1.1)

P(Ω) = 1 et P(A ∪ B) = P(A) + P (B), A ∩ B = ∅.

Exemple 2. (Cas dénombrable.) Lorsque Ω est dénombrable, A est aussi usuellement choisie comme l’ensemble des parties. Par ailleurs, l’axiome (1.5) est renforcé : [ X (1.2) P An = P(An ), Ai ∩ Aj = ∅ si i 6= j. n≥1

n≥1

Exemple 3. (Cas non dénombrable.) Le problème est beaucoup plus compliqué. La collection A est rarement égale à l’ensemble des parties. Elle est supposée contenir Ω, être stable par passage au complémentaie et par réunion dénombrable. Une mesure de probabilité est une application, de A dans [0, 1], vérifiant (1.5) et (1.4). 1.2. Variables aléatoires. Une variable aléatoire permet de décrire une expérience ou un phénomène spécifique. Précisément, il s’agit d’une application de Ω dans R telle que, pour tous a, b ∈ R ∪ {±∞}, les ensembles {ω : X(ω) ∈ (a, b)} (ici, les parenthèses doivent être comprises comme ] ou [) sont dans A, i.e. peuvent êtres mesurés. En pratique, nous noterons {X ∈ (a, b)} au lieu de {ω : X(ω) ∈ (a, b)}. 5

6

La loi d’une variable aléatoire décrit le hasard selon lequel se répartissent les issues de l’expérience considérée. Elle est donnée par l’application PX : (a, b) intervalle de R 7→ P{X ∈ [a, b]}. En pratique, il est fréquent d’oublier de préciser l’espace de probabilité et de se focaliser simplement sur une variable aléatoire de loi donnée. Par exemple, le lancer d’un dé peut être modélisé par une variable aléatoire X de loi 1 PX ({1}) = PX ({2}) = · · · = PX ({6}) = . 6 En effet, lorsque la variable aléatoire est à valeurs discrètes (i.e. a au plus un nombre dénombrables d’images), il est suffisant de calculer les poids avec lesquels elle prend chacune des valeurs. Exemple 1. Le lancer à pile ou face équilibré est modélisé par une variable aléatoire X : Ω → {0, 1} de poids (1/2, 1/2) sur {0, 1}, i.e. 1 PX ({0}) = PX ({1}) = . 2 Lorsque la pièce est supposée déséquilibrée, les poids sont de la forme (1 − p, p), avec p dans ]0, 1[. La loi est appelée loi de Bernoulli de paramètre p. On note X ∼ B(p). Exemple 2. Le nombre d’apparitions d’un phénomène rare sur une très longue période est modélisé par une variable aléatoire X : Ω → N de loi de Poisson de paramètre λ > 0 : ∀k ∈ N, PX ({k}) =

λk exp(−λ). k!

On note X ∼ P(λ). Lorsque la variable aléatoire prend un nombre non dénombrable de valeurs, il ne suffit plus de calculer les poids des singletons pour la connaître. Il est en revanche possible de décrire la loi à travers la donnée d’une fonction de densité, c’est-à-dire d’une fonction continue (ou éventuellement continue par morceaux), positive et d’intégrale sur R égale à 1. Précisément, Définition. Une variable X : Ω → R est dite de loi de densité fX , fX désignant une densité, si Z b ∀a ≤ b, PX {(a, b)} = fX (x)dx. a

(Ici, a et b peuvent être infinis.)

7

Exemple 3. Nous appelons densité gaussienne centrée réduite la fonction 1 x2 x ∈ R 7→ √ exp − . 2 2π Il s’agit en effet d’une fonction (positive) d’intégrale égale à 1. Une variable aléatoire dont la loi est donnée par cette densité est appelée loi gaussienne (ou normale) centrée réduite. Plus généralement, pour deux paramètres m ∈ R et σ > 0, la fonction x ∈ R 7→ √

1 (x − m)2 , exp − σ2 2πσ

est une densité. (Preuve en cours ?) Une variable aléatoire dont la loi est donnée par cette densité est appelée loi gaussienne (ou normale) de paramètres m et σ 2 . On note X ∼ N (m, σ 2 ). En pratique, les variables de loi gaussienne décrivent les erreurs de mesure. 1.3. Fonction de répartition. Définition. Etant donnée une variable aléatoire X, la fonction de répartition de X est la fonction FX : t ∈ R 7→ P{X ≤ t}. La fonction de répartition caractérise la loi de X : deux variables aléatoires de même fonction de répartition ont même loi. Par extension, il est possible de parler de la fonction de répartition d’une loi, sans faire explicitement référence à la variable aléatoire sous-jacente. Exemple 4. La loi exponentielle de paramètre λ > 0 est la loi de densité pλ : x 7→ λ1x≥0 exp(−λx). Sa fonction de répartition est donnée par 1 si t ≤ 0, F : t 7→ 1 − exp(−λt) si t > 0. 2. Espérances et variances 2.1. Espérance d’une variable de Bernoulli. Commençons par rappeler la définition de l’espérance dans le cas d’une variable indicatrice : Définition. Etant donnés un espace de probabilité (Ω, A, P) et un événement A, on appelle indicatrice de A la variable aléatoire 0 si ω 6∈ A, 1A : ω ∈ Ω 7→ 1 si ω ∈ A. Il s’agit d’une variable aléatoire à valeurs dans {0, 1} de loi de Bernoulli de paramètre P(A). Par définition, son espérance, notée E[1A ] est égale à P(A).

8

Cette définition s’interprète facilement au regard de la loi des grands nombres, rappelée plus tard. Expérimentalement, il s’agit de lancer une série de pièces à pile ou face selon un paramètre de succès p. Intuitivement, il est légitime d’espérer que le nombre moyen de succès en temps long soit proche de p : ce nombre moyen de succès s’écrit, en temps n, comme la moyenne empirique n 1X 1Ai , n i=1

où Ai désigne l’événement : le ième lancer est un succès. Cette moyenne empirique apparaît comme un gain moyenné, celui obtenu en ramassant 1 euro à chaque succès. Ici, toutes les variables 1Ai , i ≥ 1, ont même loi : leur gain théorique ou mathématique, ou encore leur espérance mathématique, est posé égal à la limite du gain moyenné au cours du temps, i.e. égal à p. Cette définition, remarquable, consiste à identifier une moyenne au cours du temps avec une moyenne sur un espace. En effet, E[1A ] peut se comprendre comme E[1A ] = 0 × P{1A = 0} + 1 × P{1A = 1}, i.e. comme un barycentre. 2.2. Cas des variables discrètes. Dans le cas des variables aléatoires discrètes (i.e. avec un nombre au plus dénombrable de valeurs), la définition barycentrique demeure : Définition. Etant donnée une variable aléatoire X à valeurs dans un ensemble fini {x1 , . . . , xn }, l’espérance de X est donnée : E(X) =

n X

xi P{X = xi }.

i=1

Lorsque X est à valeurs dans un ensemble dénombrable {(xn ), n ≥ 1}, il est nécessaire de vérifier que la série est convergente, i.e. que le barycentre est bien défini. Pour des raisons un peu techniques, l’espérance n’est considérée comme définie que lorsque la série est absolument convergente (rappelons par exemple que la valeur d’une série semi-convergente est sensible à l’ordre de la sommation, de sorte que la notion de barycentre n’a, le cas échéant, aucun sens canonique). De fait, si X |xn |P{X = xn } < +∞, n≥1

nous posons E(X) =

X

xn P{X = xn }.

n≥1

Remarquons que l’espérance ne dépend que de la loi de la variable aléatoire. (De fait, nous parlerons par extension de l’espérance d’une loi.)

9

Exemple 1. Rappelons que la loi binomiale de paramètres n et p est la loi sur {0, . . . , n} de poids pk = Cnk pk (1 − p)n−k . Alors, l’espérance de la loi binomiale est donnée par np. (Preuve en cours ?) Exemple 2. L’espérance de la loi de Poisson de paramètre λ est λ. Cette notion barycentrique se généralise au cas de la composée d’une variable X et d’une fonction f de R dans R. Proposition. Soient X une variable à valeurs dans un ensemble dénombrable {(xn )n≥1 } et f une fonction de R dans R telle que X

|f (xn )|P{X = xn } < +∞,

n≥1

alors, E[f (X)] =

X

f (xn )P{X = xn }.

n≥1

(La définition se généralise de façon triviale au cas fini.) 2.3. Espérance d’une variable de loi à densité. La définition généralise la notion de barycentre à travers celle d’intégrale. Définition-Proposition. Soit X une variable de loi de densité g (continue ou continue par morceaux) telle que Z |x|g(x)dx < +∞. R

Alors, l’espérance de X est posée égale à Z E(X) = xg(x)dx. R

Plus généralement, si f désigne une fonction de R dans R (continue) telle que Z |f (x)|g(x)dx < +∞. R

Alors, Z E(f (X)) =

f (x)g(x)dx. R

10

2.4. Variance. La variance permet de calculer le carré de la distance à la moyenne : Définition-Proposition. Soit X une variable telle que E(X 2 ) soit bien définie, alors E(X) est bien définie et la variance de X est 2 V(X) = E X − E(X) , terme également bien défini.

CHAPITRE 2

Modèles Statistiques et Estimateurs. (Rappels de Probabilités.) 1. Notion de Modèle Statistique 1.1. Exemples de problématique. Problème 1. Un fabricant de lampes électriques souhaite tester la qualité d’un nouveau produit, que ses ingénieurs viennent de mettre au point, et vise plus particulièrement à en étudier la durée de vie. Pour cela, il sélectionne, au hasard, 100 de ces lampes électriques, et les branche en "parallèle" sur un circuit électrique. Il obtient un 100-uplet (t1 , ..., t100 ) résumant les durées de vie de chacune des ampoules, de la première (par exemple, celle montée le plus à gauche du circuit) à la dernière (dans notre exemple, celle montée le plus à droite). Problème 2. Un fabricant de CD vierges décide de mener une étude de qualité de ses produits, visant à déterminer la proportion de CD défectueux à la sortie de la chaîne de fabrication. Il propose pour cela de tester, au hasard, un millier de CD issus de son usine et de consigner les résultats sous la forme d’un 1000-uplet (ε1 , . . . , ε1000 ) à valeurs dans {0, 1}, 0 signifiant la défectuosité du CD testé et 1 son aptitude à la vente. Ces deux problèmes, en apparence différents, soulèvent en réalité des questions et des enjeux similaires : (1) Dans les deux cas, l’objectif consiste, au moins pour partie, à estimer une quantité d’intérêt : durée de vie de l’ampoule dans le premier problème et proportion de produits défectueux dans le deuxième. (2) Dans les deux cas, l’estimation est envisagée à partir de l’observation d’une partie de la population et non de sa totalité, ou dit autrement, d’un échantillon de la population. (3) Dans les deux cas, l’observation de la population est non seulement susceptible de permettre d’estimer les quantités d’intérêt mais aussi de participer à une aide à la décision : il peut par exemple s’agir de décider si l’ampoule mise au point répond ou non à un cahier des 11

12

charges préalablement établi ou si la fiabilité de la chaîne de production est à la hauteur du plan de développement de l’usine. Dans ces deux cas, l’aide à la décision s’apparente à une forme de test d’une hypothèse initiale, validant un acquis (“l’ampoule est conforme au cahier des charges” ou “la chaîne de production est suffisamment fiable”), contre une hypothèse alternative, aux conséquences éventuellement lourdes (remise en cause du produit ou de la chaîne de fabrication). La théorie des statistiques vise à donner un cadre rigoureux permettant à la fois de formaliser les expériences pratiques, de préciser la qualité des estimations effectuées à l’issue des expériences et enfin de suggérer des tests favorisant la prise de décision. 1.2. Modélisation de l’expérience. Dans les deux problèmes proposés, l’expérience repose sur l’observation de phénomènes aléatoires comme la durée de vie d’une ampoule ou la qualité d’un CD à l’issue de la chaîne de production. Il s’agit de fait de proposer un cadre rigoureux permettant de décrire l’expérience. (En l’espèce, l’expérience ici peut être comprise comme une famille d’expériences : il s’agit par exemple de mesurer la durée de chacune des ampoules.) En probabilité, la modélisation d’une famille d’expériences s’appuie sur la notion d’espace de probabilité. Un espace de probabilité est un triplet (Ω, A, P) modélisant une ou plusieurs expériences : (1) Ω désigne un univers contenant l’ensemble des issues possibles de la ou des expériences. (Dans le cas du lancer de dé, Ω = {1, . . . , 6}2 .) (2) A désigne une collection de parties de Ω, décrivant les événements observables à la suite de la ou des expériences modélisées. (3) P est une mesure de probabilité permettant de mesurer la taille des événements. Exemple 1. (Cas fini.) Lorsque Ω est de cardinal fini, A est usuellement choisie égale à P(Ω). Le cas échéant, P est une mesure de probabilité s’il s’agit d’une application de P(Ω) à valeurs dans [0, 1] vérifiant (1.3)

P(Ω) = 1 et P(A ∪ B) = P(A) + P (B), A ∩ B = ∅.

Exemple 2. (Cas dénombrable.) Lorsque Ω est dénombrable, A est aussi usuellement choisie comme l’ensemble des parties. Par ailleurs, l’axiome (1.5) est renforcé : [ X (1.4) P An = P(An ), Ai ∩ Aj = ∅ si i 6= j. n≥1

n≥1

13

Exemple 3. (Cas non dénombrable.) Le problème est beaucoup plus compliqué. La collection A est rarement égale à l’ensemble des parties. Elle est supposée contenir Ω, être stable par passage au complémentaire et par réunion dénombrable. Une mesure de probabilité est une application, de A dans [0, 1], vérifiant (1.5) et (1.4). 1.3. Description d’une observation (ou d’une expérience spécifique). Répétons-le si nécessaire : l’espace de probabilité donne un cadre rigoureux à la modélisation d’une famille d’expériences. En pratique, il peut être nécessaire de décrire, par un objet mathématique précis, une expérience donnée ou une observation spécifique réalisée au cours du processus expérimental : par exemple, il peut s’agir de décrire la durée de vie de la 55ème ampoule testée ou la qualité du 434ème produit tiré au hasard. En probabilités, la description d’un trait ou d’une expérience spécifique s’appuie sur la notion de variable aléatoire. Précisément, une variable aléatoire est une application de Ω dans R telle que, pour tous a, b ∈ R ∪ {±∞}, les ensembles {ω : X(ω) ∈ (a, b)} (ici, les parenthèses doivent être comprises comme ] ou [) sont dans A, i.e. peuvent êtres mesurés. En pratique, nous noterons {X ∈ (a, b)} au lieu de {ω : X(ω) ∈ (a, b)}. La loi d’une variable aléatoire décrit le hasard selon lequel se répartissent les issues de l’expérience considérée. Elle est donnée par l’application PX : (a, b) intervalle de R 7→ P{X ∈ [a, b]}. En pratique, il est également fréquent d’oublier de préciser l’espace de probabilité et de se focaliser simplement sur une variable aléatoire de loi donnée. Par exemple, le lancer d’un dé peut être modélisé par une variable aléatoire X de loi 1 PX ({1}) = PX ({2}) = · · · = PX ({6}) = . 6 Au passage, cet exemple rappelle que, lorsque la variable aléatoire est à valeurs discrètes (i.e. a au plus un nombre dénombrables d’images), il est suffisant de calculer les poids avec lesquels elle prend chacune des valeurs. Exemple 4. Le lancer à pile ou face équilibré est modélisé par une variable aléatoire X : Ω → {0, 1} de poids (1/2, 1/2) sur {0, 1}, i.e. 1 PX ({0}) = PX ({1}) = . 2 Lorsque la pièce est supposée déséquilibrée, les poids sont de la forme (1 − p, p), avec p dans ]0, 1[. La loi est appelée loi de Bernoulli de paramètre p. On note X ∼ B(p). Exemple 5. Le nombre d’apparitions d’un phénomène rare sur une très longue période est modélisé par une variable aléatoire X : Ω → N de loi de

14

Poisson de paramètre λ > 0 : ∀k ∈ N, PX ({k}) =

λk exp(−λ). k!

On note X ∼ P(λ). Lorsque la variable aléatoire prend un nombre non dénombrable de valeurs, il ne suffit plus de calculer les poids des singletons pour la connaître. Il est en revanche possible de décrire la loi à travers la donnée d’une fonction de densité, c’est-à-dire d’une fonction continue (ou éventuellement continue par morceaux), positive et d’intégrale sur R égale à 1. Précisément, Définition 1. Une variable X : Ω → R est dite de loi de densité fX , fX désignant une densité, si Z b fX (x)dx. ∀a ≤ b, PX {(a, b)} = a

(Ici, a et b peuvent être infinis.) Exemple 6. Nous appelons densité gaussienne centrée réduite la fonction 1 x2 x ∈ R 7→ √ exp − . 2 2π Il s’agit en effet d’une fonction (positive) d’intégrale égale à 1. Une variable aléatoire dont la loi est donnée par cette densité est appelée loi gaussienne (ou normale) centrée réduite. Plus généralement, pour deux paramètres m ∈ R et σ > 0, la fonction x ∈ R 7→ √

(x − m)2 1 exp − , σ2 2πσ

est une densité. (Preuve en cours ?) Une variable aléatoire dont la loi est donnée par cette densité est appelée loi gaussienne (ou normale) de paramètres m et σ 2 . On note X ∼ N (m, σ 2 ). En pratique, les variables de loi gaussienne décrivent les erreurs de mesure. Rappelons enfin que la loi d’une variable aléatoire peut être résumée par : Définition 2. Etant donnée une variable aléatoire X, la fonction de répartition de X est la fonction FX : t ∈ R 7→ P{X ≤ t}. La fonction de répartition caractérise la loi de X : deux variables aléatoires de même fonction de répartition ont même loi. Par extension, il est possible

15

de parler de la fonction de répartition d’une loi, sans faire explicitement référence à la variable aléatoire sous-jacente. Exemple 7. La loi exponentielle de paramètre λ > 0 est la loi de densité pλ : x 7→ λ1x>0 exp(−λx). Sa fonction de répartition est donnée par 0 si t ≤ 0, F : t 7→ 1 − exp(−λt) si t > 0. 1.4. Modèle statistique. Nous avons maintenant (presque) tous les outils pour modéliser les procédures expérimentales 1 et 2 introduites en début de chapitre. Dans le premier problème, nous comprenons que les mesures des durées de vie des 100 ampoules testées sont à représenter par les valeurs de 100 variables aléatoires T1 , . . . , T100 . Autrement dit, si le 100-uplet (t1 , . . . , t100 ) désigne les valeurs expérimentales consignées à l’issue du processus de mesure, nous écrivons (t1 , . . . , t100 ) comme la réalisation de (T1 , . . . , T100 ) pour une issue ω du hasard (ou encore pour une issue de la famille d’expériences), i.e. (t1 , . . . , t100 ) = (T1 (ω), . . . , T100 (ω)). Les ampoules testées résultant du même schéma de fabrication, il est légitime de supposer que le hasard régissant leurs durées de vie se distribue en réalité de la même façon pour chacune. Autrement dit, nous supposons que les variables aléatoires T1 , . . . , T100 ont même loi. Enfin, avant même d’avoir rappelé la notion d’indépendance de variables aléatoires, nous comprenons que, les ampoules ayant été choisies au hasard, leurs durées de vie sont indépendantes. Un raisonnement similaire permettrait de modéliser les observations (ε1 , . . . , ε1000 ) du contrôle qualité à l’aide de 1000 variables (E1 , . . . , E1000 ) indépendantes et, plus spécifiquement, d’écrire (ε1 , . . . , ε1000 ) comme (E1 (ω), . . . , E1000 (ω)), pour une issue ω ∈ Ω. Avons-nous tout dit ? Non, il reste le plus important : choisir la probabilité P. Ou, de façon différente : choisir la loi de T1 , . . . , T100 ou de E1 , . . . , E1000 . Par exemple, dans le cas du contrôle qualité, nous comprenons que chacune des variables aléatoires suit une loi de Bernoulli. En revanche, nous sommes incapables de dire quelle est la valeur du paramètre : le paramètre de la Bernoulli décrit exactement la proportion d’objets non-défectueux dans la population, que l’expérience vise justement à estimer. Nous sommes de fait réduits à choisir P parmi une famille de mesures de probabilité, indexée par la valeur inconnue du paramètre p ∈ [0, 1].

16

Concernant la durée de vie des ampoules, le problème est un peu plus compliqué : à première vue, aucune famille de lois ne s’impose aussi facilement que dans le cas du contrôle qualité. En fait, il est de coutume de modéliser la durée de vie d’une ampoule (ou plus généralement d’un composant électronique) par une loi exponentielle. Mais, là encore, nous sommes incapables de dire quelle est la valeur du paramètre de la loi exponentielle régissant le modèle : la connaissance du paramètre implique la connaissance de la durée de vie moyenne, que l’expérience vise justement à estimer. A nouveau, nous sommes de fait réduits à choisir P parmi une famille de mesures de probabilité, indexée par la valeur inconnue du paramètre de la loi exponentielle, à valeurs dans ]0, +∞[. Définition 3. Un modèle statistique paramétré est une famille d’espaces de probabilité (Ω, A, Pθ )θ∈Θ où θ est un paramètre évoluant dans un intervalle Θ (ou plus généralement dans un ouvert ou un fermé de Rd , d ≥ 1). Ici, Ω décrit les issues possibles d’une “grosse” expérience, A les événements observables à l’issue de cette “grosse” expérience et Pθ une mesure susceptible de décrire la réalité, mais susceptible seulement. (En réalité, une mesure au moins est supposée décrire la réalité.) Définition 4. Un modèle statistique échantillonné de taille n et de lois (µθ )θ∈Θ , où µθ est une loi de probabilité (discrète ou à densité) pour chaque θ, est un modèle statistique de la forme (Ω, A, Pθ )θ∈Θ , muni de n applications X1 , . . . , Xn , telles que : (1) X1 , . . . , Xn sont des variables aléatoires, (2) pour chaque θ, X1 , . . . , Xn sont indépendantes sous Pθ (3) pour chaque θ et pour chaque i ∈ {1, . . . , n}, la loi de Xi sous Pθ est µθ . Exemple 8. Dans le cas de la fabrication d’ampoules, n vaut 100, Θ peut être choisi comme ]0, +∞[ et µθ comme la loi exponentielle de paramètre θ. Exemple 9. Dans le cas du contrôle qualité, n vaut 1000, Θ peut être choisi comme {0, 1} et µθ comme la loi de Bernoulli de paramètre θ. Notations. Un modèle statistique échantillonné de taille n et de lois (µθ )θ∈Θ est noté, de façon générique, sous la forme (Rn , Pθ = µ⊗n θ )θ∈Θ . Répétons-le : cette notation signifie que sont effectuées n observations, dans des conditions indépendantes, d’un phénomène dont la loi est un élément de la famille (µθ )θ∈Θ . Proposition 1. Etant donnée une famille de lois (µθ )θ∈Θ , nous admettons l’existence d’un modèle statistique échantillonné de taille n.

17

Définition 5. Un modèle statistique échantillonné est dit identifiable si l’application θ ∈ Θ 7→ µθ est injective, i.e. µθ = µθ 0 ⇒ θ = θ 0 . (Faire en cours l’exemple de la Bernoulli.) 2. Notion d’estimateur 2.1. Statistique. En statistique, la notion de variable aléatoire est en réalité remplacée par celle de statistique : il s’agit d’un changement de vocabulaire permettant d’insister sur la multiplicité des mesures de probabilité sous-jacentes. Définition 6. Etant donné un modèle statistique de la forme (Ω, A, Pθ )θ∈Θ , une statistique est une application de Ω dans R telle que, pour tout a ≤ b, l’image réciproque {X ∈ (a, b)} (avec la même convention que précédemment sur l’ouverture et la fermeture des bornes) soit dans A. Insistons : il n’y a pas de différence, à proprement parler, avec une variable aléatoire. Le vocabulaire indique simplement la présence d’une structure statistique à la différence d’un modèle probabiliste sur lequel est fixée la mesure de probabilité. 2.2. Estimateurs. Ici, nous considérons un modèle statistique paramétré par un paramètre θ évoluant dans un intervalle Θ de R ou, plus généralement, dans un ouvert ou dans un fermé de Rd , d ≥ 1. En pratique, il s’agit d’estimer le paramètre θ ou une fonction de θ, i.e. une quantité de la forme g(θ), avec g : Θ → Rn . Par exemple, dans le modèle échantillonné (R100 , Exp⊗100 (λ)) permettant de modéliser l’estimation de la durée de vie des ampoules testées, la quantité d’intérêt est la fonction g(λ) = 1/λ, où λ > 0. En effet, nous savons que l’espérance d’une loi exponentielle est 1/λ. (Ce point sera rappelé très bientôt.) Nous introduisons donc la définition : Définition 7. Etant donné un modèle statistique paramétré (Ω, A, Pθ )θ∈Θ est une fonction g : Θ → Rn (continue ou continue par morceaux), un estimateur de g(θ) est une statistique à valeurs dans Rn . Attention : un estimateur ne doit pas dépendre de θ ! Exemple 10. Le problème de qualité introduit en début de chapitre est modélisé par un modèle échantillonné de la forme (R1000 , Ber⊗1000 (p))p∈[0,1] . Il s’agit d’une notation pour indiquer la donnée d’un modèle statistique (Ω, A, Pp )p∈[0,1] muni de 1000 statistiques (Ei )1≤i≤1000 à valeurs dans {0, 1},

18

telles que, sous chaque Pp , les variables E1 , . . . , E1000 soient indépendantes et de même loi de Bernoulli de paramètre p. Un estimateur du paramètre p est une statistique (indépendante de p) à valeurs dans R. Naturellement, l’estimateur est recherché comme une fonction des statistiques d’observation E1 , . . . , E1000 . Par exemple, cela peut être E1 , E1 + E2 , E1 × E2 . Mais, cela ne peut être ni p, ni E1 + p . . . Exemple 11. Le problème de durée de vie est quant-à lui modélisé par un modèle échantillonné de la forme (R100 , Exp⊗100 (λ))λ>0 . Cela signifie que nous nous sommes donné un modèle statistique (Ω, A, Pλ )λ>0 muni de 100 statistiques (Ti )1≤i≤100 à valeurs dans R∗+ , telles que, sous chaque Pλ , les variables T1 , . . . , T100 soient indépendantes et de même loi exponentielle de paramètre λ. Un estimateur du paramètre λ est une statistique (indépendante de λ) à valeurs dans R. Là encore, l’estimateur est recherché comme une fonction des statistiques d’observation T1 , . . . , T100 . Par exemple, cela peut être T1 , 1/(T1 +· · ·+T100 ). Mais, cela ne peut être ni λ, ni max(λ, T100 ). . . 2.3. Intégrabilité des estimateurs : exemple de critères de choix. La définition donnée en introduction est, d’apparence, un peu trop large : aucun critère, outre celui de la dimension, n’est imposé à l’estimateur... Un estimateur de g(θ) peut, de fait, être très différent de g(θ). Une première façon de restreindre la classe d’estimateurs consiste à se focaliser sur ceux, qui en moyenne, se comportent comme g(θ). Pour cela, il est nécessaire de pouvoir effectivement calculer des moyennes : Définition 8. Etant donné un modèle statistique (Ω, A, Pθ )θ∈Θ , une statistique S est dite intégrable si ∀θ ∈ Θ, Eθ [|S|] < +∞. En particulier, étant donné une quantité d’intérêt g(θ) à estimer (g à valeurs dans R) et un estimateur X, X est dit sans biais s’il est intégrable et ∀θ ∈ Θ, Eθ [X] = g(θ). Afin de donner des exemples, nous rappelons quelques éléments de la théorie des probabilités sur la notion d’espérance. 2.4. Espérance d’une variable de Bernoulli. Commençons par rappeler la définition de l’espérance dans le cas d’une variable indicatrice : Définition 9. Etant donnés un espace de probabilité (Ω, A, P) et un événement A, on appelle indicatrice de A la variable aléatoire 0 si ω 6∈ A, 1A : ω ∈ Ω 7→ 1 si ω ∈ A.

19

Il s’agit d’une variable aléatoire à valeurs dans {0, 1} de loi de Bernoulli de paramètre P(A). Par définition, son espérance, notée E[1A ] est égale à P(A). Cette définition s’interprète facilement au regard de la loi des grands nombres, rappelée plus tard. Expérimentalement, il s’agit de lancer une série de pièces à pile ou face selon un paramètre de succès p. Intuitivement, il est légitime d’espérer que le nombre moyen de succès en temps long soit proche de p : ce nombre moyen de succès s’écrit, en temps n, comme la moyenne empirique n 1X 1Ai , n i=1

où Ai désigne l’événement : le ième lancer est un succès. Cette moyenne empirique apparaît comme un gain moyenné, celui obtenu en ramassant 1 euro à chaque succès. Ici, toutes les variables 1Ai , i ≥ 1, ont même loi : leur gain théorique ou mathématique, ou encore leur espérance mathématique, est posé égal à la limite du gain moyenné au cours du temps, i.e. égal à p. Cette définition, remarquable, consiste à identifier une moyenne au cours du temps avec une moyenne sur un espace. En effet, E[1A ] peut se comprendre comme E[1A ] = 0 × P{1A = 0} + 1 × P{1A = 1}, i.e. comme un barycentre. 2.5. Cas des variables discrètes. Dans le cas des variables aléatoires discrètes (i.e. avec un nombre au plus dénombrable de valeurs), la définition barycentrique demeure : Définition 10. Etant donnée une variable aléatoire X à valeurs dans un ensemble fini {x1 , . . . , xn }, l’espérance de X est donnée : E(X) =

n X

xi P{X = xi }.

i=1

Lorsque X est à valeurs dans un ensemble dénombrable {(xn ), n ≥ 1}, il est nécessaire de vérifier que la série est convergente, i.e. que le barycentre est bien défini. Pour des raisons un peu techniques, l’espérance n’est considérée comme définie que lorsque la série est absolument convergente (rappelons par exemple que la valeur d’une série semi-convergente est sensible à l’ordre de la sommation, de sorte que la notion de barycentre n’a, le cas échéant, aucun sens canonique). De fait, si X |xn |P{X = xn } < +∞, n≥1

20

nous posons E(X) =

X

xn P{X = xn }.

n≥1

Remarquons que l’espérance ne dépend que de la loi de la variable aléatoire. (De fait, nous parlerons par extension de l’espérance d’une loi.) Exemple 12. Rappelons que la loi binomiale de paramètres n et p est la loi sur {0, . . . , n} de poids pk = Cnk pk (1 − p)n−k . Alors, l’espérance de la loi binomiale est donnée par np. (Preuve en cours ?) Exemple 13. L’espérance de la loi de Poisson de paramètre λ est λ. Cette notion barycentrique se généralise au cas de la composée d’une variable X et d’une fonction f de R dans R. Proposition 2. Soient X une variable à valeurs dans un ensemble dénombrable {(xn )n≥1 } et f une fonction de R dans R telle que X |f (xn )|P{X = xn } < +∞, n≥1

alors, E[f (X)] =

X

f (xn )P{X = xn }.

n≥1

(La définition se généralise de façon triviale au cas fini.) 2.6. Espérance d’une variable de loi à densité. La définition généralise la notion de barycentre à travers celle d’intégrale. Définition-Proposition 1. Soit X une variable de loi de densité g (continue ou continue par morceaux) telle que Z |x|g(x)dx < +∞. R

Alors, l’espérance de X est posée égale à Z E(X) = xg(x)dx. R

Plus généralement, si f désigne une fonction de R dans R (continue) telle que Z |f (x)|g(x)dx < +∞. R

Alors, Z E(f (X)) =

f (x)g(x)dx. R

21

2.7. Variance : vers la notion de risque. La variance permet de calculer le carré de la distance à la moyenne : Définition-Proposition 2. Soit X une variable telle que E(X 2 ) soit bien définie, alors E(X) est bien définie et la variance de X est 2 V(X) = E X − E(X) , terme également bien défini. L’intérêt statistique de cette notion est aisément compréhensible. Pour un estimateur sans biais, la variance s’apparente à un risque et permet de mesurer l’écart entre l’estimateur et la quantité d’intérêt. Définition 11. Etant donnés un modèle statistique (Ω, A, Pθ )θ∈Θ et une fonction g du paramètre θ, le risque quadratique d’un estimateur sans biais T de g(θ) est donné par R(θ) = Vθ (T ) = Eθ |T − Eθ (T )|2 = Eθ |T − g(θ)|2 . En particulier, l’estimateur sans biais T de g(θ) est dit de moindre risque quadratique que un autre estimateur sans biais T 0 si ∀θ ∈ Θ, Vθ (T ) ≤ Vθ (T 0 ).

CHAPITRE 3

Utilisation et construction d’Estimateurs. Dans le chapitre précédent, nous avons introduit la notion d’estimateurs ainsi que deux règles de choix, l’une fondée sur le biais, l’autre sur le risque. Dans ce chapitre, nous cherchons : (1) A illustrer l’utililisation des estimateurs, particulièrement ceux répondant aux deux critères de choix que nous venons de rappeler, (2) à donner quelques principaux généraux de construction d’estimateurs pertinents.

1. Intervalles et Régions de Confiance 1.1. Position du problème. Dans le Chapitre 1, nous avons appuyé l’introduction des modèles statistiques sur deux problèmes pratiques : (1) Un modèle d’étude de la durée de vie d’une ampoule électrique, fondé sur l’observation de 100 expériences et modélisé par le modèle échantillonné Ω, Exp⊗100 (λ) λ>0 . (2) Un modèle d’étude du contrôle de la qualité d’une chaîne de fabrication, fondé sur l’observation de 1000 produits fabriqués et modélisé par le modèle échantillonné Ω, Ber⊗1000 (p) p∈]0,1[ . Plusieurs estimateurs ont été proposés pour chacun de ces deux modèles. Par exemple, il a été montré que la statistique canonique Xi (modélisant l’observation numéro i) est un, dans le premier cas, un estimateur sans biais de 1/λ et, dans le deuxième cas, un est un estimateur sans biais de p. Nous pouvons également calculer le risque quadratique dans chacun des deux cas. 23

24

Dans le premier cas, nous écrivons, pour λ > 0, Eλ (Xi − λ−1 )2 = Vλ (Xi ) Z +∞ x2 exp(−λx)dx − λ−2 =λ 0 Z +∞ 2 +∞ x exp(−λx)dx − λ−2 = −x exp(−λx) 0 + 2 0

= λ−2 . Dans le deuxième cas, nous écrivons, sur le même modèle : Ep (Xi − p)2 = p(1 − p). Chacune de ces quantités donne une information sur le risque liée à l’estimation de la quantité d’intérêt à l’aide d’une (et d’une seule) observation. Cette information peut néanmoins paraître quelque peu abstraite. Nous allons essayer d’en déduire une estimation « parlante » du paramètre à estimer. 1.2. Utilisation de l’inégalité de Bienaymé-Chebychev. Nous commençons par rappeler Lemme. (Inégalité de Bienaymé-Chebychev.) Soient (Ω, A, P) un espace de probabilité et X une variable aléatoire de carré intégrable. Alors, en notant m = E(X) et σ 2 = V(X), σ2 P |X − m| ≥ a ≤ 2 . a Commentons : l’inégalité de Bienaymé-Chebychev relie les déviations de la variable aléatoire à sa moyenne à l’aide de la variance. Naturellement, plus l’estimation de la probabilité d’observer une déviation donnée est d’autant plus petite que la déviation considérée est grande. Soulignons également combien il est naturel de s’appuyer sur la variance pour estimer les probabilités de dévitation à la moyenne : la variance quantifie justement l’écart entre les valeurs d’une variable aléatoire et sa moyenne. ∀a > 0,

Preuve. Nous appelons A l’événement A = {|X − m| > a}. Alors, nous remarquons que la variable aléatoire 1A est toujours plus petite que a−2 |X − m|2 . En effet, sur A, a−2 |X − m|2 ≥ 1. L’espérance de 1A est donc plus petite que celle de a−2 |X − m|2 . Que nous apprend l’estimation de Bienaymé-Chebychev sur chacun des deux modèles introduits dans le Chapitre 1 ? Pour le premier, rappelons que, pour tout numéro d’observation i, ∀λ > 0, Eλ [Xi ] = λ−1 .

25

De fait, en utilisant le calcul effectué précédemment, il vient ∀λ > 0, ∀a > 0, Pλ |Xi − λ−1 | ≥ a ≤ 2λ−2 a−2 . Tournons-nous vers le second modèle. De façon similaire, pour tout numéro d’observation i ∀p ∈]0, 1[, ∀a > 0, Pp |Xi − p| ≥ a ≤ p(1 − p)a−2 . Comment comprendre ces deux estimations : (1) Dans le premier cas, nous comprenons que la probabilité d’observer une durée de vie loin de λ−1 est d’autant plus petite que λ est grand. Malheureusement, pour λ petit, l’estimation peut ne rien nous apporter : par exemple pour a > λ, l’estimation se réduit à une majoration par 2 d’une quantité inférieure à 1. (2) Le deuxième cas est un peu différent. Certes le membre de droite dépend à nouveau du paramètre, malheureusement inconnu, mais il est possible de le majorer uniformément. En effet, simple étude de fonction montre que (1.5)

1 ∀p ∈]0, 1[, p(1 − p) ≤ . 4

A priori, nous sommes donc contraints à distinguer les deux cas, le second paraissant plus favorable. (Insistons : il serait stupide de conserver le paramètre d’intérêt dans le membre de droite. Il est en effet inconnu !) 1.3. Intervalles de confiance. Continuous l’étude du deuxième cas en injectant la borne (1.5). Nous obtenons 1 ∀p ∈]0, 1[, ∀a > 0, Pp |Xi − p| ≥ a ≤ 2 . 4a Bien que cette majoration soit moins bonne que la précédente (en raison du remplacement de p(1 − p) par 1/4), nous comprenons combien elle est plus satisfaisante que la précédente du point de vue de l’estimation. La déviation a étant fixée, nous sommes en effet capables de majorer, indépendamment du paramètre, la probabilité que l’observation soit à distance supérieure à a du paramètre. Par exemple, si a = .7, nous obtenons 1 ∀p ∈]0, 1[, Pp |Xi − p| > .7 ≤ ≈ 0.51 ≤ 0.52. 4 ∗ .72 Nous en déduisons, qu’avec probabilité supérieure à 0.48, l’observation est à distance inférieure à 0.7 du paramètre. En réalité, l’observation étant inconnue et l’observation l’étant, nous préférerons dire que le paramètre est à distance inférieure à 0.7 de l’observation avec probabilité supérieure à 0.48.

26

Par la suite, si xi désigne l’observation effectuée pour la variable Xi , nous dirons que l’intervalle ]xi − .7, xi + .7[ est un intervalle de confiance de niveau supérieur à .48 pour le paramètre p. Naturellement, nous pouvons faire le niveau de confiance. Si ε désigne un réel dans ]0, 1[ et si nous cherchons a > 0 tel que 1 = ε, 4a2 nous obtenons

1 . 2ε1/2 Avec le même vocabulaire que précédemment, nous en déduisons que l’intervalle ]xi − 2ε11/2 , xi + 2ε11/2 [ est un intervalle de confiance pour le paramètre p de niveau de confiance supérieur à 1 − ε. Remarquons que cet intervalle peut ne pas être pertinent : par exemple, si ε = .25, alors ε1/2 = .5 et l’intervalle est de la forme ]xi − 1, xi + 1[. Le résultat est de fait totalement inintéressant : puisque ]0, 1[ est inclus dans ]xi − 1, xi + 1[, nous savons déjà que le paramètre p est dans ]xi − 1, xi + 1[. Nous comprendrons par la suite que l’estimation donnée ici est de mauvaise qualité car fondée sur une seule observation. Néanmoins, nous pouvons donner la définition : a=

Définition. Soient (Ω, A, Pθ )θ∈Θ un modèle statistique, g(θ) une fonction (réelle) du paramètre θ à estimer, et S1 et S2 deux statistiques et α un réel entre 0 et 1. Si s1 et s2 désignent les valeur observées pour S1 et S2 , alors l’intervalle ]s1 , s2 [ est appelé intervalle de confiance pour g(θ) de niveau de confiance égal (respectivement supérieur) à α si ∀θ ∈ Θ, Pθ S1 < g(θ) < S2 = (resp. ≥)α. 1.4. Retour sur la première expérience. Comment obtenir un intervalle de confiance dans la première expérience ? Il suffit par exemple de choisir a de la forme aλ−1 . Alors, ∀λ > 0, Pλ |Xi − λ−1 | ≥ aλ−1 ≤ 2a−2 . De fait, ∀λ > 0,

Pλ |λXi − 1| ≥ a ≤ 2a−2 .

−2 Fixons p maintenant un niveau α et cherchons a tel que 2a = 1 − α. Il vient a = 2/(1 − α). Pour un tel choix de a, nous avons ∀λ > 0, Pλ |λXi − 1| < a ≥ α,

i.e. ∀λ > 0,

p Pλ |λXi − 1| < 2/(1 − α) ≥ α.

27

En se rappelant que les valeurs de Xi sont toujours strictement positives, nous pouvons encore écrire p ∀λ > 0, Pλ |λ − 1/Xi | < 2/(1 − α)/Xi ≥ α. p p Ici, S1 = 1/Xi − 2/(1 − α)/Xi et pS2 = 1/Xi + 2/(1 − α)/Xi . En fait, nous remarquons que 2/(1 − α) ≥ 1 de sorte que la borne du dessous n’a pas d’intérêt. (Nous pouvons tout aussi bien choisir S1 = 0.) 1.5. Introduction aux régions de confiance. Lorsque la fonction g du paramètre θ est à valeurs dans Rd , avec d ≥ 2, l’expression « intervalle de confiance » est remplacée par « région de confiance ». Voici un exemple : Définition. Soient (Ω, A, Pθ )θ∈Θ un modèle statistique, g(θ) une fonction du paramètre θ à valeurs dans R2 à estimer, et S1 , S2 et S3 trois statistiques, S3 à valeurs positives, et α un réel entre 0 et 1. Si s1 , s2 et s3 désignent les valeur observées pour S1 , S2 et S3 , alors la boule de centre (s1 , s2 ) et de rayon s3 est appelée boule de confiance pour g(θ) de niveau de confiance égal (respectivement supérieur) à α si ∀θ ∈ Θ, Pθ kg(θ) − (S1 , S2 )k < S3 = (resp. ≥)α. (Ici, k · k désigne la norme euclidienne.) 2. Estimation empirique Dans les deux exemples précédents, nous avons souligné la faible qualité des intervalles de confiance construits à partir d’une seule observation. Cet ecueil est aisément compréhensible : la connaissance du modèle étudié ne peut être que limitée lorsque fondée sur une seule expérience ; naturellement, il est à espérer qu’elle se bonifie avec la répétition de l’expérience. En statistiques, l’estimation porte le nom d’« empirique »lorsqu’appuyée sur la répétition d’une même expérience, dans des conditions similaires et indépendantes. En réalité, l’utilisation d’une même expérience, mais répétée dans des conditions similaires et indépendantes, fait l’objet de plusieurs résultats de probabilité à connaître : loi des grands nombres et théorème central limite. 2.1. Loi des grands nombres. La loi des grands nombres traduit, sous forme mathématique, le principe rappelé ci-dessus : la répétition de l’expérience conduit à la connaissance. Théorème. Soit (Ω, A, P) un espace de probabilité et X1 , . . . , Xn n variables aléatoires indépendantes de même loi, supposée intégrable et de carré intégrable. Alors, en désignant par m et par σ 2 sa moyenne et sa variance,

28

il vient ∀a > 0,

n X σ2 P n−1 Xi − m| ≥ a ≤ 2 . a n i=1

La preuve est une simple conséquence de l’inégalité de Bienaymé-Chebychev et du lemme suivant : Lemme. Soit (Ω, A, P) un espace de probabilité et X1 , . . . , Xn n variables aléatoires indépendantes de même loi, supposée intégrable et de carré intégrable. Alors, la variance de la somme des X1 , . . . , Xn est égale à la somme des variances. P Notation. Usuellement, la quantité n−1 ni=1 Xi est appelée moyenne ¯n. empirique et notée X Commentaire. Commentons le résultat : n désigne ici le nombre d’expériences considérées. Lorsque n tend vers l’infini, nous observons que le membre de droite tend vers 0. Autrement dit, la probabilité que la moyenne ¯ n soit éloignée de plus de a de la moyenne m tend vers 0 quand empirique X ¯ n tend vers m en probabilité lorsque n tend vers l’infini : nous dirons que X n tend vers l’infini. En fait, nous pouvons même donner une estimation de la grandeur typique ¯ n et m. Choisissons en effet a de la forme aσn−1/2 , il vient entre X ¯ n − m| ≥ an−1/2 σ ≤ 1 . ∀a > 0, P X a2 Autrement dit, pour a de l’ordre de 10, la probabilité que la moyenne empirique et la vraie moyenne se trouve à une distance supérieure à 10n−1/2 σ est inférieure à .01. Extensions. En réalité, il est possible d’étendre l’application de la loi des grands nombres à aux variables f (X1 ), . . . , f (Xn ) pour une fonction f de R dans lui-même (par exemple continue). En effet, l’indépendance et l’indentique distribution sont conservées par composition par une même fonction : de fait, si f est intégrable et de carré intégrable sous la loi commune de X1 , . . . , Xn , nous pouvons affirmer ∀a > 0,

n X σf2 P n−1 f (Xi ) − mf | ≥ a ≤ 2 , a n i=1

où mf désigne E[f (X1 )] et σf2 désigne V[f (X1 )]. 2.2. Utilisation en statistiques. L’estimation empirique s’appuie sur la donnée d’un modèle échantillonné. Supposons de fait que (Ω, A, µ⊗n θ )θ∈Θ soit un modèle échantillonné de taille n et de lois (µθ )θ∈Θ muni de statistiques d’observation X1 , . . . , Xn .

29

Supposons que les observations soient intégrables et de carré intégrables. Nous posons g(θ) = Eθ [X1 ] (= Eθ [Xi ], 1 ≤ i ≤ n). Par définition, nous en déduisons que les statistiques X1 , . . . , Xn sont des estimateurs sans biais de g(θ). Par linéarité de l’espérance, nous en déduisons que la moyenne empirique n

X ¯n = 1 X Xi , n i=1

est aussi un estimateur sans biais de g(θ). Par ailleurs, la loi des grands nombres montre que ∀θ ∈ Θ, ∀a > 0,

2 ¯ n − g(θ)| ≥ a ≤ σθ , Pθ |X na2

où σθ2 = Vθ [X1 ]. Plus généralement, si f désigne une fonction de R dans R (par exemple continue) et si les statistiques f (X1 ), . . . , f (Xn ) sont intégrables et de carré intégrable, nous obtenons que n−1

n X

f (Xi )

i=1

est un estimateur sans biais de gf (θ) = Eθ [f (X1 )]. De plus, la loi des grands nombres montre que ∀θ ∈ Θ, ∀a > 0,

n X Vθ (f (X1 )) Pθ n−1 f (Xi ) − gf (θ)| ≥ a ≤ . na2 i=1

Exemple d’utilisation. Reprenons l’exemple numéro 2 du contrôle qualité. En reprenant les calculs effectués dans la première partie, nous obtenons que ¯ n − p| ≥ a ≤ p(1 − p) . ∀p ∈]0, 1[, ∀a > 0, Pp |X na2 En majorant p(1 − p) par 1/4 comme nous l’avons déjà fait ci-dessus, nous en déduisons que ¯ n − p| ≥ a ≤ 1 . ∀p ∈]0, 1[, ∀a > 0, Pp |X 4na2 En remplaçant a par (2n1/2 )−1 a, il vient finalement 1 ¯ n − p| ≥ a ∀p ∈]0, 1[, ∀a > 0, Pθ |X ≤ 2. a 2n1/2 Nous en déduisons : si (x1 , . . . , xn ) désignent les réalisations des observations dans l’exemple 2 du chapitre 1 et si x ¯n = (x1 + · · · + xn )/n désigne la

30

réalisation de la moyenne empirique, alors l’intervalle ]¯ xn −

a a ,x ¯n + 1/2 [ 1/2 2n 2n

est un intervalle de confiance de niveau supérieur à 1 − a−2 . Par exemple, pour n = 1000 (valeur numérique choisie dans le chapitre 1) et a = 10, l’intervalle de confiance est de largeur 10 × 1000−1/2 ≈ 0.31 et de niveau supérieur à .99. Insistons sur la significativité de ce résultat : la fourchette de l’intervalle de confiance est régie par le nombre d’observations et, plus précisément, par la racine du nombre d’observations. 2.3. Théorème Limite Central. Une question naturelle est de savoir si la fourchette donnée par l’inégalité de Bienaymé-Chebychev est optimale ou non. La réponse à cette question est donnée par le théorème limite central. Le mot « central » a ici la signification suivante : le théorème a un champ d’application très large, pour ne pas dire universel, qui lui donne une place centrale, au coeur de la théorie des probabilités. Théorème. Soit (Xn )n≥1 une suite de variables aléatoires indépendantes de même loi intégrable et de carré intégrable. En désignant par m = E(X) et σ 2 = V(X) et en supposant σ 2 > 0, il vient, pour tout a, b : Z b ¯n − m X x2 dx √ . lim P a < n1/2 0 , muni de n observations X1 , . . . , Xn indépendantes et de même loi N (m, σ 2 ) sous chaque Pm,σ , la loi de la statistique Tn =

¯n − m √ X n ¯ Σn

ne dépend ni de m ni de σ 2 et est appelée loi de Student de paramètre n − 1. Nous admettrons ce résultat. Expliquons en l’intérêt : si la loi de Student de degré n − 1 est tabulée, i.e. que nous connaissons tαn , α ∈]0, 1[, tel que P{−tαn ≤ Tn ≤ tαn } = 1 − 2α, pour Tn variable aléatoire de loi de Student de degré n−1, alors nous sommes capables de dire avec les notations précédentes que P{−tαn ≤ Tn ≤ tαn } = 2α − 1, de sorte que l’intervalle ]¯ xn − tαn σ ¯n n−1/2 , x ¯n + tαn σ ¯n n−1/2 [ est un intervalle de confiance de niveau 2α − 1 pour m. (Ici, x ¯n et σ ¯n désignent les réalisations de la moyenne et de l’écart-type empiriques.)

42

2.4. Loi de Student de degré n. Voici en réalité la définition de la loi de Student de degré n : Définition 2.3. La loi de Student de degré n est la loi de densité : 1 Γ n+1 t2 − n+1 2 2 x ∈ R 7→ √ 1 + . n nπ Γ n2 Ici, Z Γ(t) =

+∞

xt−1 exp(−x)dx.

0

Nous remarquons que la densité de Student de degré n est paire. Par ailleurs, lorsque n tend vers l’infini, pour t fixé, n+1 t2 − n+1 t2 2 1+ = exp − ln 1 + n 2 n n + 1 t2 ≈ exp − . n 2 t2 → exp − . 2 Nous comprenons que la partie variable de la densité tend, avec n, vers la partie variable de la densité gaussienne. En fait, nous pourrions montrer qu’il en va de même de la partie constante : ceci explique pourquoi, pour n grand, il est possible de ramener le problème au cas gaussien, comme nous l’avons déjà expliqué. La moyenne est nulle et la variance vaut n/(n − 2) pour n ≥ 3.

43

En pratique, la loi de Student est tabulée, données dans une table : n 75% 80% 85% 90% 95% 1 1.000 1.376 1.963 3.078 6.314 2 0.816 1.061 1.386 1.886 2.920 3 0.765 0.978 1.250 1.638 2.353 4 0.741 0.941 1.190 1.533 2.132 5 0.727 0.920 1.156 1.476 2.015 6 0.718 0.906 1.134 1.440 1.943 7 0.711 0.896 1.119 1.415 1.895 8 0.706 0.889 1.108 1.397 1.860 9 0.703 0.883 1.100 1.383 1.833 10 0.700 0.879 1.093 1.372 1.812 11 0.697 0.876 1.088 1.363 1.796 12 0.695 0.873 1.083 1.356 1.782 13 0.694 0.870 1.079 1.350 1.771 14 0.692 0.868 1.076 1.345 1.761 15 0.691 0.866 1.074 1.341 1.753 16 0.690 0.865 1.071 1.337 1.746 17 0.689 0.863 1.069 1.333 1.740 18 0.688 0.862 1.067 1.330 1.734 19 0.688 0.861 1.066 1.328 1.729 20 0.687 0.860 1.064 1.325 1.725 21 0.686 0.859 1.063 1.323 1.721 22 0.686 0.858 1.061 1.321 1.717 23 0.685 0.858 1.060 1.319 1.714 24 0.685 0.857 1.059 1.318 1.711 25 0.684 0.856 1.058 1.316 1.708 26 0.684 0.856 1.058 1.315 1.706 27 0.684 0.855 1.057 1.314 1.703 28 0.683 0.855 1.056 1.313 1.701 29 0.683 0.854 1.055 1.311 1.699 30 0.683 0.854 1.055 1.310 1.697 40 0.681 0.851 1.050 1.303 1.684 50 0.679 0.849 1.047 1.299 1.676 60 0.679 0.848 1.045 1.296 1.671 80 0.678 0.846 1.043 1.292 1.664 100 0.677 0.845 1.042 1.290 1.660 120 0.677 0.845 1.041 1.289 1.658 ∞ 0.674 0.842 1.036 1.282 1.645

i.e. que les valeurs des tαn sont 97.5% 12.71 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.009 2.000 1.990 1.984 1.980 1.960

99% 99.5% 99.75% 99.9% 99.95% 31.82 63.66 127.3 318.3 636.6 6.965 9.925 14.09 22.33 31.60 4.541 5.841 7.453 10.21 12.92 3.747 4.604 5.598 7.173 8.610 3.365 4.032 4.773 5.893 6.869 3.143 3.707 4.317 5.208 5.959 2.998 3.499 4.029 4.785 5.408 2.896 3.355 3.833 4.501 5.041 2.821 3.250 3.690 4.297 4.781 2.764 3.169 3.581 4.144 4.587 2.718 3.106 3.497 4.025 4.437 2.681 3.055 3.428 3.930 4.318 2.650 3.012 3.372 3.852 4.221 2.624 2.977 3.326 3.787 4.140 2.602 2.947 3.286 3.733 4.073 2.583 2.921 3.252 3.686 4.015 2.567 2.898 3.222 3.646 3.965 2.552 2.878 3.197 3.610 3.922 2.539 2.861 3.174 3.579 3.883 2.528 2.845 3.153 3.552 3.850 2.518 2.831 3.135 3.527 3.819 2.508 2.819 3.119 3.505 3.792 2.500 2.807 3.104 3.485 3.767 2.492 2.797 3.091 3.467 3.745 2.485 2.787 3.078 3.450 3.725 2.479 2.779 3.067 3.435 3.707 2.473 2.771 3.057 3.421 3.690 2.467 2.763 3.047 3.408 3.674 2.462 2.756 3.038 3.396 3.659 2.457 2.750 3.030 3.385 3.646 2.423 2.704 2.971 3.307 3.551 2.403 2.678 2.937 3.261 3.496 2.390 2.660 2.915 3.232 3.460 2.374 2.639 2.887 3.195 3.416 2.364 2.626 2.871 3.174 3.390 2.358 2.617 2.860 3.160 3.373 2.326 2.576 2.807 3.090 3.291

44

2.5. Application. Avant d’être mis sur le marché, un nouveau médicament est testé sur un groupe de sujets sains afin d’évaluer son impact sur le taux d’hémoglobine dans le sang (l’hémoglobine permet le transport de l’oxygène). Vu le prix très élevé du médicament, il est décidé de procéder à un premier test sur un échantillon restreint de 30 personnes. La moyenne empirique relevée est de 15,7 grammes par déciLitre avec un écart-type empirique de 2,6. Donner un intervalle de confiance pour la moyenne gouvernant le modèle en retenant une hypothèse gaussienne. Réponse : ]15.7 − 2.045 × 2.6 × 30−1/2 , 15.7 + 2.045 × 2.6 × 30−1/2 [ au niveau 0.95, soit ]14, 7; 16, 7[. 3. Construction d’intervalle de confiance pour l’écart-type Dans la section précédente, nous avons vu comment estimer la moyenne dans un modèle gaussien, avec ou sans connaissance de la variance. Nous nous tournons maintenant vers l’estimation de l’écart-type. Donnons un exemple : supposons que la taille en cm d’une femme soit modélisée par une loi normale de moyenne m et d’écart-type σ. Afin de prévoir la production de la collection hiver 2010-2011, une chaîne de prêt à porter doit avoir une idée de la taille moyenne des femmes, mais aussi de l’écart-type régissant la distribution : cela lui donnera une idée de la proporition de pantalons en taille 34, 36, 38, 40 à produire. 3.1. Principe. Le principe s’appuie sur la proposition suivante : Proposition 3.1. Etant donné le modèle statistique (Ω, N (m, σ)⊗n )m∈R,σ>0 , muni de n observations X1 , . . . , Xn indépendantes et de même loi N (m, σ 2 ) sous chaque Pm,σ , la loi de la statistique ¯ 2n σ 2 Un = (n − 1)Σ ne dépend ni de m ni de σ et est appelée loi du ξ 2 de degré n − 1, notée χ2 (n − 1). En particulier, si la loi du χ2 de degré n − 1 est tabulée, i.e. que nous connaissons qnα , α ∈]0, 1[, tel que P{qnβ ≤ Xn ≤ qnα } = α − β, pour Xn variable aléatoire de loi du χ2 de degré n − 1, alors nous sommes capables de dire avec les notations précédentes que P{qnβ ≤ Un ≤ qnα } = α − β,

45

√ √ de sorte que l’intervalle ] n − 1¯ σn /qnα , n − 1¯ σn /qnβ [ est un intervalle de confiance de niveau α − β pour σ. (Ici, σ ¯n désignent la réalisation de l’écarttype empirique.) 3.2. Loi du chi-deux de degré n. Voici en réalité la définition de la loi du chi-deux de degré n : Définition 3.2. La loi du chi-deux de degré n est la loi de densité : 1 t ∈ R 7→ k/2 tk/2−1 exp(−t/2)1t>0 . 2 Γ(k/2) Sa moyenne vaut n et sa variance 2n.

46

Voici la table associée n 0,005 0.010 0.025 0.050 0.100 0.250 0.500 0.750 0.900 0.950 0.975 0.990 1 0.0000 0.0002 0.0010 0.0039 0.0158 0.102 0.455 1.32 2.71 3.84 5.02 6.63 2 0.0100 0.0201 0.0506 0.103 0.211 0.575 1.39 2.77 4.61 5.99 7.38 9.21 3 0.0717 0.115 0.216 0.352 0.584 1.21 2.37 4.11 6.25 7.81 9.35 11.3 4 0.207 0.297 0.484 0.711 1.06 1.92 3.36 5.39 7.78 9.49 11.1 13.3 5 0.412 0.554 0.831 1.15 1.61 2.67 4.35 6.63 9.24 11.1 12.8 15.1 6 0.676 0.872 1.24 1.64 2.20 3.45 5.35 7.84 10.6 12.6 14.4 16.8 7 0.989 1.24 1.69 2.17 2.83 4.25 6.35 9.04 12.0 14.1 16.0 18.5 8 1.34 1.65 2.18 2.73 3.49 5.07 7.34 10.2 13.4 15.5 17.5 20.1 9 1.73 2.09 2.70 3.33 4.17 5.90 8.34 11.4 14.7 16.9 19.0 21.7 10 2.16 2.56 3.25 3.94 4.87 6.74 9.34 12.5 16.0 18.3 20.5 23.2 11 2.60 3.05 3.82 4.57 5.58 7.58 10.3 13.7 17.3 19.7 21.9 24.7 12 3.07 3.57 4.40 5.23 6.30 8.44 11.3 14.8 18.5 21.0 23.3 26.2 13 3.57 4.11 5.01 5.89 7.04 9.30 12.3 16.0 19.8 22.4 24.7 27.7 14 4.07 4.66 5.63 6.57 7.79 10.2 13.3 17.1 21.1 23.7 26.1 29.1 15 4.60 5.23 6.26 7.26 8.55 11.0 14.3 18.2 22.3 25.0 27.5 306 16 5.14 5.81 6.91 7.96 9.31 11.9 15.3 19.4 23.5 26.3 28.8 32.0 17 5.70 6.41 7.56 8.67 10.1 12.8 16.3 20.5 24.8 27.6 32.0 33.4 18 6.26 7.01 8.23 9.39 10.9 13.7 17.3 21.6 26.0 28.9 31.5 34.8 19 6.84 7.63 8.91 10.1 11.7 14.6 18.3 22.7 27.2 301 32.9 36.2 20 7.43 8.26 9.56 10.9 12.4 15.5 19.3 23.8 28.4 31.4 34.2 37.6 21 8.03 8.90 10.3 11.6 13.2 16.3 20.3 24.9 29.6 32.7 35.5 38.9 22 8.64 9.54 11.0 12.3 14.0 17.2 21.3 26.0 308 33.9 36.8 40.3 23 9.26 10.2 11.7 13.1 14.8 18.1 22.3 27.1 32.0 35.2 38.1 41.6 24 9.89 10.9 12.4 13.8 15.7 19.0 23.3 28.2 33.2 36.4 39.4 43.0 25 10.5 11.5 13.1 14.6 16.5 19.9 24.3 29.3 34.4 37.7 40.6 44.3 26 11.2 12.2 13.8 15.4 17.3 20.8 25.3 301 35.6 38.9 41.9 45.6 27 11.8 12.9 14.6 16.2 18.1 21.7 26.3 31.5 36.7 40.1 43.2 47.0 28 12.5 13.6 15.3 16.9 18.9 22.7 27.3 32.6 37.9 41.3 44.5 48.3 29 13.1 14.3 16.0 17.7 19.8 23.6 28.3 33.7 39.1 42.6 45.7 49.6 30 13.8 15.0 16.8 18.5 20.6 24.5 29.3 34.8 40.3 43.8 47.0 50.9 40 20.7 22.2 24.4 26.5 29.1 33.7 39.3 45.6 51.8 55.8 59.3 63.7 50 28.0 29.7 32.4 34.8 37.7 42.9 49.3 56.3 63.2 67.5 71.4 76.2 60 35.5 37.5 40.5 43.2 46.5 52.3 59.3 67.0 74.4 79.1 83.3 88.4 70 43.3 45.4 48.8 51.7 55.3 61.7 69.3 77.6 85.5 90.5 95.0 100.4 80 51.2 53.5 57.2 60.4 64.3 71.1 79.3 88.1 96.6 101.9 106.6 112.4 90 59.2 61.8 65.6 69.1 73.3 80.6 89.3 98.6 107.6 113.1 118.1 124.1 100 67.3 70.1 74.2 77.9 82.4 90.1 99.3 109.1 118.5 124.3 129.6 135.8

0.9 7. 10 12 14 16 18 20 22 23 25 26 28 29 31 32 34 35 37 38 40 41 42 44 45 46 48 49 51 52 53 66 79 92 104 116 128 140

CHAPITRE 5

Chapitre 5. Tests. 1. Principes 1.1. Objectif. Etant donné un modèle statistique (Ω, Pθ )θ∈Θ modélisant un phénomène observable et une partition de l’ensemble des paramètres sous la forme Θ = Θ0 ∪ Θ1 , un test d’hypothèses vise à déterminer si, au vu des observations expérimentales, il est raisonnable d’accepter le paramètre θ expliquant l’expérience comme un élément de Θ0 ou de Θ1 . 1.2. Premier exemple : notions d’hypothèses. Reprenons l’exemple du chapitre précédent : une machine outil découpe des tiges d’acier avec un écart type de 5 mm ; après un arrêt prolongé, un ouvrier la remet en route et décide, avant de l’utiliser à des fins industrielles, de vérifier si elle est correctement ajustée à la découpe de tiges de 1m en la testant sur 10 tiges successives. Voici les résultats qu’il obtient (en mm) : 988 997 995 989 997 985 1000 995 991 999 Au vu de ces observations, peut-on considérer que la machine est déréglée ? Afin de répondre à cette question, il est nécessaire de commencer par la formaliser mathématiquement. Pour cela, nous modélisons la taille de découpe par une variable gaussienne de paramètre µ inconnu (en mm) et d’acrt type 5. Autrement dit, nous sommes amenés à considérer le modèle gaussien : (Ω, N (µ, σ 2 )⊗n )µ∈R , avec n = 10 et σ = 5. Nous comprenons de fait que l’ensemble des paramètres peut-être partitionné en deux : Θ0 = {µ : µ = 1000},

Θ1 = {(µ, σ) : µ 6= 1000}.

Il s’agit de décider, au vu des observations, entre deux hypothèses : (1) H0 : “µ ∈ Θ0 ” i.e. “la machine n’est pas déréglée”, (2) H1 : “µ ∈ Θ1 ” i.e. “la machine est déréglée”. Vocabulaire. L’hypothèse H0 porte le nom d’hypothèse nulle : elle correspond, d’un point de vue pratique, à un état initial. Il s’agit de fait de décider s’il est préférable de la conserver ou non au regard des observations 47

48

expérimentales. L’hypothèse H1 porte le nom d’hypothèse alternative : d’un point de vue pratique, la vérification de l’hypothèse alternative est supposée conduire à des modifications sensibles du réel. Dans le contexte courant, nous comprenons que la détection d’un biais dans la découpe conduirait à un nouveau réglage de la machine. 1.3. Risques. Naturellement, l’aide à la décision étant formulée à partir de l’observation, il existe un risque de rendre une mauvaise décision. Ce risque est en réalité double : (1) Il existe le risque de décider d’adopter l’hypothèse alternative à tort, i.e. de décider H1 alors que H0 est vraie. (2) Il existe le risque de décider de conserver l’hypothèse nulle à tort, i.e. de conserver H0 alors que H1 est vraie. La première erreur est appelée erreur de première espèce. La deuxième erreur est appelée erreur de deuxième espèce. 1.4. Règle de décision et zone de rejet. La seule information dont dispose le statisticien pour aider à la décision, en l’espèce au diagnostic du patient, est l’expérience. Il lui faut donc bâtir une règle de décision permettant de déclarer, d’après la simple observation de l’expérience, s’il est préférable de conserver H0 ou d’adopter H1 . La règle de décision sera accompagnée d’un degré de fiabilité, spécifiant la confiance à lui accorder. Dans le cas présent, nous allons raisonner par analogie avec les intervalles de confiance. Nous introduisons naturellement la moyenne empirique des observations, dont on sait qu’elle ressemble à la moyenne théorique. Nous posons de fait : n 1X ¯ Xn = Xi . n i=1

Il s’agit de fait de prendre une décision à partir de l’observation expérimen¯ n . Pour cela, nous introduisons une zone de rejet : si x tale x ¯n de X ¯n est trop éloignée de 1000, alors l’hypothèse H0 est rejetée. Autrement dit, nous allons construire une zone de la forme I =] − ∞, −c] ∪ [c, +∞[ et lui associer la règle de décision suivante : si x ¯n − 1000 ∈ I, H0 est rejetée. Pour cette raison, I porte le nom de zone de rejet. 1.5. Construction de la zone de rejet. Pour constuire la zone de rejet, il est nécessaire de savoir de combien la vraie moyenne et la moyenne ¯ n et la empirique sont éloignées. En fait, nous savons que la distance entre X vraie moyenne est liée à la variance. Précisément, nous savons que la loi de la statistique ¯n − µ X Tnµ = n1/2 , σ

49

sous Pµ ne dépend pas de µ et suit une loi N (0, 1). Il s’agit de la statistique que nous aurions utilisée pour construire un intervalle de confiance sur µ : il s’agit de la statistique que nous allons utiliser pour aider à la décision. Autrement dit, pour un α donné, nous sommes capables de trouver un tα tel que Pµ −tα ≤ Tnµ ≤ tα = α, pour tout µ Rappelons que tα est le quantile d’ordre 2α − 1 de la gaussienne centrée réduite. Supposons maintenant µ ∈ Θ0 , i.e. µ = µ0 = 1000. Alors, nous sommes capables de dire que ¯ n − 1000 X P1000 −tα ≤ n1/2 ≤ tα = α, σ soit encore ¯ n − 1000 ≤ tα σn−1/2 = α. P1000 −tα σn−1/2 ≤ X De fait, nous choisissons c = tα σn−1/2 , de sorte que la probabilité de déclarer H1 à tort sous H0 est exactement égale à α. Autrement dit, nous sommes capables de contrôler le risque de première espace par α. 1.6. Dissymétrie des risques. Nous comprenons que la construction du test conduit à un contrôle de l’erreur de première espace par un niveau de risque α préalablement fixé, appelé niveau du test. En pratique, α est choisi égal à 0,1 ou 0,05 voire 0,01. En pratique, le niveau de risque est fixé en fonction des conséquences que peut avoir la validation à tort de H1 . En revanche, la construction ne permet pas de contrôler, a priori, le risque de deuxième espèce. En général, on essaie de l’estimer a posterio en contrôlant la puissance du test, i.e. la fonction ¯ n − 1000 ∈ I}. µ 6= 1000 7→ P(µ) = Pµ {X Plus la puissance est proche de 1, plus le risque de déclarer H0 à tort est petite, puisque, pour µ 6= 1000, ¯ n − 1000 6∈ I} = 1 − P(µ). Pµ {X Mathématiquement, le risque de deuxième espèce est défini par β = supµ6=1000 [1− P(µ)]. 2. Notions générales et autres exemples 2.1. Définition. Nous formalisons l’approche de la section précédente sous la forme :

50

Définition. Etant donné un modèle statistique (Ω, Pθ )θ∈Θ muni d’une partition de Θ sous la forme Θ = Θ0 ∪ Θ1 , une statistique T et un intervalle I, la statistique ∆ = 1I (T ) un test de l’hypothèse nulle H0 = “θ ∈ Θ000 contre l’hypothèse alternative H1 = “θ ∈ Θ001 de niveau inférieur à α ∈]0, 1[ et de zone de rejet I si ∀θ ∈ Θ0 ,

Pθ {T ∈ I} ≤ α.

La puissance du test est donnée par la fonction : P : θ ∈ Θ1 7→ Pθ {T ∈ I}. 2.2. Mode opératoire. La construction d’un test s’effectue en plusieurs étapes : (1) Choix du modèle (2) Identification des hypothèses (3) Choix du niveau du test (4) Choix de la statistique utilisée pour la décision (5) Choix de la forme de la zone de rejet (6) Calcul explicite de la zone de rejet (7) Décision finale (8) Calcul éventuel de la puissance 2.3. Un deuxième exemple. Considérons un deuxième exemple pour valider le mode opératoire. Des crânes ont été découverts dans une grotte et leurs largeurs en mm sont : 141 140 145 135 147 141 145 De nombreux crânes précédemment découverts dans la région de cette grotte ont une largeur moyenne égale à 146. En supposant une loi normale pour la largeur des crânes, décider au niveau 0.1 si les crânes découverts proviennent ou non de la même population. Mettons en place le test. Choix du modèle. On utilise le modèle gaussien (Ω, N (m, σ 2 )⊗n )m∈R,σ>0 avec n = 7. Ici m et σ sont en mm. Le modèle est muni des statistiques d’observation X1 , . . . , Xn . Choix des hypothèses H0 = “m = m0 = 14600 contre H1 = “m 6= m000 . Niveau du test α = .1. Statistique utilisée La décision se fait à partir de l’observation de la ¯ n et plus précisément de sa distance à m0 . moyenne empirique X

51

Attention : cette distance est liée à la variance ici inconnue ! Nous comprenons de fait que la règle d’observation doit faire intervenir la variance empirique. Autrement dit, nous allons fonder la décision sur l’observation de la réalisation de la statistique T =

¯ n − 1000 √ X n ¯n Σ

Forme de la zone de rejet I = (−∞, −c] ∪ [c, ∞). Le risque de première espèce est : α = Pm0 |T | ≥ c . Calcul de la zone de rejet Sous H0 , on sait que T suit une loi de Student de niveau n − 1 = 6. De fait, il s’agit de chercher c tel que la probabilité que la loi de Student de degré 6 soit dans ] − c, c[ soit égale à 0.9. Par utilisation de la table, nous obtenons c = 1, 943. Décision finale Il faut√maintenant calculer la réalisation de la statistique utilisée pour le test, i.e. 6(¯ xn − 146)/¯ σn . Nous trouvons −2.69. Le résultat est dans la zone de rejet : nous acceptons l’hypothèse H1 avec un niveau de risque égal à 10%. 3. Tests unilatères Dans les exemples précédents, nous avons testé l’égalité d’un paramètre avec une valeur donnée contre la différence du paramètre avec cette même valeur. Il existe des situations où le test vise à vérifier (éventuellement) une borne sur un paramètre. Nous parelorons de tests unilatères. 3.1. Test unilatère sur la moyenne. Donnons un exemple : un organisme a demandé au ministère d’agrééer une source d’eau afin de la distribuer dans le commerce. En un point de captage, ont été répétées six mesures du taux d’oxygène dans l’eau (en parties par million). On a trouvé : 4.92 5.10 4.93 5.02 5.06 4.71 La norme en dessous de laquelle la consommation est interdite est de 5 ppm. Au vu des observations, est-il possible de déclarer l’eau potable ? Il s’agit ici de mettre en place un modèle gaussien constitué de n = 6 mesures. Le test porte alors sur H0 : “µ ≤ µ0 = 500 contre H1 : “µ > µ0 = 500 . En effet, il est essentiel de contrôler la probabilité de déclarer le source potable à tort. Le niveau du test peut être fixé à 0.05 ou 0.01. La statistique utilisée est la même que dans le cadre d’un test bilatéral. Autrement dit, tout se passe encore autour de la valeur µ0 .

52

La zone de rejet est de la forme I = [c, +∞). Le risque de première espèce est donnée par α = sup Pµ T ≥ c . µ≤µ0

Le problème est que nous ne connaissons pas la loi de T sous Pµ , pour µ ≤ µ0 . Mais nous pouvons écrire ¯ n − µ √ µ − µ0 √ X n ¯ + n ¯ Σn Σn ¯n − µ √ X ≤ n ¯ Σn

T =

De fait, nous comprenons que T ≥c⇒

¯n − µ √ X n ¯ ≥ c. Σn

Nous en déduisons α ≤ sup Pµ µ≤µ0

¯n − µ √ X n ¯ ≥c . Σn

Mais, toutes ces quantités sont égales ! Comme l’égalité est vraie en µ = µ0 , nous choisissons c comme le 1 − α quantile de la loi de Student de degré 5. A.N. : En choisissant α = 0.05, nous obtenons c = 2.015. Nous pouvons calculer x ¯n = 4.96 et σ ¯n = 0.14 et t = −0.75. L’hypothèse H0 est conservée. 3.2. Test unilatère sur l’écart-type. On veut tester la précision d’une méthode de mesure d’alcoolémie sur un échantillon sanuin. La précision est définie comme étant deux fois l’écart-type de la loi. On partage un échantillon de référence en 6 éprouvettes que l’on soumet à analyse d’un laboratoire. Les valeurs trouvées sont en g par litres 1.35 1.26 1.48 1.32 1.50 1.44 Tester l’hypothèse nulle : « la précision est inférieure à 0.1 gramme par Litre au niveau 0.05 ». Ici, le modèle est un modèle gaussien de la forme (Ω, N ⊗n (m, σ 2 ))m∈R,σ>0 à moyenne et variance inconnues avec n = 6. L’hypothèse H0 s’écrit « σ ≤ 0.05 »et l’hypothèse H1 s’écrit « σ > 0.05 ». Le niveau du test est α = 0.05. Nous allons fonder le test sur la statistique T = (n − 1)

¯ 2n Σ . σ02

La zone de rejet est de la forme [0, c] : nous rejettons pour des valeurs élevées de la variance empirique et donc des petites valeurs de son inverse.

53

Pour calculer c nous remarquons que la loi de T sous Pm,σ02 est exactement la loi du χ2 à (n − 1) degrés de liberté. Si σ < σ0 , nous remarquons que ¯2 Σ T ≥ (n − 1) 2n , σ de sorte que ¯2 Σ Pm,σ2 T ≤ c ≤ Pm,σ2 (n − 1) 2n ≤ c , σ avec égalité si σ = σ0 . Toutes les quantités dans le terme de droite ci-dessus sont égales : il s’agit de la valeur au point c de la fonction de répartition de la loi du χ2 à (n − 1) degrés de liberté. Il suffit donc de poser c égal au 0.05 quantile de la loi du χ2 à n − 1 degrés de liberté. Nous obtenons c = 1.15. A.N. Nous calculons σ ¯n = .096 et t = 18, 4. Nous rejettons l’hypothèse H0 au niveau de risque 0.05. 3.3. Test unilatère non gaussien. Un centre d’appel téléphonique prétend que le temps moyen d’attente à son service est inférieur à trois minutes. Voici les temps d’attente constatés par une association de consommateurs (rangés par ordre croissant). 0.75 1.25 2.25 1.75 4 6 Tester, au niveau 0,05, l’hypothèse H0 : le temps moyen d’attente est inférieur à deux minutes contre l’hypothèse alternative au niveau 0.05. (L’association de consommateurs veut être sure de son verdict en cas de mise en défaut du centre d’appels.) Utiliser la statistique λ0 n min(X1 , . . . , Xn ), avec λ0 = 1/2, n = 6 et X1 , . . . , Xn statistiques d’observation. Le modèle statistique utilisé est le modèle exponentiel (Ω, Exp⊗n (λ))λ>0 , avec n = 6. L’hypothèse H0 s’écrit λ−1 ≤ 2. Le niveau du test est choisi égal à α = 0, 05. On choisit la statistique de test proposé. La zone de rejet est de la forme [c, +∞) : on rejette pour des grandes valeurs des observations. Sous Pλ0 , T suit une loi exponentielle de paramètre 1. Il suffit en effet de calculer la fonction de survie : Pλ0 {nλ0 min(X1 , . . . , Xn ) > t} = (exp(−t/n))n = exp(−t). Maintenant, si λ ≥ λ0 , alors T ≤ λn min(X1 , . . . , Xn ), et nous voyons que Pλ {T ≥ c} est inférieur à Pλ {λn min(X1 , . . . , Xn ) ≤ c} = exp(−c). Nous choisissons donc exp(−c) = α.

54

A.N. c = − ln(0.1) = 2.30 et t = 1.5. On conserve H0 .

Support de Cours L2 Statistiques - Université Nice Sophia Antipolis

Short Description

Description

Comments

We need your help!