Estimation paramétrique
Short Description
Download Estimation paramétrique...
Description
1
Cahier de Mathématiques Appliquées no 5
Estimation paramétrique B. Ycart
Comment connaît-on la population du globe ? Comment détermine-t-on dans quelles limites se situe le nombre de globules rouges par litre de sang chez un individu en bonne santé ? Comment sait-on combien d’individus sont connectés à internet ? Toutes ces évaluations sont déduites de modèles probabilistes par les techniques statistiques d’estimation paramétrique. Le point de vue adopté ici est orienté vers les applications en médecine, et s’appuie largement sur l’utilisation des logiciels de calcul, qui permettent l’expérimentation sur des échantillons simulés. Les livres de statistique sont nombreux. Plus ou moins théoriques, plus ou moins spécialisés vers tel ou tel domaine d’application, il est difficile d’en recommander un en particulier. Ces notes ont été préparées à partir des références suivantes. J.L. Devore Probability and statistics for engineering and the sciences. Brooks/Cole, Pacific Grove, 1991. G. Saporta Probabilités, Analyse des données, Statistique. Technip, Paris, 1990. Les “cahiers de mathématiques appliquées” doivent beaucoup aux relectures scrupuleuses de Rachid Boumaza, au dynamisme de Sylvie SevestreGhalila, au soutien de l’Ecole Supérieure de la Statistique et de l’Analyse de l’Information de Tunisie, par son directeur Makki Ksouri et son directeur des études Nacef Elloumi, ainsi qu’à la compétence de Habib Bouchriha, directeur du Centre des Publications Universitaires de la Tunisie.
2
Cahier de Mathématiques Appliquées no 5
Table des matières 1 Estimation ponctuelle 1.1 Modèles paramétrés . . . 1.2 Estimateurs et estimations 1.3 Qualités d’un estimateur . 1.4 Intervalles de dispersion . 1.5 Exemples d’estimateurs .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
3 3 5 6 9 11
2 Recherche d’estimateurs 2.1 Méthode des moments . . . . . . . . . . 2.2 Estimation par ajustement . . . . . . . . 2.3 Estimateurs des moindres carrés . . . . 2.4 Notion de vraisemblance . . . . . . . . . 2.5 Pratique du maximum de vraisemblance
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
16 16 17 19 21 24
3 Intervalles de confiance 3.1 Définitions . . . . . . . . 3.2 Echantillons gaussiens . 3.3 Modèle linéaire . . . . . 3.4 Normalité asymptotique
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
27 27 31 32 35
4 Exercices
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . .
39
Estimation paramétrique
1 1.1
3
Estimation ponctuelle Modèles paramétrés
Le postulat de modélisation sur lequel toute étude statistique est basée est le suivant : Les données observées sont des réalisations de variables aléatoires. Quand le résultat d’une expérience n’est pas reproductible exactement, on suppose qu’il est la réalisation d’une variable aléatoire. La théorie des probabilités fournit des outils, comme la loi des grands nombres ou le théorème central limite, permettant d’extraire des données ce qui est reproductible et qui pourra donc fonder une prédiction ou une décision. Quand on observe un caractère statistique sur une population, si l’ordre dans lequel on prend les individus n’a pas d’importance, on choisira de considérer que les données sont des réalisations de variables aléatoires indépendantes et de même loi. Cette loi de probabilité décrit la variabilité du caractère. Même dans le cas où les individus ne sont pas interchangeables, comme pour une série chronologique, la modélisation consistera à se ramener, en soustrayant au besoin une fonction déterministe, au cas d’un échantillon de variables aléatoires indépendantes. Définition 1.1 Soit P une loi de probabilité sur IR. On appelle échantillon de la loi P un n-uplet de variables aléatoires indépendantes et de même loi P. Le mot échantillon prend en statistique deux sens différents, selon que l’on parle des données observées ou du modèle probabiliste. L’hypothèse de modélisation consiste à voir l’échantillon (observé) comme une réalisation d’un échantillon (théorique) d’une certaine loi de probabilité P . En d’autres termes, on considère que les données auraient pu être produites en simulant de façon répétée la loi de probabilité P . Pour éviter les confusions, nous désignerons par données ou échantillon observé, la séquence de nombres recueillie (x1 , . . . , xn ). Les échantillons (théoriques) au sens de la définition ci-dessus seront désignés par des majuscules : (X1 , . . . , Xn ). La loi de probabilité P modélisant la variabilité des données n’a aucune réalité physique. Cependant elle est considérée comme un objet caché. Tout se passe comme si on disposait d’un algorithme de simulation de la loi P , sans connaître P elle-même : Les données sont des appels indépendants de cet algorithme. L’objet de l’analyse statistique est d’en extraire toute information utile sur P . Si l’hypothèse de modélisation par la loi P est correcte (l’algorithme simule effectivement cette loi), la loi des grands nombres permet d’affirmer que la distribution empirique des données est proche de P , pour un grand échantillon. Mais deux échantillons observés, simulés selon la même loi, ont rarement la même distribution empirique. Afin d’extraire des données des informations reproductibles, on est amené à réduire l’ensemble des lois possibles à une famille particulière de lois de probabilité.
4
Cahier de Mathématiques Appliquées no 5
On appelle problème d’ajustement le problème consistant à déterminer, dans une famille de lois de probabilité donnée, quelle est celle qui coïncide le mieux avec l’échantillon observé. Dans la situation la plus courante, celle que nous considérons ici, la famille dépend d’un ou plusieurs paramètres réels inconnus. Le problème est donc de déterminer quelle valeur du paramètre est la mieux adaptée aux données, en un sens que nous préciserons plus loin. On parle alors d’estimation paramétrique. Nous donnons ci-dessous quelques exemples courants de situations statistiques, avec des familles de lois communément choisies. Echantillons binaires Typiquement, la situation est celle où un même événement est observé ou non dans une suite d’expériences indépendantes. Si on code les observations par 1 et 0, la modélisation par une loi de Bernoulli s’impose. Le paramètre inconnu est la probabilité de l’événement. On l’approche bien évidemment par sa fréquence expérimentale. Comptages Un échantillon issu de comptages prend des valeurs entières positives. Plusieurs familles de lois classiques peuvent être utilisées comme modèles. Si les objets comptés sont relativement fréquents, dans une population de taille fixée et assez faible, les lois binomiales ou hypergéométriques sont des modèles naturels (nombre de filles dans les fratries de 5 enfants par exemple). Si les objets comptés possèdent un caractère relativement rare dans un grand ensemble (bactéries, individus porteurs d’un gène particulier,. . . ) on utilise souvent une loi de Poisson. Pour des durées mesurées en temps discret (nombres de jours ou de semaines d’incubation pour une maladie) on pourra utiliser une loi géométrique ou binomiale négative. On se laisse souvent guider par la forme de la distribution empirique pour le choix d’un modèle. Un diagramme en bâtons en gros unimodal pourra suggérer de modéliser par une loi binomiale négative, même s’il n’y a pas de raison profonde qui rende ce choix naturel. Variables normales Les lois normales sont de très loin les plus utilisées parmi les modèles probabilistes. Cela tient à deux causes. L’une est qu’elles permettent des calculs explicites faciles, quelle que soit la taille de l’échantillon. En particulier il est fréquent de choisir un modèle normal pour de petits échantillons, sans pouvoir toujours justifier ce choix. L’autre raison tient au théorème central limite : chaque fois qu’une quantité provient du cumul d’un grand nombre de facteurs variables relativement indépendants entre eux, cette quantité pourra être modélisée par une loi normale. C’est le cas pour les erreurs de mesures qui ont été la motivation historique de la loi normale, mais aussi pour de très nombreux paramètres physiologiques (tailles, poids, numérations sanguines, dosages hormonaux . . . ).
5
Estimation paramétrique Durées
Des durées mesurées en temps continu sont modélisées par des lois de probabilité continues sur IR+ . En fiabilité, pour des durées de fonctionnement ou des durées de réparation, les lois de Weibull sont souvent préférées. Les lois exponentielles en sont un cas particulier. Données unimodales asymétriques Comme pour les caractères discrets, le choix d’un modèle pour un caractère continu est souvent guidé par la forme de la distribution empirique. Il arrive que l’histogramme d’un caractère continu soit trop dissymétrique pour qu’on puisse utiliser la loi normale. Plusieurs familles de lois présentent des dissymétries plus ou moins importantes. C’est le cas pour les lois de Weibull, déjà évoquées, mais aussi pour les lois gamma. Quand les ordres de grandeur des données sont très différents, on peut les remplacer par leurs logarithmes. Si le nouvel histogramme coïncide apparemment avec une loi normale, on utilisera une loi log-normale comme modèle pour les données initiales. Dans tout ce qui suit, nous désignerons par Pθ une loi de probabilité dépendant du paramètre inconnu θ. Dans la plupart des exemples, le paramètre θ sera un nombre réel, mais il peut aussi être un entier, ou un couple de réels.
1.2
Estimateurs et estimations
Quand une famille de lois dépendant du paramètre inconnu θ a été choisie, c’est de l’échantillon et de lui seul que l’on peut tirer les informations. On appelle estimateur du paramètre θ, toute fonction de l’échantillon, prenant ses valeurs dans l’ensemble des valeurs possibles pour θ. Evidemment, cette définition un peu vague cache l’espoir que les valeurs prises par l’estimateur soient proches de la valeur cible θ, qui est et restera inconnue. Il importe de bien distinguer les variables aléatoires, liées à la modélisation, de leurs réalisations, identifiées aux données. Un échantillon (théorique) est un n-uplet de variables aléatoires indépendantes et de même loi Pθ . Pour estimer θ, on propose un estimateur, fonction de l’échantillon : T = τ (X1 , . . . , Xn ) . C’est aussi une variable aléatoire. Le choix du modèle et de l’estimateur T est déconnecté du recueil des données. C’est en quelque sorte une planification que l’on effectue avant toute observation, et qui pourra servir à plusieurs échantillons observés du même phénomène. Une fois un modèle choisi, on considérera un n-uplet de données (x1 , . . . , xn ) comme une réalisation des variables aléatoires (X1 , . . . , Xn ). La valeur (réelle) prise par T : θb = τ (x1 , . . . , xn ) ,
est l’estimation (du paramètre au vu de l’échantillon observé).
Cahier de Mathématiques Appliquées no 5
6
Prenons l’exemple simple d’une pièce dont on ignore si elle est ou non truquée. La probabilité de tomber sur pile est le paramètre inconnu θ = p. On se propose de réaliser 10 lancers de la pièce, que l’on modélisera par un échantillon de taille 10 de la loi de Bernoulli de paramètre p. Le nombre de pile obtenu sur les 10 lancers est une variable aléatoire qui suit la loi binomiale B(10, p). Le quotient de cette variable aléatoire par 10 (la fréquence) est un estimateur de p. Effectuons maintenant les 10 lancers en notant chaque fois 1 si pile sort, et 0 si c’est face. Une réalisation de l’échantillon est par exemple : 0, 1, 1, 0, 1, 1, 1, 0, 0, 1. Pour cette réalisation, la fréquence empirique prend la valeur 0.6, que l’on proposera comme estimation de p. Bien évidemment, 10 nouveaux lancers de la même pièce pourront conduire à une réalisation différente de l’échantillon, et à une estimation différente de p.
1.3
Qualités d’un estimateur
Pour un échantillon de taille n de la loi de Bernoulli de paramètre inconnu p, la fréquence empirique est un estimateur de p. C’est une variable aléatoire qui prend ses valeurs dans [0, 1]. Si n est grand, elle prend avec une forte probabilité des valeurs proches de p, d’après la loi des grands nombres. Quel que soit le modèle et le paramètre à estimer, prendre des valeurs proches de ce paramètre au moins pour de grands échantillons, est la qualité principale que l’on attend d’un estimateur. En toute rigueur, on doit considérer une suite d’estimateurs (Tn ), où pour tout n, Tn est une variable aléatoire fonction de l’échantillon (X1 , . . . , Xn ). Par abus de langage, on appelle encore “estimateur” cette suite. Définition 1.2 On dit que l’estimateur (Tn ) est convergent si pour tout ε > 0: lim P [|Tn − θ| > ε] = 0 . n→∞
Un estimateur convergent s’écarte donc du paramètre avec une faible probabilité, si la taille de l’échantillon est assez grande. L’exemple de base d’estimateur convergent est la moyenne empirique. Nous noterons X n la moyenne empirique de l’échantillon (X1 , . . . , Xn ) : Xn =
X1 + · · · + Xn . n
La loi faible des grands nombres affirme que X n est un estimateur convergent de l’espérance de X. Si le paramètre θ s’exprime comme une fonction continue de IE[X], alors l’image de X n par cette fonction est un estimateur convergent de θ, par la proposition suivante.
Estimation paramétrique
7
Proposition 1.3 Soit (Tn ) un estimateur convergent du paramètre θ, et φ une fonction de IR dans IR, continue au point θ. Alors (φ(Tn )) est un estimateur convergent de φ(θ). Considérons par exemple comme modèle la loi uniforme sur [0, θ], où le paramètre θ est inconnu. La moyenne empirique X n est un estimateur convergent de l’espérance de la loi, qui vaut θ/2. Donc Tn = 2X n est un estimateur convergent de θ. Mais d’autres espérances sont calculables. Par exemple, si X suit la loi uniforme sur [0, θ], alors IE[log(X)] vaut log(θ)−1. Toujours d’après la loi des grands nombres, (log(X1 ) + · · · + log(Xn ))/n est un estimateur convergent de log(θ) − 1. Donc l’estimateur Tn′ suivant est encore un estimateur convergent de θ : log(X ) + · · · + log(X ) 1 n +1 . Tn′ = exp n La notion de convergence ne donne aucune assurance pratique que les valeurs prises par un estimateur seront effectivement dans un rayon fixé autour de la vraie valeur du paramètre, pour une taille d’échantillon donnée. On quantifie la qualité des estimateurs par la notion d’erreur quadratique. Définition 1.4 On appelle erreur quadratique de Tn par rapport à θ la quantité : EQ(Tn , θ) = IE[(Tn − θ)2 ] . L’erreur quadratique est liée à la convergence par la proposition suivante. Proposition 1.5 Si l’erreur quadratique de Tn par rapport à θ tend vers 0 quand n tend vers l’infini, alors (Tn ) est un estimateur convergent de θ. Démonstration : Si |Tn − θ| > ε, alors (Tn − θ)2 > ε2 . Donc : IE[(Tn − θ)2 ] > ε2 IP[|Tn − θ| > ε] . Si IE[(Tn − θ)2 ] tend vers 0, il en est de même de IP[|Tn − θ| > ε].
Si deux estimateurs sont disponibles pour le même paramètre θ, on dira que l’un est meilleur que l’autre si son erreur quadratique par rapport à θ est inférieure. Dans l’exemple ci-dessus, l’erreur quadratique de Tn vaut θ2 /(3n), l’erreur quadratique de Tn′ est équivalente à θ2 /n quand n tend vers l’infini, Tn est donc meilleur que Tn′ . Même pour un estimateur convergent, il peut se faire que les valeurs prises soient décalées en moyenne par rapport à la vraie valeur du paramètre. On dit alors que l’estimateur est biaisé. Définition 1.6 On appelle biais de l’estimateur Tn par rapport à θ la quantité : B(Tn , θ) = IE[Tn − θ] .
Cahier de Mathématiques Appliquées no 5
8
L’estimateur est dit sans biais si B(Tn , θ) = 0, il est dit asymptotiquement sans biais si B(Tn , θ) tend vers 0 quand n tend vers l’infini. Proposition 1.7 L’erreur quadratique de Tn par rapport à θ est la somme de la variance de Tn et du carré du biais. Démonstration : Par linéarité de l’espérance on a : EQ(Tn , θ) = IE[(Tn − θ)2 ] = IE[(Tn − IE[Tn ] + IE[Tn ] − θ)2 ] = IE[(Tn − IE[Tn ])2 ] + (IE[Tn ] − θ)2 + 2(IE[Tn ] − θ)(IE[Tn − IE[Tn ]]) = V ar[Tn ] + (B(Tn , θ))2 + 0 . Quand un estimateur est sans biais, l’erreur quadratique est égale à la variance. Le critère suivant, conséquence immédiate des propositions 1.5 et 1.7 est souvent utilisé pour démontrer qu’un estimateur est convergent. Proposition 1.8 Si un estimateur est sans biais ou asymptotiquement sans biais et si sa variance tend vers 0, alors il est convergent. Quand le biais peut être explicitement calculé, on aura évidemment intérêt à le corriger pour améliorer l’estimateur. Reprenons l’exemple de la loi uniforme sur [0, θ]. Un estimateur naturel de θ est la plus grande valeur de l’échantillon : Tn′′ = max{X1 , . . . , Xn } . Comme toutes les valeurs Xi sont inférieures à θ, l’estimateur Tn′′ sous-estime systématiquement θ. On démontre que son espérance est nθ/(n+1) et donc son biais vaut −θ/(n+1). On peut corriger le biais en introduisant : Tn′′′ =
n + 1 ′′ Tn . n
Ce nouvel estimateur est sans biais, et il est meilleur que Tn′′ . Dans le tableau ci-dessous nous rassemblons les 4 exemples d’estimateurs du paramètre θ pour la loi uniforme U (0, θ), qui ont été introduits jusqu’ici. Le meilleur des quatre est Tn′′′ . Estimateur Tn Tn′ Tn′′ Tn′′′
Biais 0 ∼ θ/(2n) ∼ −θ/n 0
Erreur quadratique θ2 /(3n) ∼ θ2 /n ∼ 2θ2 /n2 ∼ θ2 /n2
Estimation paramétrique
1.4
9
Intervalles de dispersion
L’erreur quadratique mesure la concentration d’un estimateur autour de la valeur du paramètre. Les intervalles de dispersion sont un autre moyen de mesurer la plus ou moins grande concentration d’une loi de probabilité. Ils s’expriment à l’aide de la fonction quantile. Si T est une variable aléatoire, la fonction quantile de la loi de T est la fonction de [0, 1] dans IR qui à u ∈ [0, 1] associe : QT (u) = inf{t t.q. IP[T ≤ t] ≥ u} . Définition 1.9 Soit T une variable aléatoire et α un réel compris entre 0 et 1. On appelle intervalle de dispersion de niveau 1−α tout intervalle de la forme : [ QT (β), QT (1 − α + β) ] , avec 0 ≤ β ≤ α . En statistique, les réels α compris entre 0 et 1 sont de tradition. La même tradition leur affecte prioritairement les valeurs 0.05 et 0.01, plus rarement 0.02, 0.005 ou 0.001. Il faut donc lire α comme “une faible proportion”, et 1 − α comme “une forte proportion”. Un intervalle de dispersion de niveau 1−α pour T est tel que T appartient à cet intervalle avec probabilité 1−α. Il contient donc une forte proportion des valeurs que prendra T , même s’il est en général beaucoup plus petit que le support de la loi. Selon les valeurs de β, on dit qu’un intervalle de dispersion de niveau 1−α est : • unilatéral inférieur si β = 0, • unilatéral supérieur si β = α, • symétrique si β = α/2, • optimal si son amplitude est la plus courte parmi tous les intervalles de dispersion de niveau 1−α. Déterminer un intervalle de dispersion optimal requiert en général un calcul numérique particulier, sauf dans le cas où la loi est symétrique, comme une loi normale ou une loi de Student. On dit que la loi de T est symétrique si pour tout u ∈ [0, 1], QT (u) − QT (0.5) = QT (0.5) − QT (1 − u) . On démontre que si la loi de T est symétrique, alors l’intervalle de dispersion symétrique est optimal. La notion de convergence se traduit en termes d’intervalles de dispersion de la façon suivante. Proposition 1.10 Soit (Tn ) un estimateur du paramètre θ. L’estimateur (Tn ) est convergent si et seulement si pour tout (α, β), avec 0 < β < α, et pour tout ε > 0, l’intervalle de dispersion [ QTn (β), QTn (1 − α + β) ] est inclus dans l’intervalle [θ − ε, θ + ε] à partir d’un certain n.
Cahier de Mathématiques Appliquées no 5
10
loi gamma G(5,0.5) 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00
.
0
3
6
9
12
15
18
21
24
27
30
Figure 1 – Intervalle de dispersion optimal de niveau 0.95 pour la loi gamma G(5, 0.5) (loi du khi-deux de paramètre 10). Démonstration : Dire qu’un estimateur (Tn ) est convergent, c’est dire que la probabilité que Tn appartienne à l’intervalle [θ − ε, θ + ε] tend vers 1 quand la taille n de l’échantillon tend vers l’infini. Si β est différent de 0, il existe n0 tel que pour n supérieur à n0 , la probabilité que Tn soit inférieur à θ − ε, est inférieure à β. Ceci équivaut à dire que θ − ε est inférieur à QTn (β). De même si α−β est différent de 0, il existe n1 tel que pour n supérieur à n1 , la probabilité que Tn soit inférieur à θ+ε, est supérieure à 1−α+β. Ceci équivaut à dire que θ + ε est supérieur à QTn (1 − α + β). Donc pour n supérieur à n0 et n1 , l’intervalle de dispersion [ QTn (β), QTn (1 − α + β) ] est inclus dans l’intervalle [θ − ε, θ + ε]. Réciproquement, si [ QTn (β), QTn (1 − α + β) ] est inclus dans [θ − ε, θ + ε] à partir d’un certain n, alors la probabilité que Tn soit compris entre θ − ε et θ + ε est supérieure à 1 − α. Ceci étant vrai pour tout α > 0, cette probabilité tend vers 1. A titre d’exemple, nous reprenons l’estimateur Tn′′ pour la loi uniforme U (0, θ), à savoir le maximum des valeurs de l’échantillon. Sa fonction quantile est la fonction qui à u ∈ [0, 1] associe : QTn′′ (u) = θ u1/n .
11
Estimation paramétrique
Pour α et β ≤ α fixés, l’intervalle de dispersion [ QTn′′ (β), QTn′′ (1 − α + β) ] a pour longueur : θ(1 − α + β)1/n − θβ 1/n . Il se trouve que l’intervalle de dispersion optimal coïncide avec l’intervalle de dispersion unilatéral supérieur (β = α). La borne de gauche est θα1/n , la borne de droite est θ. Voici quelques valeurs pour la quantité α1/n , qui tend vers 1 quand n tend vers l’infini. . n .. α 10 100 1000
0.05 0.741 0.970 0.997
0.01 0.631 0.955 0.995
0.001 0.501 0.933 0.993
Quand la loi de la variable aléatoire T est discrète, la notion d’intervalle de dispersion recèle une certaine ambiguïté. Considérons par exemple la loi binomiale B(10, 0.6). Voici les valeurs de sa fonction de répartition. i F (i)
1 .002
2 .012
3 .055
4 .166
5 .367
6 .618
7 .833
8 .954
9 .994
10 1
Fixons 1−α = 0.9. En toute rigueur, la valeur de la fonction quantile au point 0.9 est 7. L’intervalle [0, 7] devrait donc être un intervalle de dispersion de niveau 0.9 pour la loi B(10, 0.6). Pourtant sa probabilité n’est que de 0.833. Pour les calculs utilisant les intervalles de dispersion, on applique toujours un principe de précaution, qui consiste à garantir le niveau. On qualifiera donc d’intervalle de dispersion de niveau 1 − α les intervalles dont la probabilité est supérieure ou égale à 1−α. Ce principe amène à modifier la définition 1.9 pour les lois discrètes à valeurs dans IN, en remplaçant la borne de droite QT (1 − α + β) par 1 + QT (1 − α + β). Le tableau ci-dessous donne une liste d’intervalles de dispersion de niveau ≥ 0.9, avec leur probabilité exacte, pour la loi B(10, 0.6). Intervalle Probabilité
[0, 8] 0.954
[1, 8] 0.954
[2, 8] 0.952
[3, 8] 0.941
[4, 9] 0.939
[4, 10] 0.945
Deux intervalles sont d’amplitude minimale, [3, 8] et [4, 9]. On choisira celui dont la probabilité est la plus grande, à savoir [3, 8]. La figure 2 représente en fonction de p les intervalles de dispersion optimaux, au sens défini cidessus, pour la loi binomiale B(10, p), ainsi que les intervalles de dispersion symétriques.
1.5
Exemples d’estimateurs
Dans cette section, nous illustrons les notions d’estimateur, de convergence et de biais sur trois exemples, l’estimation d’une variance, le problème des questions confidentielles, et les comptages par capture-recapture.
Cahier de Mathématiques Appliquées no 5
12
Intervalles de dispersion : loi binomiale 10 9 8 7 6 5 4 3 2 1 .
0 0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Figure 2 – Intervalles de dispersion optimaux (trait plein) et symétriques (pointillés) de niveau ≥ 0.9 pour la loi binomiale B(10, p). Estimateurs de la variance Soit (X1 , . . . , Xn ) un échantillon d’une loi inconnue P , qui sera supposée admettre des moments de tous ordres. Nous avons vu que la moyenne empirique X n = (X1 +· · ·+Xn )/n est un estimateur convergent de l’espérance. C’est un estimateur sans biais, et sa variance est égale à la variance de la loi P , divisée par n. Comment estimer la variance de P ? L’estimateur le plus naturel est le suivant. Définition 1.11 On appelle variance empirique de l’échantillon (X1 , . . . , Xn ) l’estimateur : n
Sn2 =
1X (Xi − X n )2 . n i=1
Si X désigne une variable aléatoire de loi P , Sn2 est bien un estimateur convergent de V ar[X] = IE[(X − IE[X])2 ]. Mais ce n’est pas un estimateur sans biais. En effet : Proposition 1.12 IE[Sn2 ] =
n−1 V ar[X] . n
13
Estimation paramétrique 2
Démonstration : Calculons tout d’abord IE[X n ]. 2
IE[X n ] =
1 IE[(X1 + · · · + Xn )2 ] n2
n n 1 X 2 X X Xi Xj . Xi + = 2 IE n i=1 i=1 j6=i
Par définition d’un échantillon, X1 , . . . , Xn sont indépendantes et de même loi. Donc IE[Xi2 ] = IE[X 2 ] et IE[Xi Xj ] = (IE[X])2 , où X est une variable aléatoire quelconque de loi P . En reportant ces valeurs on obtient : 2
1 nIE[X 2 ] + n(n − 1)(IE[X])2 ) 2 n 1 n−1 = IE[X 2 ] + (IE[X])2 . n n
IE[X n ] =
On a donc : 1 n−1 1 IE[X12 + · · · + Xn2 ] − IE[X 2 ] − (IE[X])2 ) n n n n−1 n−1 IE[X 2 ] − (IE[X])2 ) = n n n−1 = V ar[X] . n
IE[Sn2 ] =
Sn2
Pour transformer en un estimateur non biaisé, il suffit de corriger le biais par un facteur multiplicatif. Définition 1.13 On appelle variance empirique non biaisée l’estimateur : n
1 X n Sn2 = (Xi − X n )2 . Vn = n−1 n − 1 i=1
p √ qu’en général On peut estimer l’écart-type par Sn2 ou bien Vn . Notons p p √ aussi bien Vn que Sn2 sont des estimateurs biaisés de V ar[X]. La différence entre les deux estimateurs tend vers 0 quand la taille n de l’échantillon tend vers l’infini. Néanmoins, la plupart des calculatrices proposent les deux estimateurs de l’écart-type (touches σn et σn−1 ). Certains √ logiciels (en 2parVn , d’autres Sn ou ticulier Scilab) calculent par défaut la valeur de V ou n p Sn2 . Dans la suite, nous utiliserons surtout Sn2 , malgré l’inconvénient du biais.
Cahier de Mathématiques Appliquées no 5
14 Questions confidentielles
Certains sujets abordés dans les enquêtes d’opinion sont parfois assez intimes, et on court le risque que les personnes interrogées se refusent à répondre franchement à l’enquêteur, faussant ainsi le résultat. On peut alors avoir recours à une astuce consistant à inverser aléatoirement les réponses. Considérons une question confidentielle pour laquelle on veut estimer la probabilité p de réponses positives. L’enquêteur demande à chaque personne interrogée de lancer un dé. Si le dé tombe sur 6, la personne doit donner sa réponse sans mentir, sinon elle doit donner l’opinion contraire à la sienne. Si l’enquêteur ignore le résultat du dé, il ne pourra pas savoir si la réponse est franche ou non, et on peut espérer que la personne sondée acceptera de jouer le jeu. Généralisons légèrement la situation en tirant pour chaque personne une variable de Bernoulli de paramètre α. Si le résultat de cette variable est 1, la réponse est franche, sinon, elle est inversée. Soit n le nombre de personnes interrogées. L’enquêteur ne recueille que la fréquence empirique Fn des “oui”. La proportion inconnue des “oui” à l’issue de la procédure est q = αp + (1 − α)(1 − p), et la fréquence Fn observée par l’enquêteur est un estimateur sans biais et convergent de q. Remarquons que si α = 1/2, q vaut 1/2 quel que soit p. Mais si α 6= 1/2, on peut exprimer p en fonction de q : p=
q−1+α . 2α − 1
On peut donc proposer comme estimateur de p la quantité suivante : Tn =
Fn − 1 + α . 2α − 1
L’espérance de Tn est p. La variance de Tn vaut : q(1 − q) p(1 − p) α(1 − α) = + . n(2α − 1)2 n n(2α − 1)2 L’estimateur Tn est sans biais, sa variance tend vers 0, il est donc convergent. Pour n fixé, la variance de T tend vers l’infini quand α tend vers 1/2. Elle est minimale si α = 0 ou 1 (mais alors la procédure perd tout son intérêt). Le problème est donc de choisir une valeur de α qui soit assez grande pour que la confidentialité soit crédible, mais suffisamment éloignée de 1/2 pour ne pas trop augmenter la variance de l’estimateur. Pour le dé, la valeur de α est 1/6 et le terme additionnel de la variance est proportionnel à α(1−α)/(2α−1)2 = 0.3125. Comptages par capture-recapture Comment estimer le nombre d’espèces d’insectes vivant sur la terre, alors que de nombreuses espèces sont encore inconnues ? Comment connaît-on la population de baleines dans les océans ? Le comptage par capture-recapture
15
Estimation paramétrique
permet d’évaluer des tailles de populations pour lesquelles un recensement exhaustif est impossible. La méthode est basée sur une idée simple. Considérons une population, de taille N inconnue. On prélève dans un premier temps un groupe d’individus, de taille m fixée. Ces individus sont recensés et marqués de façon à être reconnus ultérieurement. Plus tard, on prélève un nouveau groupe de taille n, et on observe le nombre X d’individus marqués dans ce nouveau groupe. Si le deuxième prélèvement est indépendant du premier, la loi de X est la loi hypergéométrique de paramètres N , m et n, d’espérance nm/N . On peut s’attendre à ce que la proportion X/n d’individus marqués dans le deuxième échantillon soit proche de la proportion d’individus marqués dans l’ensemble de la population, m/N . Il est donc raisonnable de proposer comme estimateur de N la quantité suivante : T =
nm . X
L’inconvénient de cet estimateur est qu’il n’est pas défini si X prend la valeur 0, ce qui arrive avec une probabilité strictement positive. On peut corriger ce défaut de deux manières. La première consiste à remplacer X par X + 1, ce qui ne devrait pas fausser trop le résultat si les nombres envisagés sont assez grands. Posons donc : nm . T′ = X +1 La seconde manière consiste à décider de rejeter a priori les échantillons pour lesquels on n’obtiendrait pas d’individu marqué. Ceci revient à remplacer X par une autre variable aléatoire X ′ dont la loi est la loi conditionnelle de X sachant que X est strictement positif. Posons donc : T ′′ =
nm . X′
Pour des valeurs de N , m et n particulières, on peut calculer numériquement les espérances et les écarts-types de ces estimateurs. Le tableau ci-dessous résume des résultats obtenus pour m = n = 100 et différentes valeurs de N . N ′ IE[T ] p V ar[T ′ ] ′′ pIE[T ] V ar[T ′′ ]
200 197.0 13.9 201.0 14.5
300 295.1 34.4 304.2 36.6
400 393.1 60.2 409.6 65.6
500 491.1 90.7 517.5 101.5
1000 981.3 309.3 1102.0 420.2
5000 4291.1 2459.5 5767.9 2995.4
Les deux estimateurs sont biaisés, le premier a tendance à sous-estimer la taille N de la population, le deuxième à la sur-estimer. L’écart-type augmente plus rapidement que N . Il est naturel que la précision relative soit d’autant plus faible que les échantillons recueillis sont petits devant la taille inconnue de la population.
Cahier de Mathématiques Appliquées no 5
16
2 2.1
Recherche d’estimateurs Méthode des moments
Considérons encore une loi de probabilité Pθ dépendant du paramètre inconnu θ, et un échantillon (X1 , . . . , Xn ) de cette loi. Soit f une fonction de IR dans IR. Si X est une variable aléatoire de loi Pθ , la loi de f (X) dépend aussi en général de θ, et il en est de même de son espérance. Mais IE[f (X)] peut être estimée par la moyenne empirique de (f (X1 ), . . . , f (Xn )). Si θ s’exprime en fonction de IE[f (X)], on en déduira alors un estimateur de θ. Nous avons déjà utilisé cette technique plusieurs fois dans les deux paragraphes précédents. Dans la plupart des cas, f (X) est une puissance de X, ou de X − IE[X]. Les quantités IE[X k ] et IE[(X − IE[X])k ] s’appellent les moments de X, d’où le nom de la méthode. Nous donnons trois exemples d’application, aux lois gamma, bêta, et binomiale négative. Lois gamma Si X suit la loi gamma de paramètres a et λ, son espérance et sa variance valent : a a et V ar[X] = 2 . IE[X] = λ λ On peut donc exprimer a et λ en fonction de IE[X] et V ar[X] : a=
IE[X]2 V ar[X]
et λ =
IE[X] . V ar[X]
Si on dispose d’un échantillon (X1 , . . . , Xn ) de la loi gamma de paramètres a et λ, la moyenne empirique X et la variance empirique S 2 sont des estimateurs convergents de IE[X] et V ar[X] respectivement. On en déduit deux estimateurs convergents de a et λ : 2
A=
X S2
et Λ =
X . S2
Lois bêta La même technique permet d’estimer les paramètres d’une loi bêta. Si X suit la loi bêta de paramètres a et b, son espérance et sa variance valent : IE[X] =
a a+b
et V ar[X] =
ab (a +
b)2 (a
+ b + 1)
.
On peut exprimer a et b en fonction de IE[X] = E et V ar[X] = V : a=
E(E − E 2 − V ) V
et b =
E − 2E 2 + E 3 − V + EV . V
Si on dispose d’un échantillon de la loi bêta de paramètres a et b, la moyenne empirique X et la variance empirique S 2 sont des estimateurs convergents de
17
Estimation paramétrique
IE[X] et V ar[X] respectivement. On en déduit deux estimateurs convergents de a et b en remplaçant E et V par leurs estimateurs X et S 2 dans les expressions ci-desssus. Lois binomiales négatives Appliquons à nouveau la technique à une loi binomiale négative. Si X suit la loi binomiale négative de paramètres n et p, son espérance et sa variance valent : n(1 − p) n(1 − p) IE[X] = et V ar[X] = . p p2 On peut exprimer n et p en fonction de IE[X] et V ar[X] : n=
(IE[X])2 V ar[X] − IE[X]
et p =
IE[X] . V ar[X]
On en déduit deux estimateurs convergents de n et p en remplaçant IE[X] et V ar[X] par leurs estimateurs X et S 2 dans ces expressions. L’inconvénient principal de la méthode des moments est que les estimateurs qu’elle fournit sont en général assez peu précis, et qu’il est difficile d’étudier leur loi autrement que par simulation.
2.2
Estimation par ajustement
La modélisation probabiliste en statistique consiste à supposer qu’un échantillon observé (x1 , . . . , xn ) est une réalisation d’un échantillon théorique d’une certaine loi de probabilité Pθ , où le paramètre θ est inconnu. Si tel était le cas, la distribution empirique Pb de l’échantillon observé devrait être proche de Pθ . La distribution empirique d’un échantillon est la loi de probabilité sur l’ensemble des valeurs, qui affecte chaque individu du poids 1/n. Définition 2.1 Soit (x1 , . . . , xn ) un échantillon observé, c1 , . . . , ck les valeurs distinctes prises par les xi et pour h = 1, . . . , k : nh =
n X
11c
h
(xi ) ,
i=1
le nombre de fois où la valeur ch a été observée. La distribution empirique de l’échantillon est la loi de probabilité Pb sur l’ensemble {c1 , . . . , ck }, telle que : nh . Pb(ch ) = n
Parmi les moyens de quantifier l’ajustement d’une distribution empirique à une loi de probabilité théorique, nous en retiendrons deux : la distance du khi-deux (réservée aux lois discrètes) et la distance de Kolmogorov-Smirnov.
Cahier de Mathématiques Appliquées no 5
18
Définition 2.2 Soit {c1 , . . . , cr } un ensemble fini fixé. Soit P = (P (ch )) , h = 1, . . . , r une loi de probabilité sur cet ensemble, et Pb = (Pb(ch )) , h = 1, . . . , r une distribution empirique sur cet ensemble. On appelle distance du khi-deux de Pb par rapport à P , et on note Dχ2 (P, Pb), la quantité : r X (P (ch ) − Pb (ch ))2 Dχ2 (P, Pb) = . P (ch ) h=1
La distance de Kolmogorov-Smirnov est la distance de la norme uniforme entre fonctions de répartition. Rappelons que la fonction de répartition empirique de l’échantillon (x1 , . . . , xn ) est la fonction de répartition de sa distribution empirique. C’est la fonction en escalier Fb qui vaut 0 avant x(1) , i/n entre x(i) et x(i+1) , et 1 après x(n) (les x(i) sont les statistiques d’ordre, c’est-à-dire les valeurs ordonnées de l’échantillon).
Définition 2.3 Soient F la fonction de répartition d’une loi de probabilité et Fb la fonction de répartition empirique de l’échantillon (x1 , . . . , xn ). On appelle distance de Kolmogorov-Smirnov de F et Fb , et on note DKS (F, Fb ), la quantité : DKS (F, Fb ) = max
i=1,...,n
n i−1 o i . F (x(i) ) − , F (x(i) ) − n n
Etant donnés un échantillon et une famille de lois de probabilité Pθ , dépendant du paramètre inconnu θ, il est naturel de choisir comme modèle celle des lois de la famille qui s’ajuste le mieux aux données. Cela revient à donner comme estimation de θ celle pour laquelle la distance entre la loi théorique Pθ et la distribution empirique de l’échantillon est la plus faible. Considérons par exemple un échantillon de données binaires. Notons f la fréquence empirique des 1. La distance du khi-deux entre la loi de Bernoulli de paramètre p et la distribution empirique est : Dχ2 =
(1 − f − 1 + p)2 (f − p)2 (f − p)2 + = . p 1−p p(1 − p)
Cette distance est évidemment minimale pour p = f . Ceci s’étend trivialement à un nombre fini quelconque d’éventualités : la loi de probabilité qui ajuste le mieux une distribution empirique sur c1 , . . . , ck au sens de la distance du khi-deux est celle qui charge chaque valeur ch avec une probabilité égale à la fréquence expérimentale de cette valeur. En pratique, il est rare que l’on puisse ainsi calculer explicitement l’estimation d’un paramètre par ajustement. On doit alors procéder à une minimisation numérique sur le paramètre inconnu.
19
Estimation paramétrique
2.3
Estimateurs des moindres carrés
Jusqu’ici le seul modèle probabiliste que nous ayons envisagé pour des données observées considérait qu’elles étaient des réalisations de variables indépendantes et de même loi. Cela revient à supposer que les individus sur lesquels les données ont été recueillies sont interchangeables, et que les différences observées entre eux sont seulement imputables au hasard. Dans de nombreuses situations, on cherche à expliquer ces différences, c’est-à-dire à les attribuer à l’effet d’autres caractères mesurés sur les mêmes individus. La modélisation probabiliste considérera que la mesure (à expliquer) effectuée sur un individu donné est une variable aléatoire, dont la loi dépend des valeurs prises sur cet individu par les caractères explicatifs, considérés comme déterministes. Si Yi désigne la variable aléatoire associée à l’individu i, et (1) (k) (xi , . . . , xi ) les valeurs prises pour cet individu par les caractères explica(1) tifs (x , . . . , x(k) ), on séparera l’effet déterministe et l’effet aléatoire par un modèle du type : (k) (1) Yi = f (xi , . . . , xi ) + Ei , où (E1 , . . . , En ) est un n-uplet de variables aléatoires indépendantes et de même loi. On parle alors de modèle de régression. La fonction f dépend de un ou plusieurs paramètres inconnus que l’on doit estimer. On choisit pour cela de minimiser l’erreur quadratique définie par : n
EQ(f ) =
1X (1) (k) (Yi − f (xi , . . . , xi ))2 . n i=1
Dans certains cas classiques, on sait résoudre explicitement ce problème de minimisation, et la solution est implémentée dans les environnements de calculs statistiques. Quand une résolution explicite est impossible, on a recours à des algorithmes de minimisation, comme l’algorithme du gradient. Le cas le plus basique est celui de la régression linéaire simple, où un seul caractère est explicatif, et la fonction f est affine : Yi = axi + b + Ei . L’erreur quadratique est alors : n
1X EQ(a, b) = (Yi − axi − b)2 . n i=1 Les valeurs de a et b qui minimisent l’erreur quadratique s’expriment en fonction des moyennes, variances et covariances empiriques de x et de Y . Nous notonsP : • x = n1 Pxi la moyenne empirique de x. • s2x = n1 (xi − x)2 la variance empirique de x. P Yi la moyenne empirique de Y . • Y = n1
Cahier de Mathématiques Appliquées no 5
20
P • SY2 = n1 (Yi − Y )2 la variance empirique de Y . P • cxY = n1 (xi − x)(Yi − Y ) la covariance de x et Y . le coefficient de corrélation de x et Y . • rxY = √cxY 2 2 sx S Y
Proposition 2.4 Si s2x 6= 0 (le caractère x n’est pas constant), la fonction EQ(a, b) admet un minimum pour : cxY A= 2 et B = Y − Ax . sx La valeur de ce minimum est : 2 EQ(A, B) = SY2 (1 − rxY ).
Les variables aléatoires A et B sont les estimateurs des moindres carrés des paramètres a et b. On peut utiliser les estimateurs des moindres carrés pour estimer les paramètres de certaines lois, dans un problème d’ajustement. Nous traitons à titre d’exemple les lois normales et les lois de Weibull. Lois normales Soit Y = (Y1 , . . . , Yn ) un échantillon de taille n de la loi normale N (µ, σ 2 ), les paramètres µ et σ 2 étant inconnus. Pour i = 1, . . . , n, notons Y(i) les statistiques d’ordre (valeurs Yi ordonnées de la plus grande à la plus petite). Si l’hypothèse de normalité est pertinente, alors Y(i) doit être proche du quantile QN (µ,σ2 ) (i/n) de la loi N (µ, σ 2 ). Rappelons que si une variable aléatoire X suit la loi N (0, 1), alors Y = σX + µ suit la loi N (µ, σ 2 ). Ceci revient à dire que pour tout u ∈ [0, 1] : QN (µ,σ2 ) (u) = σQN (0,1) (u) + µ . Notons xi = QN (0,1) (i/n) les valeurs de la fonction quantile de la loi N (0, 1) aux points i/n. Si l’hypothèse de normalité est vérifiée, les points de coordonnées (xi , Y(i) ) devraient être proches de la droite d’équation y = σx + µ. Les estimateurs des moindres carrés A et B pour la régression linéaire simple des Y(i) sur les xi sont donc des estimateurs de σ et µ respectivement. Lois de Weibull La fonction quantile de la loi de Weibull W(a, λ) est : 1/a 1 . QW(a,λ) (u) = − log(1 − u) λ Soit Y = (Y1 , . . . , Yn ) un échantillon de la loi W(a, λ), de paramètres a et λ inconnus. Pour i = 1, . . . , n, la statistique d’ordre Y(i) doit être proche du quantile QW(a,λ) (i/n) : 1/a i 1 , Y(i) ≈ − log(1 − ) λ n
21
Estimation paramétrique soit :
1 i 1 1 log(Y(i) ) ≈ log − log(1 − ) + log . a n a λ
Posons xi = log(− log(1 − i/n)) et Yi′ = log(Y(i) ). Les points (xi , Yi′ ) devraient être proches de la droite d’équation y = (1/a)x + (1/a) log(1/λ). Les estimateurs des moindres carrés A et B pour la régression linéaire simple des Yi′ sur les xi sont des estimateurs de 1/a et (1/a) log(1/λ) respectivement. Donc 1/A et e−B/A sont des estimateurs de a et λ respectivement.
2.4
Notion de vraisemblance
Etant donné un échantillon observé (x1 , . . . , xn ) et une loi de probabilité Pθ , la vraisemblance quantifie la probabilité que les observations proviennent effectivement d’un échantillon (théorique) de la loi Pθ . Prenons l’exemple de 10 lancers de pièce. L’échantillon binaire observé est par exemple : 0, 1, 1, 0, 1, 1, 1, 0, 0, 1. Pour un échantillon de taille 10 de la loi de Bernoulli de paramètre p, la probabilité d’une telle réalisation est p6 (1 − p)4 . Voici quelques valeurs numériques. p p6 (1 − p)4
0.3 1.8 10−4
0.4 5.3 10−4
0.5 9.8 10−4
0.6 1.2 10−3
0.7 9.5 10−4
0.8 4.2 10−4
Il est naturel de choisir comme estimation de p, celle pour laquelle la probabilité de l’échantillon observé est la plus forte, à savoir ici p = 0.6. La figure 3 compare les fonctions qui à p associent p0.6n (1−p)0.4n pour différentes valeurs de n. Toutes ont leur maximum en p = 0.6. Le maximum est d’autant plus marqué que n est grand. Définition 2.5 Soit C un ensemble fini ou dénombrable, {Pθ } une famille de lois de probabilité sur C, et n un entier. On appelle vraisemblance associée à la famille {Pθ }, la fonction qui à un n-uplet (x1 , . . . , xn ) d’éléments de C et à une valeur θ du paramètre associe la quantité : L(x1 , . . . , xn , θ) =
n Y
Pθ (xi ) .
i=1
L’interprétation est la suivante. Considérons un échantillon théorique (X1 , . . . , Xn ) de la loi Pθ . Par définition, les variables aléatoires X1 , . . . , Xn sont indépendantes et de même loi Pθ . Donc la probabilité que l’échantillon théorique (X1 , . . . , Xn ) ait pour réalisation l’échantillon observé (x1 , . . . , xn ) est le produit des probabilités pour que Xi prenne la valeur xi , à savoir : IP[(X1 , . . . , Xn ) = (x1 , . . . , xn )] = L(x1 , . . . , xn , θ) .
Cahier de Mathématiques Appliquées no 5
22
Vraisemblances pour la loi binomiale L 3.0
2.5
2.0
1.5
1.0
0.5 p 0.0
.
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Figure 3 – Vraisemblances pour un échantillon de taille n de la loi de Bernoulli, dont la fréquence de 1 est 0.6. La taille n varie de 5 à 50 par pas de 5, la vraisemblance est multipliée par 2n pour que les échelles graphiques restent comparables.
Dans le cas d’un modèle continu, la loi Pθ a une densité sur IR, et la probabilité pour que l’échantillon prenne une valeur particulière est toujours nulle. Il faut alors remplacer la probabilité Pθ par sa densité dans la définition de la vraisemblance. Définition 2.6 Soit {Pθ } une famille de lois de probabilité continues sur IR et n un entier. Notons fθ la densité de probabilité de la loi Pθ . On appelle vraisemblance associée à la famille {Pθ }, la fonction qui à un n-uplet (x1 , . . . , xn ) d’éléments de IR et à une valeur θ du paramètre associe la quantité : L(x1 , . . . , xn , θ) =
n Y
fθ (xi ) .
i=1
L’interprétation est la suivante. Considérons un échantillon théorique (X1 , . . . , Xn ) de la loi continue Pθ . Soit ε un réel strictement positif (petit). La probabilité que l’échantillon théorique (X1 , . . . , Xn ) ait une réalisation
23
Estimation paramétrique proche “à ε près” de l’échantillon observé (x1 , . . . , xn ) peut s’écrire : i h IP X1 ∈ [x1 − 2ε , x1 + 2ε ] et . . . et Xn ∈ [xn − 2ε , xn + 2ε ] Qn R x + ε = i=1 xii− ε2 fθ (x) dx 2 Qn ≃ i=1 ε fθ (xi ) = εn L(x1 , . . . , xn , θ) .
Estimer un paramètre par la méthode du maximum de vraisemblance, c’est proposer comme valeur de ce paramètre celle qui rend maximale la vraisemblance, à savoir la probabilité d’observer les données comme réalisation d’un échantillon de la loi Pθ . Définition 2.7 Supposons que pour toute valeur (x1 , . . . , xn ), la fonction qui à θ associe L(x1 , . . . , xn , θ) admette un maximum unique. La valeur θb pour laquelle ce maximum est atteint dépend de (x1 , . . . , xn ) : θb = τ (x1 , . . . , xn ) = arg max L(x1 , . . . , xn , θ) .
On l’appelle estimation par maximum de vraisemblance. Si (X1 , . . . , Xn ) est un échantillon (théorique) de la loi Pθ , la variable aléatoire : T = τ (X1 , . . . , Xn ) , est l’estimateur du maximum de vraisemblance de θ. Reprenons l’exemple de la loi uniforme sur l’intervalle [0, θ]. Sa densité est : 1 fθ (x) = 11[0,θ] (x) . θ La vraisemblance est la fonction qui à n réels x1 , . . . , xn et à une valeur positive θ associe : L(x1 , . . . , xn , θ) =
n Y 1
i=1
θ
11[0,θ] (xi )
1 11[0,θ]n (x1 , . . . , xn ) θn 1 = n 11[max{xi },+∞[ (θ) . θ
=
Vue comme fonction de θ, la vraisemblance est nulle si θ est inférieur à la plus grande des valeurs observées, elle vaut 1/θn sinon. Elle est donc maximale pour : θb = max{x1 , . . . , xn } .
Cahier de Mathématiques Appliquées no 5
24
Si (X1 , . . . , Xn ) est un échantillon de la loi uniforme U (0, θ), l’estimateur du maximum de vraisemblance de θ est : T = max{X1 , . . . , Xn } . Pour la plupart des lois de probabilité usuelles, l’estimateur du maximum de vraisemblance est défini de façon unique, et se calcule explicitement. Sur le plan théorique, il présente de nombreux avantages. Sous des hypothèses vérifiées par de nombreux modèles courants, on démontre qu’il est asymptotiquement sans biais et convergent. On démontre de plus que sa variance est minimale. La méthode du maximum de vraisemblance est donc théoriquement la meilleure des méthodes d’estimation. Nous verrons au paragraphe suivant des exemples de calculs explicites. Quand une détermination explicite est impossible, il faut avoir recours à une détermination numérique, par un algorithme d’optimisation.
2.5
Pratique du maximum de vraisemblance
Dans la plupart des cas d’intérêt pratique, la loi Pθ et donc aussi la vraisemblance, ont une expression dérivable par rapport à θ. Pour calculer le maximum de la vraisemblance, il faut déterminer les valeurs pour lesquelles la dérivée de la vraisemblance s’annule. Or par définition, la vraisemblance est un produit de probabilités ou de densités, qui peut être assez compliqué à dériver. Il est préférable de dériver une somme, et c’est pourquoi on commence par remplacer la vraisemblance par son logarithme. La fonction logarithme étant croissante, il est équivalent de maximiser log(L(x1 , . . . , xn , θ)) ou L(x1 , . . . , xn , θ). Une fois déterminée une valeur de θ pour laquelle la dérivée s’annule, il faut s’assurer à l’aide de la dérivée seconde que ce point est bien un maximum. Nous traitons ci-dessous quelques familles classiques. Lois de Bernoulli L’ensemble des valeurs possibles est {0, 1}. Le paramètre inconnu est p. Si (x1 , . . . , xn ) ∈ {0, 1}n est un échantillon, la vraisemblance vaut : L(x1 , . . . , xn , p) = p
P
xi
(1 − p)n−
P
xi
.
Son logarithme est : log(L(x1 , . . . , xn , p)) = (
X
xi ) log p + (n −
La dérivée par rapport à p est :
X
xi ) log(1 − p) .
X X 1 1 ∂ log(L(x1 , . . . , xn , p)) =( xi ) − (n − xi ) . ∂p p 1−p
Elle s’annule pour :
pb =
P
xi . n
25
Estimation paramétrique La dérivée seconde est : X X 1 1 ∂ 2 log(L(x1 , . . . , xn , p)) = −( xi ) 2 − (n − xi ) . 2 ∂p p (1 − p)2
Elle est strictement négative, la valeur pb est bien un maximum. Si (X1 , . . . , Xn ) est un échantillon de la loi de Bernoulli de paramètre p, l’estimateur du maximum de vraisemblance de p est : P Xi , n à savoir la fréquence empirique. Lois géométriques L’ensemble des valeurs possibles est IN∗ . Le paramètre inconnu est p ∈]0, 1[. Si (x1 , . . . , xn ) est un échantillon entier, la vraisemblance vaut : L(x1 , . . . , xn , p) = pn (1 − p)
P
xi −n
.
Son logarithme est : log(L(x1 , . . . , xn , p)) = n log p + ( La dérivée par rapport à p est :
X
xi − n) log(1 − p) .
X 1 1 ∂ log(L(x1 , . . . , xn , p)) =n −( xi − n) . ∂p p 1−p
Elle s’annule pour :
La dérivée seconde est :
n pb = P . xi
X 1 1 ∂ 2 log(L(x1 , . . . , xn , p)) = −n − ( xi − n) . 2 2 ∂p p (1 − p)2
Elle est strictement négative, la valeur pb est bien un maximum. Si (X1 , . . . , Xn ) est un échantillon de la loi géométrique de paramètre p, l’estimateur du maximum de vraisemblance de p est : n P , Xi
à savoir l’inverse de la moyenne empirique, ce qui est cohérent avec le fait que le paramètre p est l’inverse de l’espérance.
Cahier de Mathématiques Appliquées no 5
26
Lois exponentielles Le paramètre inconnu est encore λ. Il s’agit ici de lois continues, la vraisemblance est donc un produit de valeurs de la densité. Pour un n-uplet de réels positifs (x1 , . . . , xn ) elle vaut : L(x1 , . . . , xn , λ) =
n Y
λe−λxi = λn e−λ
P
xi
.
i=1
Son logarithme est : log(L(x1 , . . . , xn , λ)) = n log(λ) − λ La dérivée par rapport à λ est :
X
xi .
∂ log(L(x1 , . . . , xn , λ)) 1 X =n − xi . ∂λ λ
Elle s’annule pour :
La dérivée seconde est :
b = Pn . λ xi
n ∂ 2 log(L(x1 , . . . , xn , λ)) =− 2 . ∂λ2 λ b est bien un maximum. Elle est strictement négative, la valeur λ Si (X1 , . . . , Xn ) est un échantillon de la loi exponentielle de paramètre λ, l’estimateur du maximum de vraisemblance de λ est : n P , Xi à savoir l’inverse de la moyenne empirique, ce qui est cohérent avec le fait que le paramètre λ est égal à l’inverse de l’espérance.
Lois normales Pour un paramètre multidimensionnel, le principe est le même, mais les calculs d’optimisation sont plus compliqués. Pour les lois normales, deux paramètres sont inconnus. Afin d’éviter les confusions dans les dérivations, nous noterons v le paramètre de variance, habituellement noté σ 2 . Pour un n-uplet de réels (x1 , . . . , xn ) la vraisemblance vaut : n n Y P (x −µ)2 2 1 1 1 − i2v √ √ L(x1 , . . . , xn , µ, v) = e = e− 2v (xi −µ) . 2πv 2πv i=1 Son logarithme est : log(L(x1 , . . . , xn , λ)) = −
n n 1 X log(v) − log(2π) − (xi − µ)2 . 2 2 2v
Estimation paramétrique
27
Les dérivées partielles par rapport aux paramètres µ et v sont :
et
∂ log(L(x1 , . . . , xn , λ)) 1X = (xi − µ) , ∂µ v
n 1 X ∂ log(L(x1 , . . . , xn , λ)) =− + 2 (xi − µ)2 . ∂v 2v 2v Elle s’annulent pour : P P xi (xi − µ b)2 µ b= et vb = . n n Les dérivées partielles secondes valent :
n ∂ 2 log(L(x1 , . . . , xn , λ)) =− , ∂µ2 v 1 X ∂ 2 log(L(x1 , . . . , xn , λ)) =− 2 (xi − µ) , ∂µ∂v v n 1 X ∂ 2 log(L(x1 , . . . , xn , λ)) = 2− 3 (xi − µ)2 . 2 ∂v 2v v La matrice hessienne (matrice des dérivées partielles secondes) au point (b µ, vb) est donc : n − vb 0 . 0 − 2bnv2 Ses valeurs propres sont négatives, le point (b µ, vb) est bien un maximum. Si (X1 , . . . , Xn ) est un échantillon de la loi normale de paramètres µ et v, les estimateurs du maximum de vraisemblance de µ et v sont respectivement la moyenne et la variance empiriques de l’échantillon, comme on pouvait s’y attendre.
3 3.1
Intervalles de confiance Définitions
En statistique, tout comme en physique, en chimie ou en biologie, donner un résultat sans indication sur sa précision n’a que peu d’intérêt car il n’est pas reproductible. Reprenons l’exemple d’un lancer de pièce truquée, pour laquelle la probabilité p de pile est inconnue. La fréquence empirique de pile est l’estimateur naturel de p. Si sur 100 lancers on obtient 60 pile, l’estimation (ponctuelle) proposée pour p est 0.60. Mais ce résultat n’est pas reproductible. Si on renouvelle les 100 lancers, on obtiendra probablement des estimations différentes. Plutôt que de donner une estimation ponctuelle, on proposera un intervalle, choisi de manière à contrôler par un niveau de confiance, les chances que
28
Cahier de Mathématiques Appliquées no 5
le résultat aurait d’être confirmé si on renouvelait l’expérience. On cherche à distinguer les valeurs du paramètre pour lesquelles l’observation (60 pile sur 100 lancers) est plausible, des valeurs pour lesquelles elle est trop peu vraisemblable. Notons F la fréquence empirique et n le nombre de lancers. La variable aléatoire nF suit la loi binomiale B(n, p). Le calcul numérique donne les valeurs suivantes. QB(100,0.523) (0.95) = 60 et QB(100,0.682) (0.05) = 60 . Pour toute valeur de p inférieure à 0.523, la probabilité d’observer sur 100 tirages une fréquence supérieure à 0.60 est inférieure à 0.05. Pour toute valeur de p supérieure à 0.682, la probabilité d’observer sur 100 tirages une fréquence inférieure à 0.60 est inférieure à 0.05. En d’autres termes, pour tout p dans l’intervalle [0.523, 0.682], on a : 60 ∈ [ QB(100,p) (0.05) , QB(100,p) (0.95) ] , c’est-à-dire que 60 est dans l’intervalle de dispersion symétrique de niveau 0.9 pour la loi B(100, p). Il est donc raisonnable de proposer [0.523, 0.682] comme intervalle d’estimation pour la valeur de p. La définition d’un intervalle de confiance est la suivante. Définition 3.1 Soit (X1 , . . . , Xn ) un échantillon de la loi Pθ . On appelle intervalle de confiance de niveau 1 − α un intervalle aléatoire [T1 , T2 ], où T1 ≤ T2 sont deux statistiques, fonctions de l’échantillon, telles que : IP[ θ ∈ [T1 , T2 ] ] = 1 − α . Si on réalise n simulations indépendantes de la loi Pθ , les variables aléatoires T1 et T2 prendront des valeurs particulières t1 et t2 . L’encadrement θ ∈ [t1 , t2 ] sera alors vrai ou faux. Pour α = 0.05, si on répète 100 fois la série de n expériences pour obtenir 100 intervalles, on peut s’attendre à ce que cinq d’entre eux ne contiennent pas θ. En général, les intervalles de confiance se construisent à partir des intervalles de dispersion d’un estimateur. Soit T un estimateur de θ. Parmi les intervalles de dispersion de T , nous devons effectuer un choix cohérent (le même pour toutes les valeurs de θ). Le plus facile est de considérer l’intervalle de dispersion symétrique : [QT (α/2) , QT (1 − α/2)] . Sauf si la loi de T est symétrique (les intervalles symétriques sont alors optimaux), on obtiendra des résultats plus précis en calculant les intervalles de dispersion optimaux (dont l’amplitude est minimale). Ce choix étant effectué, fixons le niveau 1−α et notons [q(θ) , q(θ)] l’intervalle de dispersion pour la loi de T . Pour toute valeur de θ, on a : IP[ T ∈ [q(θ) , q(θ)] ] = 1 − α .
29
Estimation paramétrique
Si T est un estimateur convergent de θ et la taille de l’échantillon est assez grande, nous avons vu (proposition 1.10) que q(θ) et q(θ) sont proches de θ. En pratique, si Pθ est une loi continue, ce sont des fonctions strictement croissantes de θ. On peut donc définir leurs inverses q −1 (t) et q −1 (t). Proposition 3.2 Si q et q sont strictement croissantes, l’intervalle [q −1 (T ) , q −1 (T )] est un intervalle de confiance de niveau 1−α pour θ. Démonstration : La fonction q(θ) étant croissante, on a : θ ≤ q −1 (T ) ⇐⇒ T ≥ q(θ) , et de même : θ ≥ q −1 (T ) ⇐⇒ T ≤ q(θ) , soit : θ ∈ [q −1 (T ) , q −1 (T )] ⇐⇒ T ∈ [q(θ) , q(θ)] . Ces deux événements étant équivalents, leur probabilité est la même, à savoir 1−α, par définition de l’intervalle de dispersion [q(θ) , q(θ)].
Exemple : loi uniforme sur [0, θ]. Considérons un échantillon (X1 , . . . , Xn ) de la loi U (0, θ), et l’estimateur convergent T = max{X1 , . . . , Xn }. Nous avons vu que l’intervalle de dispersion optimal de niveau 1−α est l’intervalle unilatéral [θα1/n , θ]. On a donc : q(θ) = θα1/n
et q(θ) = θ .
Ces fonctions sont strictement croissantes et donc inversibles : q −1 (t) = t
et q −1 (t) = tα−1/n .
L’intervalle [T, T α−1/n ] est un intervalle de confiance de niveau 1−α pour θ. Remarquons que l’amplitude de l’intervalle diminue (la précision augmente) si n et α augmentent (le niveau de confiance diminue). Supposons par exemple que pour 100 tirages de la loi U (0, θ), le maximum T ait pris la valeur 1.23. Pour α = 0.05, la valeur numérique de la borne supérieure est : 1.23 (0.05)−1/100 = 1.267405 . Il est inutile de donner plus de chiffres significatifs que n’en a l’estimation. Les arrondis doivent toujours aller dans le sens de la garantie du niveau de confiance (agrandissement de l’intervalle). Les bornes inférieures seront donc arrondies par défaut et les bornes supérieures par excès. Ici, on donnera [1.23, 1.27] comme intervalle de confiance pour θ au niveau 0.95.
Cahier de Mathématiques Appliquées no 5
30
Quand la loi Pθ est discrète, l’échantillon (X1 , . . . , Xn ) et donc l’estimateur T ne peuvent prendre que certaines valeurs particulières. Dans ce cas, la fonction quantile de T est une fonction en escalier et les fonctions q(θ) et q(θ) ne sont pas strictement croissantes. Pour une loi discrète, le niveau des intervalles de dispersion n’est pas exact. On pourra seulement garantir que : IP[ T ∈ [q(θ) , q(θ)] ] ≥ 1 − α . Quand il y a ambiguïté sur la valeur prise par un intervalle de confiance, les choix à effectuer iront toujours vers la garantie du niveau de confiance. La procédure de calcul devra être telle que : IP[ θ ∈ [T1 , T2 ] ] ≥ 1 − α. La figure 4 illustre cette procédure pour la situation donnée en exemple au début du paragraphe. Les intervalles de dispersion optimaux pour une fréquence empirique sur un échantillon de taille 100 sont représentés en fonction de p. Si la fréquence de 1 dans l’échantillon est 0.6, l’intervalle de confiance retourné sera celui de la figure, correspondant aux abscisses où la droite horizontale d’ordonnée 0.6 coupe q(p) et q(p).
Loi binomiale B(100,p) 1.0
frequence
0.9 q(p)
0.8
q(p)
0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0
p .
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Figure 4 – Intervalles de dispersion optimaux et intervalle de confiance de niveau ≥ 0.9 pour la loi binomiale B(100, p).
31
Estimation paramétrique
3.2
Echantillons gaussiens
Ce paragraphe est consacré à la construction d’intervalles de confiance de la moyenne et de la variance, pour les échantillons gaussiens, autrement dit les échantillons de la loi normale N (µ, σ 2 ). L’avantage de cette situation est que les estimateurs naturels de l’espérance et de la variance ont des lois explicitement calculables. Nous notons (X1 , . . . , Xn ) un échantillon de la loi N (µ, σ 2 ), X sa moyenne empirique et S 2 sa variance empirique : n
X=
n
1X Xi n i=1
et S 2 =
1X (Xi − X)2 . n i=1
Nous rassemblons ci-dessous, et nous admettrons, les trois résultats permettant de calculer les intervalles de confiance de µ et σ 2 . Théorème 3.3 Si (X1 , . . . , Xn ) est un échantillon de la loi N (µ, σ 2 ), alors : r n 1. X − µ suit la loi normale N (0, 1). σ2 r n−1 2. X − µ suit la loi de Student T (n−1). S2 nS 2 suit la loi du khi-deux X 2 (n−1). 3. σ2 Les deux premières affirmations servent à estimer l’espérance µ, respectivement dans le cas où la variance σ 2 est connue et dans le cas où elle est inconnue. Commençons par supposer que σ 2 est connue. Posons zα = QN (0,1) (1 − α/2). L’intervalle de dispersion optimal de niveau 1−α pour la loi N (0, 1) est [−zα , zα ]. Deux valeurs de zα sont très souvent utilisées : pour 1−α = 0.95 et 0.99, zα vaut respectivement 1.96 et 2.5758. D’après le point 1 du théorème 3.3, on a : r n X − µ ∈ [−zα , zα ] = 1 − α . IP σ2 Or : r
n X − µ ∈ [−zα , zα ] ⇐⇒ X − µ ∈ σ2 " ⇐⇒ µ ∈
L’intervalle :
"
X − zα
r
"
−zα
X − zα
σ2 , X + zα n
r
r
r
σ2 n
σ2 , zα n
r
σ2 n r
σ2 , X + zα n
#
,
# σ2 n
#
.
Cahier de Mathématiques Appliquées no 5
32
est donc un intervalle de confiance de niveau 1−α pour µ. Le cas où σ 2 est inconnu se traite de la même façon, en remplaçant la loi N (0, 1) par la loi T (n − 1). C’est encore une loi symétrique, pour laquelle l’intervalle de confiance optimal de niveau 1−α est de la forme [−tα , tα ], où : tα = QT (n−1) (1 − α/2) . Le même raisonnement conduit à l’intervalle de confiance suivant pour µ : " # r r S2 S2 X − tα . , X + tα n−1 n−1 Passons maintenant à l’estimation de σ 2 à partir de S 2 . La loi du khi-deux X 2 (n−1) n’est pas symétrique, et l’intervalle de dispersion symétrique n’est pas optimal. Nous noterons uα et vα deux réels positifs tels que [uα , vα ] soit un intervalle de dispersion de niveau 1−α pour la loi X 2 (n−1). On pourra calculer l’intervalle de dispersion optimal par une procédure d’optimisation numérique, ou bien prendre l’intervalle symétrique : uα = QX 2 (n−1) (α/2)
et vα = QX 2 (n−1) (1 − α/2) .
D’après le point 3 du théorème 3.3, on a : nS 2 ∈ [u , v ] =1−α. IP α α σ2 Or :
nS 2 nS 2 nS 2 2 , . ∈ [u , v ] ⇐⇒ σ ∈ α α σ2 vα uα i h 2 nS 2 est donc un intervalle de confiance de niveau 1−α L’intervalle nS vα , uα pour σ 2 .
3.3
Modèle linéaire
Les échantillons gaussiens sont souvent utilisés pour modéliser les erreurs dans les modèles de régression. Ces modèles visent à expliquer un caractère Y (considéré comme aléatoire) par des caractères (déterministes) (x(1) , . . . , x(k) ). On choisit une fonction de régression f , dépendant en général de plusieurs paramètres inconnus, et on écrit les variables aléatoires Yi sous la forme : (1) (k) Yi = f (xi , . . . , xi ) + Ei , où (E1 , . . . , En ) est un n-uplet de variables aléatoires indépendantes et de même loi. Les paramètres inconnus de f seront estimés par la méthode des moindres carrés, en minimisant l’erreur quadratique : n
EQ(f ) =
1X (1) (k) (Yi − f (xi , . . . , xi ))2 . n i=1
33
Estimation paramétrique
Dans le cas où la fonction f est affine et (E1 , . . . , En ) est un échantillon gaussien, on peut déterminer explicitement la loi des estimateurs des moindres carrés, et en déduire des intervalles de confiance. Nous considérons seulement la régression linéaire simple : Yi = axi + b + Ei , où Ei est un échantillon de la loi normale N (0, σ 2 ). En d’autres termes, on suppose que les Yi sont des variables aléatoires gaussiennes indépendantes, d’espérances axi + b distinctes, mais de même variance σ 2 . Le modèle comporte 3 paramètres inconnus, a, b, et σ 2 . On estime a et b en minimisant l’erreur quadratique : n
EQ(a, b) =
1X (Yi − axi − b)2 . n i=1
On obtient ainsi (voir section 2.3) les estimateurs des moindres carrés : A=
cxY s2x
et B = Y − Ax .
L’erreur quadratique minimale est : 2 EQ(A, B) = SY2 (1 − rxY ).
Ces trois variables aléatoires sont des estimateurs convergents de a, b et σ 2 respectivement. Les deux premiers sont non biaisés. L’espérance de EQ(A, B) est (n − 2)σ 2 /n, il est donc asymptotiquement sans biais. On obtient un estimateur sans biais et convergent de σ 2 en posant : V =
n EQ(A, B) . n−2
La prédiction est le premier objectif d’un modèle probabiliste. Dans le cas de la régression linéaire, si un nouvel individu était examiné, avec une valeur observée x∗ pour le caractère x, le modèle entraîne que la valeur Y∗ du caractère expliqué sur cet individu est une variable aléatoire, de loi normale N (ax∗ + b, σ 2 ). Les paramètres de cette loi auront pour estimateurs Ax∗ + B et EQ(A, B) respectivement. Le théorème suivant permet de calculer les lois de ces estimateurs, et donc des intervalles de confiance. On peut le considérer comme une extension du théorème 3.3. Théorème 3.4 Avec les notations précédentes : r ns2x (A − a) suit la loi normale N (0, 1). 1. σ2 r ns2x 2. (A − a) suit la loi de Student T (n − 2). V
Cahier de Mathématiques Appliquées no 5
34 3.
4.
s
s
σ 2 (s2x
ns2x (Ax∗ + B − ax∗ − b) suit la loi normale N (0, 1). + (x∗ − x)2 )
(s2x
ns2x (Ax∗ + B − ax∗ − b) suit la loi de Student T (n − + (x∗ − x)2 )
V 2).
5. (n − 2)
V suit la loi du khi-deux X 2 (n−2). σ2
On utilise ces résultats de la même manière que le théorème 3.3 pour en déduire des intervalles de confiance. Nous notons [−zα , zα ], [−tα , tα ] et [uα , vα ] les intervalles de dispersion optimaux de niveau 1−α pour les lois N (0, 1), T (n − 2) et X 2 (n − 2) respectivement. Voici les intervalles de confiance de niveau 1−α correspondant aux différents points du théorème 3.4. 1. Intervalle de confiance pour a, si σ 2 est connu. s s # " σ2 σ2 . , A + zα A − zα ns2x ns2x 2. Intervalle de confiance pour a, si σ 2 est inconnu. s s " # V V A − tα . , A + tα ns2x ns2x 3. Intervalle de confiance pour ax∗ + b, si σ 2 est connu. s " # σ 2 (s2x + (x∗ − x)2 ) Ax∗ + B ± zα . ns2x 4. Intervalle de confiance pour ax∗ + b, si σ 2 est inconnu. s # " V (s2x + (x∗ − x)2 ) . Ax∗ + B ± tα ns2x 5. Intervalle de confiance pour σ 2 . V V (n − 2) , (n − 2) . vα uα Si on souhaite prédire la valeur de Y∗ = ax∗ +b+E∗ sur un nouvel individu, il faudra tenir compte non seulement de l’erreur commise en estimant la valeur de ax∗ + b mais aussi de la variance σ 2 de E∗ . Ceci augmente l’amplitude de
35
Estimation paramétrique
l’intervalle. Voici l’intervalle de prédiction de Y∗ , toujours au niveau 1 − α, lorsque σ 2 est inconnu (et estimé par V ). s " # V ((n+1)s2x + (x∗ −x)2 ) Ax∗ +B ± tα . ns2x A titre d’exemple, considérons les tailles en centimètres (xi ) et poids en kilogrammes (yi ) de 10 enfants de 6 ans. Enfant Taille Poids
1 121 25
2 123 22
3 108 19
4 118 24
5 111 19
6 109 18
7 114 20
8 103 15
9 110 20
10 115 21
Les caractéristiques numériques prennent les valeurs suivantes : x Y s2x s2Y rxY A B EQ(A, B) 113.2 20.3 34.76 7.61 0.9 0.42 −27.38 1.44 Effectuer une régression linéaire signifie que l’on pense que le poids doit croître en gros proportionnellement à la taille. La droite de régression linéaire constitue un modèle de prédiction. Pour un enfant de taille donnée, on donnera un intervalle de poids, considéré comme “normal”, la normalité étant définie par référence au modèle et aux données. Voici les intervalles de prédiction de niveau 0.95 pour différentes tailles. taille 100 110 120 130
intervalle de poids [10.82 , 18.67] [15.65 , 22.25] [19.72 , 26.61] [23.09 , 31.66]
Les intervalles de prédiction sont d’autant moins précis que la taille de l’échantillon initial était faible et que la valeur de x∗ est plus éloignée de x (voir figure 5). Les résultats qui précèdent s’étendent aux régressions linéaires multiples. Les expressions explicites des intervalles de confiance sont trop compliquées pour être reproduites ici, mais elles sont programmées dans tous les logiciels de statistique standard.
3.4
Normalité asymptotique
La construction des intervalles de confiance nécessite de connaître la loi des estimateurs à partir desquels ils sont construits. En dehors du cas des échantillons gaussiens, ce n’est pas toujours possible. De plus, il est fréquent que les calculs de lois, effectivement implémentables pour de petits échantillons, deviennent infaisables pour un échantillon de grande taille. On cherche
Cahier de Mathématiques Appliquées no 5
36
Poids 40 37 34 31 28 +
25
+ +
22
+ + +
19
+ +
+
16
+
13
Tailles
10 80
85
90
95
100 105 110 115 120 125 130 135 140 145 150
Figure 5 – Tailles et poids d’enfants de 6 ans : droite de régression linéaire et intervalles de prédiction. alors à remplacer la loi de l’estimateur par une approximation plus simple, permettant de construire des intervalles de confiance dont le niveau n’est garanti que pour de grandes tailles d’échantillons. Définition 3.5 Soit (X1 , . . . , Xn ) un échantillon de la loi Pθ . Pour tout n, soient T1,n ≤ T2,n deux statistiques, fonction de l’échantillon (X1 , . . . , Xn ). On dit que [T1,n , T2,n ] est un intervalle de confiance, de niveau asymptotique 1−α pour θ, si : lim IP[θ ∈ [T1,n , T2,n ] ] = 1 − α . n→∞
Le plus souvent, cette notion est utilisée quand on dispose d’un estimateur convergent de θ dont la loi est asymptotiquement normale, ce qui est en général une conséquence du théorème central limite. Nous traitons tout d’abord le cas de l’estimation de l’espérance. Théorème 3.6 Soit (X1 , . . . , Xn ) un échantillon d’une loi de probabilité d’espérance µ, de variance σ 2 . Soit X n sa moyenne empirique et Sn2 sa variance empirique. Posons : r r n n ′ (X (X n − µ) . Zn = − µ) et Z = n n 2 σ Sn2
37
Estimation paramétrique
Les lois des variables aléatoires Zn et Zn′ convergent vers la loi normale N (0, 1). Ce résultat, qui est une reformulation du théorème central limite classique, permet de définir des intervalles de dispersion approchés pour Zn et Zn′ . Fixons le niveau 1−α, et notons [−zα , zα ] l’intervalle de dispersion optimal de la loi N (0, 1). Alors : lim IP[ Zn ∈ [−zα , zα ] ] = lim IP[ Zn′ ∈ [−zα , zα ] ] = 1 − α .
n→∞
n→∞
On en déduit immédiatement deux intervalles de confiance, de niveau asymptotique 1−α pour µ : " # " r r # r r σ2 σ2 Sn2 Sn2 et . , X n + zα , X n + zα X n − zα X n − zα n n n n
Les utilisations de la normalité asymptotique vont bien au-delà de l’estimation des moyennes. A titre d’exemple, nous traitons ci-dessous l’estimation des quantiles d’une loi continue. Considérons un échantillon (X1 , . . . , Xn ) d’une loi continue. Nous noterons f sa densité, F sa fonction de répartition et Q sa fonction quantile. Etant donnée une valeur u ∈]0, 1[, le problème consiste à estimer Q(u) (par exemple, si u = 0.5, Q(u) est la médiane). A l’échantillon (X1 , . . . , Xn ) est associée une fonction quantile empirique. Sa valeur en u est la i-ième statistique d’ordre X(i) , où i est l’entier tel que i−1 < nu ≤ i. Nous noterons Tn cette variable aléatoire. C’est un estimateur convergent de Q(u). On peut écrire explicitement sa densité en fonction de f et F : fTn (x) =
n! F i−1 (x)(1 − F (x))n−i f (x) . (i − 1)!(n − i)!
Cependant, il n’y a pas en général d’expression explicite pour la fonction de répartition ni pour la fonction quantile de Tn , et le calcul numérique des intervalles de dispersion peut être assez problématique pour de grandes valeurs de n. On démontre que la loi de Tn est asymptotiquement normale. Théorème 3.7 Posons : Zn = f (Q(u))
r
n (Tn − Q(u)) . u(1 − u)
La loi de Zn converge vers la loi normale N (0, 1). Comme exemple d’application, nous revenons sur la loi uniforme U (0, θ) (cf. 1.3). Soit (X1 , . . . , Xn ) un échantillon de cette loi et Tn le quantile empirique
Cahier de Mathématiques Appliquées no 5
38
d’ordre u : c’est un estimateur convergent de Q(u) = θu. D’après le théorème 3.7, la variable aléatoire Zn suivante converge vers la loi normale N (0, 1). r n Tn Zn = −u . u(1 − u) θ On en déduit l’intervalle de confiance suivant, de niveau asymptotique 1−α pour θ. !−1 !−1 r r u(1 − u) . Tn u + zα u(1 − u) , T n u − zα n n En pratique, la taille de l’échantillon, même grande, est toujours fixée. Dans l’utilisation de la normalité asymptotique, la question se pose évidemment de la qualité de l’approximation normale à n fixé. A partir de quelle valeur de n est-il légitime de remplacer une loi exacte par son approximation normale pour un calcul d’intervalle de confiance ? Il est impossible de donner des bornes valables dans toutes les situations. A titre d’exemple, nous considérerons trois familles de lois asymptotiquement normales, les lois binomiales, les lois de Poisson et les lois gamma (incluant les lois du khi-deux comme cas particulier). La loi B(n, p), la loi P(n) et la loi G(n, λ) sont proches de la loi normale de même espérance et de même variance, quand n est grand. Le tableau ci-dessous donne les distances de Kolmogorov-Smirnov entre quelques unes de ces lois et leurs approximations normales (la distance de KolmogorovSmirnov est la différence maximale en valeur absolue entre fonctions de répartition). Loi DKS Loi DKS
B(10, 0.5) 0.0027 G(10, 1) 0.0421
B(10, 0.2) 0.0295 G(50, 1) 0.0188
B(100, 0.2) 0.0099 G(100, 1) 0.0133
P(30) 0.0121 X 2 (30) 0.0344
P(100) 0.0066 X 2 (50) 0.0266
P(200) 0.0047 X 2 (100) 0.0188
Les environnements de calcul sont désormais capables d’effectuer des calculs précis de n’importe quel quantile pour toutes les lois usuelles. En règle générale, il faut éviter d’utiliser la normalité asymptotique quand un calcul exact est possible.
Estimation paramétrique
4
39
Exercices
NB : Les valeurs proposées pour les tailles d’échantillons ainsi que pour les paramètres des lois ne sont qu’indicatives. Elles pourront être modulées en fonction de la puissance de calcul disponible. Exercice 1 Soit (X1 , . . . , Xn ) un échantillon de la loi uniforme U (0, θ), où θ est un paramètre inconnu. On considère les estimateurs suivants du paramètre θ. 2 • T1,n = (X1 + · · · + Xn ) n 21 3 2 2 (X + · · · + Xn ) • T2,n = n 1 31 4 3 3 (X + · · · + Xn ) • T3,n = n 1 2 p 3 p • T4,n = ( X1 + · · · + Xn ) 2n 1 • T5,n = e(X1 · · · Xn ) n • T6,n = 2X(⌈ n2 ⌉) • T7,n = 4X(⌈ n4 ⌉) 4 • T8,n = X(⌈ 3n 4 ⌉) 3 • T9,n = max{X1 , . . . , Xn } n+1 max{X1 , . . . , Xn } • T10,n = n (Pour u ∈]0, 1[, ⌈nu⌉ désigne l’entier i tel que i−1 < nu ≤ i, et X(i) est la i-ième statistique d’ordre de l’échantillon.) 1. Montrer que tous sont des estimateurs convergents du paramètre θ. Calculer, lorsque c’est possible, leurs biais et leurs erreurs quadratiques par rapport à θ. 2. Choisir une valeur de θ et simuler 1000 échantillons de taille 100 de la loi U (0, θ). Calculer pour chacun de ces échantillons la valeur prise par les 10 estimateurs. Calculer la moyenne empirique, et la variance empirique des 10 échantillons de taille 1000 ainsi obtenus. En déduire une estimation du biais et de l’erreur quadratique de chacun des 10 estimateurs. 3. A partir des échantillons de la question précédente, représenter des histogrammes pour les 10 estimateurs, et proposer des intervalles de dispersion de niveau 0.9. 4. Proposer un classement des 10 estimateurs. Exercice 2 Soit (X1 , . . . , Xn ) un échantillon de la loi exponentielle E(λ), où λ est un paramètre inconnu. On considère les estimateurs suivants du paramètre λ.
40
Cahier de Mathématiques Appliquées no 5 −1
1 (X1 + · · · + Xn ) n −1/2 1 2 2 (X + · · · + Xn ) • T2,n = 2n 1 −X1 + · · · + e−Xn e • T3,n = n − e−X1 − · · · − e−Xn log(2) • T4,n = X(⌈ n2 ⌉) log(4/3) • T5,n = X(⌈ n4 ⌉) log(4) • T6,n = X(⌈ 3n 4 ⌉) (Pour u ∈]0, 1[, ⌈nu⌉ désigne l’entier i tel que i−1 < nu ≤ i, et X(i) est la i-ième statistique d’ordre de l’échantillon.) • T1,n =
1. Montrer que tous sont des estimateurs convergents du paramètre λ. Calculer, lorsque c’est possible, leurs biais et leurs erreurs quadratiques par rapport à λ. 2. Choisir une valeur de λ et simuler 1000 échantillons de taille 100 de la loi E(λ). Calculer pour chacun de ces échantillons la valeur prise par les 6 estimateurs. Calculer la moyenne empirique, et la variance empirique des 6 échantillons de taille 1000 ainsi obtenus. En déduire une estimation du biais et de l’erreur quadratique de chacun des 6 estimateurs. 3. A partir des échantillons de la question précédente, représenter des histogrammes pour les 6 estimateurs, et proposer des intervalles de dispersion de niveau 0.9. 4. Proposer un classement des 6 estimateurs. Exercice • Lois • Lois • Lois • Lois
3 Pour chacune des lois P suivantes : exponentielles E(0.1) , E(10) . gamma G(0.1, 1) , G(10, 1) . du khi-deux X 2 (1) , X 2 (100) . bêta B(0.1, 0.1) , B(1, 10) , B(10, 1) .
1. Représenter graphiquement la fonction de répartition et la fonction quantile de la loi P . 2. Calculer les intervalles de dispersion symétriques de niveaux 0.95 et 0.99. 3. Calculer les intervalles de dispersion optimaux de niveaux 0.95 et 0.99. Exercice 4 Pour chacune des lois P suivantes : • Lois binomiales B(10, 0.5) , B(100, 0.5) , B(10, 0.1) , B(10, 0.9) . • Lois géométriques G(0.1) , G(0.5) , G(0.9) .
41
Estimation paramétrique • Lois de Poisson P(0.1) , P(10) . • Lois hypergéométriques H(100, 50, 10) , H(100, 10, 10) . • Lois binomiales négatives BN (10, 0.1) , B(10, 0.5) , B(10, 0.9) .
1. Représenter graphiquement la fonction de répartition et la fonction quantile de la loi P . 2. Déterminer l’ensemble des couples d’entiers (k1 , k2 ) tels que la probabilité de l’intervalle [k1 , k2 ] pour la loi P soit supérieure ou égale à 0.95. 3. Parmi ces intervalles, déterminer celui dont la longueur est la plus courte et la probabilité la plus proche de 0.95. Exercice • Lois • Lois • Lois • Lois • Lois • Lois
5 Pour chacune des lois P suivantes : binomiales B(10, 0.5) , B(10, 0.1) . géométriques G(0.1) , G(0.9) . de Poisson P(0.1) , P(10) . uniformes U (0, 0.1) , U (0, 10) . exponentielles E(0.1) , E(10) . normales N (0, 0.1) , N (0, 100) .
1. Donner la valeur de l’espérance µ, de la variance σ 2 et de l’écart-type σ de la loi P .
2. Simuler 1000 échantillons de taille 20 de la loi P , et calculer pour chacun 2 la valeur prise par la moyenne empirique X, la variance √ empirique √ S , la variance empirique non biaisée V , ainsi que par S 2 et V . On obtient ainsi 5 échantillons de taille 1000 de ces estimateurs. Utiliser ces 5 échantillons pour estimer le biais et l’erreur quadratique √ moyenne √ de X par rapport à µ, de S 2 et V par rapport à σ 2 , et de S 2 et V par rapport à σ. Exercice 6 On souhaite estimer la taille N d’une population par capturerecapture. Pour cela, on marque au préalable m individus. On envisage deux approches. (a) Tirages avec remise. On réalise n tirages indépendants successifs d’un individu dans la population. Le nombre X d’individus marqués que l’on a tirés suit la loi binomiale B(n, m N ). (b) Tirages sans remise. On prélève un groupe de n individus (distincts) dans la population. Le nombre X d’individus marqués dans ce groupe suit la loi hypergéométrique H(N, m, n). Dans les deux cas on posera : T =
mn . X +1
On traitera successivement les deux approches, et les valeurs de N , m et n suivantes :
Cahier de Mathématiques Appliquées no 5
42 N m n
20 10 10
50 10 10
100 10 10
100 50 10
100 10 50
1. Calculer la loi de T et la représenter par un diagramme en bâtons. 2. Calculer l’espérance de T , son écart-type, et son erreur quadratique par rapport à N . 3. Déterminer l’intervalle de dispersion optimal de niveau 0.9 pour T . 4. Simuler l’expérience 1000 fois et calculer pour chacune des 1000 répétitions la valeur prise par T . Représenter un diagramme en bâtons des 1000 valeurs obtenues, calculer leur moyenne et écart-type empiriques. Comparer aux valeurs théoriques. Exercice 7 On considère la loi de Poisson P(λ), de fonction génératrice e−λ+λz . 1. Soit X une variable aléatoire de loi P(λ) et k ≥ 1 un entier. Montrer que : IE[X(X − 1) · · · (X − k + 1)] = λk . 2. Soit (X1 , . . . , Xn ) un échantillon de la loi P(λ), et k ≥ 1 un entier fixé. On pose : n 1X Xi (Xi − 1) · · · (Xi − k + 1) . Tk,n = n i=1 1/k
Montrer que (Tk,n ) est un estimateur convergent de λ. 3. Choisir une valeur de λ. Simuler 1000 échantillons de taille 100 de la loi P(λ). Pour chacun des 1000 échantillons, calculer la valeur prise par les 1/k estimateurs (Tk,n ), pour k = 1, 2, 3, 4. On obtient ainsi un échantillon de taille 1000 pour chacun des 4 estimateurs. 4. Pour chacun des 4 échantillons de la question précédente, représenter un histogramme, calculer la moyenne empirique et la variance empirique. En déduire une estimation du biais et de l’erreur quadratique des 4 estimateurs par rapport à λ. 5. Proposer un classement des 4 estimateurs. Exercice 8 Le but de l’exercice est de comparer les estimateurs des paramètres n et p de la loi binomiale B(n, p), obtenus par la méthode des moments et par ajustement à l’aide de la distance du khi-deux. 1. Exprimer n et p en fonction de l’espérance et de la variance de la loi B(n, p). En déduire des estimateurs de n et p par la méthode des moments. 2. Choisir deux valeurs pour n et p. Simuler 1000 échantillons de taille 100 de la loi B(n, p).
Estimation paramétrique
43
3. Pour chacun des 1000 échantillons, calculer la moyenne empirique, la variance empirique, et en déduire une estimation de n et p par la méthode des moments. On obtient ainsi un échantillon de taille 1000 pour chacun des 2 estimateurs : représenter un histogramme, calculer la moyenne empirique et la variance empirique. En déduire une estimation du biais et de l’erreur quadratique des 2 estimateurs par rapport à n et p respectivement. 4. Pour chacun des 1000 échantillons, déterminer les valeurs de n et p pour lesquelles la distance du khi-deux entre la distribution empirique de l’échantillon et la loi B(n, p) est minimale. Reprendre les calculs de la question précédente pour ces 1000 nouvelles estimations des deux paramètres. 5. Laquelle des deux méthodes conduit aux meilleurs estimateurs ? Exercice 9 Le but de l’exercice est de comparer les estimateurs des paramètres a et λ de la loi gamma G(a, λ), obtenus par la méthode des moments et par ajustement à l’aide de la distance de Kolmogorov-Smirnov. 1. Choisir deux valeurs pour a et λ. Simuler 1000 échantillons de taille 100 de la loi G(a, λ).
2. Pour chacun des 1000 échantillons, calculer la moyenne empirique, la variance empirique, et en déduire une estimation de a et λ par la méthode des moments. On obtient ainsi un échantillon de taille 1000 pour chacun des 2 estimateurs : représenter un histogramme, calculer la moyenne empirique et la variance empirique. En déduire une estimation du biais et de l’erreur quadratique des 2 estimateurs par rapport à a et λ respectivement. 3. Pour chacun des 1000 échantillons, déterminer les valeurs de a et λ pour lesquelles la distance de Kolmogorov-Smirnov entre la fonction de répartition empirique de l’échantillon et celle de la loi G(a, λ) est minimale. Reprendre les calculs de la question précédente pour ces 1000 nouvelles estimations des deux paramètres. 4. Laquelle des deux méthodes conduit aux meilleurs estimateurs ? Exercice 10 Le but de l’exercice est de comparer les estimateurs des paramètres a et λ de la loi de Weibull W(a, λ), obtenus par ajustement à l’aide de la distance de Kolmogorov-Smirnov, et par régression au sens des moindres carrés. 1. Choisir deux valeurs pour a et λ. Simuler 1000 échantillons de taille 100 de la loi W(a, λ).
2. Pour chacun des 1000 échantillons, déterminer les valeurs de a et λ pour lesquelles la distance de Kolmogorov-Smirnov entre la fonction de répartition empirique de l’échantillon et celle de la loi W(a, λ) est minimale. On obtient ainsi un échantillon de taille 1000 pour chacun
44
Cahier de Mathématiques Appliquées no 5 des 2 estimateurs : représenter un histogramme, calculer la moyenne empirique et la variance empirique. En déduire une estimation du biais et de l’erreur quadratique des 2 estimateurs par rapport à a et λ respectivement. 3. Pour chacun des 1000 échantillons, calculer la série des statistiques d’ordre et déterminer les valeurs de a et λ déduites de la régression au sens des moindres carrés des logarithmes de ces statistiques d’ordre. Reprendre les calculs de la question précédente pour ces 1000 nouvelles estimations des deux paramètres. 4. Laquelle des deux méthodes conduit aux meilleurs estimateurs ?
Exercice 11 Le but de l’exercice est de comparer les estimateurs des paramètres µ et σ 2 de la loi normale N (µ, σ 2 ), obtenus par la moyenne et la variance empirique, et par régression au sens des moindres carrés. 1. Choisir deux valeurs pour µ et σ 2 . Simuler 1000 échantillons de taille 100 de la loi N (µ, σ 2 ).
2. Pour chacun des 1000 échantillons, déterminer la moyenne empirique, et la variance empirique non biaisée. On obtient ainsi un échantillon de taille 1000 pour chacun des 2 estimateurs : représenter un histogramme. 3. Pour chacun des 1000 échantillons, calculer la série des statistiques d’ordre et déterminer les valeurs de µ et σ 2 déduites de la régression au sens des moindres carrés de ces statistiques d’ordre. Pour ces 1000 nouvelles estimations des deux paramètres, représenter des histogrammes, calculer les moyennes et les variances empiriques. En déduire une estimation du biais et de l’erreur quadratique des 2 estimateurs par rapport à µ et σ 2 respectivement. 4. Laquelle des deux méthodes conduit aux meilleurs estimateurs ? Exercice 12 Chacune des lois P suivantes dépend d’un paramètre p ∈]0, 1[. • Lois binomiales B(1, p), B(10, p), B(100, p). • Loi géométrique G(p). • Lois binomiales négatives BN (1, p), BN (10, p), BN (100, p). Pour chacune de ces 7 lois : 1. Ecrire la fonction de vraisemblance associée à un échantillon de taille n. 2. Déterminer l’estimateur du maximum de vraisemblance du paramètre p. 3. Simuler un échantillon de taille 10 de la loi P . Représenter graphiquement, en fonction de p, la fonction de vraisemblance pour les valeurs simulées. Répéter la représentation graphique pour un échantillon simulé de taille 20, puis de taille 100.
Estimation paramétrique
45
4. Choisir une valeur de p. Simuler 1000 échantillons de taille 100 de la loi P . Calculer pour chacun de ces échantillons la valeur prise par l’estimateur du maximum de vraisemblance. Calculer la moyenne empirique, et la variance empirique de l’échantillon de taille 1000 ainsi obtenu. En déduire une estimation du biais et de l’erreur quadratique de l’estimateur du maximum de vraisemblance par rapport à p. Représenter un histogramme, et proposer un intervalle de dispersion symétrique de niveau 0.9. 5. Proposer un classement des 7 estimateurs de p. Exercice 13 Chacune des lois P suivantes dépend d’un paramètre λ > 0. • Loi de Poisson P(λ). • Loi exponentielle E(λ). • Lois gamma G(0.1, λ), G(10, λ). • Lois de Weibull W(0.1, λ), W(10, λ). Pour chacune de ces 6 lois : 1. Ecrire la fonction de vraisemblance associée à un échantillon de taille n. 2. Déterminer l’estimateur du maximum de vraisemblance du paramètre λ. 3. Simuler un échantillon de taille 10 de la loi P . Représenter graphiquement, en fonction de λ, la fonction de vraisemblance pour les valeurs simulées. Répéter la représentation graphique pour un échantillon simulé de taille 20, puis de taille 100. 4. Choisir une valeur de λ. Simuler 1000 échantillons de taille 100 de la loi P . Calculer pour chacun de ces échantillons la valeur prise par l’estimateur du maximum de vraisemblance. Calculer la moyenne empirique, et la variance empirique de l’échantillon de taille 1000 ainsi obtenu. En déduire une estimation du biais et de l’erreur quadratique de l’estimateur du maximum de vraisemblance par rapport à λ. Représenter un histogramme, et proposer un intervalle de dispersion symétrique de niveau 0.9. 5. Proposer un classement des 6 estimateurs de λ. Exercice 14 On considère un échantillon (X1 , . . . , Xn ) de la loi de Bernoulli de paramètre p et on note X sa moyenne empirique (fréquence expérimentale). On rappelle que nX suit la loi binomiale B(n, p).
1. Ecrire une procédure qui prenne en entrée les valeurs de n, p et α, et qui retourne en sortie les bornes q(p) et q(p) de l’intervalle de dispersion optimal pour X, de niveau 1−α. 2. Représenter graphiquement q(p) et q(p) en fonction de p, pour n = 10, 100 et α = 0.05, 0.01.
46
Cahier de Mathématiques Appliquées no 5 3. Ecrire une procédure qui prenne en entrée les valeurs de n et α, ainsi qu’une valeur x prise par X, et qui retourne en sortie l’intervalle de confiance optimal [t1 (x), t2 (x)] pour p, de niveau 1−α. 4. Représenter graphiquement t1 (x) et t2 (x) en fonction de x ∈]0, 1[, pour n = 10, 100 et α = 0.05, 0.01.
Exercice 15 On considère un échantillon (X1 , . . . , Xn ) de la loi de Poisson P(λ) et on note X sa moyenne empirique. On rappelle que nX suit la loi P(nλ).
1. Ecrire une procédure qui prenne en entrée les valeurs de λ et α, et qui retourne en sortie les bornes q(λ) et q(λ) de l’intervalle de dispersion optimal pour X, de niveau 1−α.
2. Représenter graphiquement q(λ) et q(λ) en fonction de λ ∈ [0, 10], pour n = 10, 100 et α = 0.05, 0.01. 3. Ecrire une procédure qui prenne en entrée une valeur de α, ainsi qu’une valeur x prise par X, et qui retourne en sortie l’intervalle de confiance optimal [t1 (x), t2 (x)] pour λ, de niveau 1−α. 4. Représenter graphiquement t1 (x) et t2 (x) en fonction de x ∈]0, 10[, pour n = 10, 100 et α = 0.05, 0.01. Exercice 16 On considère un échantillon (X1 , . . . , Xn ) de la loi géométrique de paramètre p. On note T l’estimateur du maximum de vraisemblance de p. On rappelle que n(1/T − 1) suit la loi binomiale négative BN (n, p).
1. Ecrire une procédure qui prenne en entrée les valeurs de p et α, et qui retourne en sortie les bornes q(p) et q(p) de l’intervalle de dispersion optimal pour T , de niveau 1−α.
2. Représenter graphiquement q(p) et q(p) en fonction de p, pour n = 10, 100 et α = 0.05, 0.01. 3. Ecrire une procédure qui prenne en entrée la valeur de α, ainsi qu’une valeur t prise par T , et qui retourne en sortie l’intervalle de confiance optimal [t1 (t), t2 (t)] pour p, de niveau 1−α. 4. Représenter graphiquement t1 (t) et t2 (t) en fonction de t ∈]0, 1[, pour n = 10, 100 et α = 0.05, 0.01. Exercice 17 On considère un échantillon (X1 , . . . , Xn ) de la loi exponentielle E(λ). On note T l’estimateur du maximum de vraisemblance pour λ. On rappelle que n/T suit la loi gamma G(n, λ).
1. Ecrire une procédure qui prenne en entrée les valeurs de λ et α, et qui retourne en sortie les bornes q(λ) et q(λ) de l’intervalle de dispersion optimal pour T , de niveau 1−α. 2. Représenter graphiquement q(λ) et q(λ) en fonction de λ ∈ [0, 10], pour n = 10, 100 et α = 0.05, 0.01.
Estimation paramétrique
47
3. Ecrire une procédure qui prenne en entrée une valeur de α, ainsi qu’une valeur t prise par T , et qui retourne en sortie l’intervalle de confiance optimal [t1 (t), t2 (t)] pour λ, de niveau 1−α. 4. Représenter graphiquement t1 (t) et t2 (t) en fonction de t ∈]0, 10[, pour n = 10, 100 et α = 0.05, 0.01. Exercice 18 1. Sur un nombre n inconnu de lancers d’une pièce équilibrée, on a obtenu 6 pile. Proposer un intervalle de confiance de niveau 0.95 pour n. 2. Sur un échantillon de taille n inconnue de la loi de Poisson P(0.5), la somme des valeurs est 6. Proposer un intervalle de confiance de niveau 0.95 pour n. Exercice 19 On considère le modèle linéaire Y = ax + b + E, où E suit la loi normale N (0, σ 2 ). Ecrire une procédure qui prenne en entrée un vecteur x = (xi ), des valeurs de a, b, σ 2 , α et m, effectuant les opérations suivantes. 1. Simuler un échantillon e = (ei ), de même taille que x, de la loi N (0, σ 2 ).
2. Calculer le vecteur y = ax + b + e. 3. Calculer les coefficients b a et bb de la droite de régression linéaire de y sur x, ainsi que l’erreur quadratique minimale EQ(b a, bb).
4. Calculer les intervalles de confiance de niveau 1−α pour a, b et σ 2 .
5. Calculer, pour un vecteur x∗ = (x∗,j ) de valeurs régulièrement réparties entre min{xi } − m et max{xi } + m, les vecteurs y = (y j ) et y = (y j ) des bornes des intervalles de prédiction de niveau 1 − α pour Yj = ax∗,j + b + E. 6. Représenter sur un même graphique les points de coordonnées (xi , yi ), la droite de régression linéaire de y sur x, les points de coordonnées (x∗,j , y j ) et (x∗,j , y j ). Exécuter la procédure pour a = 1, b = 2, σ 2 = 1, α = 0.05, m = 1, et les vecteurs x de taille 100 définis comme suit. • Valeurs régulièrement réparties entre 0 et 10. • Valeurs régulièrement réparties entre 0 et 1. • Valeurs simulées suivant la loi normale N (0, 100). • Valeurs simulées suivant la loi normale N (0, 1). • Valeurs simulées suivant la loi exponentielle E(1). Exercice 20 On considère un échantillon (X1 , . . . , Xn ) de la loi de Bernoulli de paramètre p. Pour n = 30 puis 100, puis 200 : 1. Pour des valeurs de la fréquence empirique observée x allant de 0.01 à 0.99 par pas de 0.01, calculer les intervalles de confiance optimaux pour p de niveaux 0.95 et 0.99.
Cahier de Mathématiques Appliquées no 5
48
2. Pour les mêmes valeurs de x, calculer les intervalles de confiance approchés pour p en utilisant la normalité asymptotique. 3. Représenter graphiquement en fonction de x les différences entre les bornes inférieures, puis entre les bornes supérieures, des intervalles exacts et des intervalles approchés. Exercice 21 1. Pour n = 10, 20, . . . , 100, simuler un échantillon de taille n de la loi normale N (10, 100). 2. En supposant la variance inconnue, calculer l’intervalle de confiance exact de niveau 0.95 pour l’espérance. Calculer l’intervalle de confiance de niveau asymptotique 0.95. Comparer les deux intervalles.
3. Calculer l’intervalle de confiance optimal de niveau 0.95 pour la variance. Calculer l’intervalle de confiance de niveau asymptotique 0.95, obtenu en remplaçant la loi du khi-deux par la loi normale de même espérance et de même variance. Comparer les deux intervalles. Exercice 22 On désire estimer la production d’une nouvelle espèce de pommier. On suppose que la production d’un pommier de cette espèce suit une loi normale d’espérance µ et d’écart-type σ inconnus. 1. Sur un échantillon de 15 pommiers, on a observé une récolte moyenne de 52 Kg avec un écart-type de 5 Kg. Donner un intervalle de confiance pour la production moyenne des pommiers de cette espèce, de niveau 0.95, puis 0.99. 2. Donner un intervalle de confiance pour l’écart-type σ, de niveau 0.95. 3. Sur un échantillon de 80 pommiers, on observe une récolte moyenne de 51.5 Kg, avec un écart-type de 4.5 Kg. Donner un intervalle de confiance pour la production moyenne des pommiers de cette espèce, de niveau 0.95, puis 0.99. Exercice 23 On dispose de 10 prises de sang recueillies dans les mêmes conditions sur un même sujet. On mesure pour chacune le taux de cholestérol. On observe une moyenne empirique de 247.3 et une variance empirique de 2.01. On admet que les différentes mesures sont les réalisations d’une variable aléatoire X suivant une loi normale d’espérance µ et de variance σ 2 inconnues. 1. Déterminer un intervalle de confiance pour µ au niveau 0.95 puis 0.99. 2. On admet que la variance de X n’est liée qu’à celle de la méthode de dosage qui est supposée connue (σ 2 = 1.5). Reprendre la question précédente. 3. Quelle est la probabilité pour que la variance empirique observée dépasse 3.3 ? 4. Quelle valeur pour la variance empirique a la probabilité 0.05 d’être dépassée ?
Estimation paramétrique
49
Exercice 24 On considère un échantillon (X1 , . . . , Xn ) de la loi uniforme U (0, θ), où θ est un paramètre inconnu.
1. Soit u ∈]0, 1[ un réel fixé. On considère le quantile empirique X(i) , où i est l’entier tel que i−1 < nu ≤ i. Montrer que X(i) /θ suit la loi bêta B(i, n−i+1).
2. On note [q, q] l’intervalle de dispersion optimal de niveau 1−α de la loi bêta B(i, n−i+1). Quel intervalle de confiance basé sur X(i) peut-on proposer pour θ ? 3. Calculer les valeurs prises par ces intervalles de confiance, en simulant un échantillon de taille n de la loi U (0, θ), pour n = 20, 100 ; θ = 2, 10 ; u = 0.1, 0.5 ; α = 0.05, 0.01.
4. Utiliser la normalité asymptotique des quantiles pour déterminer en fonction de n, u, et X(i) , les bornes d’un intervalle de confiance de niveau asymptotique 1−α pour θ. 5. Calculer les valeurs prises par ces bornes pour les échantillons de la question 3. Exercice 25 On considère un échantillon (X1 , . . . , Xn ) de la loi exponentielle E(λ). Soit T l’estimateur du maximum de vraisemblance pour λ. On rappelle que n/T suit la loi gamma G(n, λ). 1. Pour λ = 0.1 puis λ = 10, et n = 10, 20, . . . , 100, simuler un échantillon de taille n de la loi E(λ). 2. Calculer l’intervalle de confiance optimal de niveau 0.95 pour λ.
3. Calculer l’intervalle de confiance de niveau asymptotique 0.95, obtenu en remplaçant la loi gamma par la loi normale de même espérance et de même variance. 4. Comparer les deux intervalles.
Index binomiale, 4, 11 binomiale négative, 4, 17 de Bernoulli, 4, 6, 21, 24 de Poisson, 4 de Student, 9, 31 de Weibull, 5, 20 du khi-deux, 31 exponentielle, 5, 26 géométrique, 4, 25 gamma, 5, 16 hypergéométrique, 4 log-normale, 5 normale, 4, 20, 26, 31 uniforme, 7, 23, 29
ajustement, 4 bilatéral, 9 capture-recapture, 14 distance de Kolmogorov-Smirnov, 18, 38 du khi-deux, 17 distribution empirique, 17 écart-type, 13 échantillon, 3 gaussien, 31 erreur quadratique, 7, 19 estimateur, 5 asymptotiquement sans biais, 7 biaisé, 7 convergent, 6, 36 de la variance, 11 des moindres carrés, 18, 33 du maximum de vraisemblance, 23 sans biais, 7 estimation, 5 d’un quantile, 37 d’une espérance, 36 par ajustement, 17
maximum de vraisemblance, 23 méthode des moments, 16 du maximum de vraisemblance, 24 moyenne empirique, 6, 16, 27, 31 niveau d’un intervalle de dispersion, 9 normalité asymptotique, 35 paramètre, 5 questions confidentielles, 14
famille de lois, 4 fonction de répartition, 11, 18, 38 quantile, 9, 20 fréquence empirique, 6
régression linéaire, 19, 33 statistique d’ordre, 18, 20 théorème central limite, 4, 36
intervalle de confiance, 27, 32, 34 de dispersion, 8, 28 de prédiction, 34
unilatéral inférieur, 9 supérieur, 9 variance empirique, 11, 13, 27, 31 non biaisée, 13 vraisemblance, 21
logarithme de la vraisemblance, 24 loi bêta, 16 50
View more...
Comments