Notes du cours de statistique L3 Maths et L3 Maths
Short Description
Download Notes du cours de statistique L3 Maths et L3 Maths...
Description
Notes du cours de statistique L3 Maths et L3 Maths-info Année 2009-2010 P. Ailliot, N. Raillard 29 mars 2010
1 Introduction La statistique est l'activité qui consiste à recueillir, traiter et interpréter des données. La démarche statistique consiste généralement en 3 étapes :
Le recueil des données (non abordé dans ce cours). Comment recueillir les données pour qu'elles apportent le plus d'information possible par rapport à la question posée ?
La partie exploratoire ou descriptive (non abordée dans ce cours mais quelques exemples seront traités en exercices). L'objectif de cette étape est de synthétiser l'information contenue dans les données an de mettre en évidence certaines propriétés et de suggérer des hypothèses. Cela peut être réalisé en calculant des valeurs numériques (moyennes, écart types, proportions, ...), ou sous la forme de graphiques (histogrammes, camenberts...) et de tableaux.
Statistique inférentielle. Son but est de valider ou d'inrmer les hypothèses faites dans la phase exploratoire.
Quelques exemples qui serviront à illustrer ce cours :
Exemple 1 : contrôle de qualité. Un client commande à son fournisseur un lot de 10000 thermomètres. An de tester la qualité des thermomètres, le client en choisit 20 au hasard et
les plonge dans un liquide à 20 degrés. Il obtient les résultats suivants : 20.2, 20.4, 20.1, 19.9, 19.7, 20, 20.5, 19.9, 19.9, 20.1, 20.4, 20.6, 20, 19.8, 20.3, 19.6, 19.8, 20.1, 20.3, 20 Que peut-on en déduire sur la qualité des thermomètres ? Est-ce qu'ils donnent la bonne température en moyenne ? Avec quelle précision ?
Exemple 2 : sondage. An d'estimer les intentions de vote lors du deuxième tour d'une election présidentielle, un institut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520 pensent voter pour le candidat A et 480 pour le candidat B. Que peut-on en déduire sur les intentions de vote dans la population Française ? Avec quelle précision le sondage eectué permet t'il d'estimer le pourcentage d'intention de vote en faveur du candidat A ? Peut on déduire de ce sondage, avec une certaine conance, que à la date du sondage le candidat A est en tête ?
Exemple 3 : ecacité d'un médicament en médecine. An d'étudier l'eet d'un nouveau médicament en vue de réduire la tension artérielle, on a mesuré la tension (en mm de Hg) sur 12 patients avant et après traitement. Les valeurs suivantes ont été obtenues : Avant
200
174
198
170
179
182
193
209
185
155
169
210
Après
191
170
177
167
159
151
176
183
159
145
146
177
Peut-on conclure que ce médicament réduit la tension artérielle ?
1
Autres exemples d'application : Peut-on prévoir le cours d'une action ? Dans quelle mesure le fait de fumer des cigarettes augmente-t-il les risques de cancer du poumon ? Comment estimer les stocks de poissons dans une zone maritime donnée ? Quelle est la probabilité d'avoir une température inférieur à 0 deg à Brest au mois de Janvier ? Cette probabilité a t'elle évolué au cours des dernières décennies ? Comment "cibler" de manière optimale les clients lors d'une campagne de publicité ?
2 Introduction à l'estimation ponctuelle 2.1 Introduction On dispose de
n
observations notées
(x1 , ..., xn ) ∈ Rn
(cf exemples ci-dessus). On va supposer
tout d'abord que ces observations sont une réalisation d'une expérience aléatoire, c'est à dire qu'il existe un espace probabilisé espace probabilisé
(Ω, F , P)
(Ω, F , P)
et des variables aléatoires réelles
telles que
(x1 , ..., xn ) = (X1 (ω), ..., Xn (ω))
(X1 , ..., Xn ) dénies avec ω ∈ Ω.
sur un
Ceci permet de modéliser l'aléatoire qui est généralement présente dans le recueil des données. Par exemple, dans les exemples introduits ci-dessus :
Exemples 1,2 et 3 : dans ces 3 exemples, les individus considérés sont choisis au hasard parmi un grand nombre d'individus. Si on recommence l'expérience, il y a de fortes chances qu'on choisisse d'autres individus et qu'on obtienne des résultats diérents : le résultat de l'expérience est donc bien "aléatoire" !
Exemples 1 et 3 : après avoir choisi les individus, on réalise des mesures qui peuvent être sujettes à des erreurs expérimentales. Ceci rajoute de l'incertitude aux résultats obtenus !
On fait ensuite des hypothèses sur la loi de probabilité du n-uplet
(X1 , ..., Xn ).
Dans le cadre de
ce cours, on supposera que ce sont des variables aléatoires indépendantes et identiquement distribuées (i.i.d). Il s'agit du cadre le plus simple, mais cette hypothèse n'est pas toujours réaliste : Lorsqu'on considère des phénomènes indexés par le temps (séries temporelles), l'hypothèse d'indépendance n'est généralement pas vériée.
Exemple : Si (X1 , X2 , ..., Xn ) désigne les températures observées pendant n jours successifs, alors l'hypothèse d'indépendance n'est pas vériée puisque la température du jour généralement proche de celle du jour
i
est
i − 1.
La loi dépend de variables explicatives et l'hypothèse "identiquement distribuée" n'est pas vériée.
Exemple : si (X1 , X2 , ..., Xn) désigne la taille de n individus pris au hasard, hommes et femmes mélangés, alors la loi des variables aléatoires dépend du sexe (les hommes sont généralement plus grands que les femmes) et on ne peut pas supposer que les observations proviennent d'un échantillon "identiquement distribué".
Dénition On appelle n-échantillon qui suivent le loi de probabilité
P.
P X1 , ..., Xn ∼iid P
d'une loi de probabilité
On notera
une suite
(X1 , ..., Xn )
de v.a. i.i.d.
On suppose ensuite que la loi de probabilité commune de X1 , X2 , ..., Xn est un loi de probabilité k qui dépend d'un paramètre inconnu θ ∈ Θ avec Θ ⊂ R et on cherche alors à estimer le paramètre inconnu souvent que
θ
à partir des observations disponibles
Xi ∼iid N (m, σ 2 )
2
(x1 , ..., xn ).
Par exemple, on supposera
pour
i ∈ {1...n}.
Le paramètre inconnu est alors
θ = (m, σ) ∈ R ∗ R+∗ .
Dénition Soit (X1 , ..., Xn ) un n-échantillon d'une loi Pθ . Un estimateur θ
est une variable aléatoire
T = g(X1 , ..., Xn )
qui s'exprime en fonction de
θ est alors la valeur numérique prise par cette statistique (x1 , ..., xn ), c'est à dire la quantité t = g(x1 , ..., xn ).
estimation de particulière
du paramètre inconnu
(X1 , ..., Xn ).
Une
sur une réalisation
Retour sur l'exemple 1 et dénition : on suppose que les températures observées sont une réalisation d'un échantillon
(X1 , ..., Xn )
avec
n = 20.
Diérents paramètres inconnus peuvent être
utilisés pour mesurer la qualité des thermomètres, par exemple :
µ = E[Xi ]
qui décrit la température moyenne d'un thermomètre pris au hasard. Si les
µ ≈ 20. (NB : comme l'échantillon est i.d., E[Xi ] est indépendant de i) σ 2 = var(Xi ) = E[Xi2 ] − E[Xi ]2 = E[(Xi − E[Xi ])2 ] qui décrit la dispersion des températures mesurées par les thermomètres (si les thermomètres sont bons, on devrait avoir σ faible) .
thermomètres sont bien calibrés, on devrait avoir
Ces quantités sont inconnus, et on cherche à les estimer à partir des observations disponibles.
espérance mathématique µ est alors la moyenne empirique
L'estimateur usuel de l' ¯ = X1 +...+Xn X n Un estimateur usuel de la
variance mathématique σ2 S2 =
n
i=1
n
Xi2
¯2 = −X
est la
variance empirique
1 2 ¯ 2 (X − X) n i=1 i n
écart-type empirique
S est appelé . n 2 2 n n i=1 xi ¯ = x1 +...+x et s = −x ¯2 . x ¯ = x1 +...+x est Les estimations correspondantes sont notées x n n n 2 la moyenne observations et s une mesure de la dispersion des observations autour de la valeur moyenne. Pour notre exemple, on obtient les valeurs numériques x ¯ = 20.075 degré, s2 = 0.072875 2 degré et s = 0.26995 degré.
Retour sur l'exemple 2 et dénition : Prenons l'exemple d'un sondage sur les intentions de vote lors d'une élection avec deux candidats (notés A et B). Le paramètre inconnu est la proportion
π
d'intentions de vote en faveur de B dans la population totale. Pour estimer cette
quantité, on sonde
n = 1000
personnes choisies au hasard, et on code les résultats de la manière
suivante :
xi = 0 xi = 1
si la ième personne sondée pense voter pour A si la ième personne sondée pense voter pour B
(x1 , ..., xn ) est une réalisation d'un échantillon (X1 , ..., Xn ) d'une loi de Bernoulli θ = π = P [Xi = 1] est le paramètre de cette loi de Bernoulli. Un estimateur "naturel" de π est alors la fréquence empirique F de 1 dans la séquence (X1 , ..., Xn ), c'est à dire : n Xi card{i ∈ {1...n}|Xi = 1} = i=1 F = n n On suppose que
et le paramètre inconnu
En remarquant que
π = E[Xi ]
et
¯, F =X
on peut remarquer qu'on retrouve l'estimateur
précédent de l'espérance. Supposons que lors du sondage, on trouve que 480 personnes pensent voter en faveur du candidat B (i.e. 480 "1" dans la série
(x1 , ..., xn )).
f=
π n
Une estimation de
card{i ∈ {1...n}|xi = 1} = n
3
est alors
i=1
n
xi
= 0.48
Remarque : Dans la suite du cours, les variables aléatoires (Xi , X¯ , F , S ) sont notées avec des lettres majuscules, les observations (xi ) et les estimations (f ,
x ¯, s) avec µ, σ ).
des lettres minuscules.
Les paramètres inconnus sont notés avec des lettres grecques (π ,
2.2 La méthode du maximum de vraisemblance La fonction de vraisemblance dénie ci-dessous joue un rôle fondamental en statistique.
Dénition On appelle fonction de vraisemblance
de l'échantillon
(X1 , ..., Xn )
la loi de
probabilité de ce n-uplet, c'est à dire la quantité :
L(θ; x1 , ..., xn ) = P (X1 = x1 , ..., Xn = xn ; θ) = discrètes
i=1
P (Xi = xi ; θ)
lorsque les
n
Xi
i=1 f (xi ; θ) lorsque les Xi sont des v.a. continues de densité On appelle fonction de log-vraisemblance la quantité :
L(θ; x1 , ..., xn ) =
n
sont des v.a.
f (xi , θ)
l(θ; x1 , ..., xn ) = ln(L(θ; x1 , ..., xn )) La méthode du maximum de vraisemblance consiste alors, étant donnée une réalisation
(x1 , ..., xn )
d'une loi
Pθ ,
à prendre comme estimation
t
de
θ
une valeur de
θ
qui rend maximale (si
ce maximum existe...) la fonction de vraisemblance
θ → L(θ; x1 , ..., xn ) On notera
t = argmaxθ L(θ; x1 , ..., xn ).
Remarques : 1. Dans le cas discret,
L(θ; x1 , ..., xn ) s'interprète directement comme la probabilité ou (x1 , ..., xn ) lorsque θ est la vraie valeur du paramètre. Une
"vraisemblance" d'observer
interprétation similaire est valable dans le cas continu par passage à la limite. L'EMV est donc la valeur des paramètres qui rend les observations le plus vraisemblable. 2. En pratique, on travaille souvent avec la fonction de log-vraisemblance, car elle est plus simple à étudier (transformation du produit en somme).
Exemple : Si (X1 , ..., Xn ) est un échantillon d'une loi de Bernoulli de paramètre θ = π, alors 1 − π si xi = 0 Pθ (Xi = xi ) = π si xi = 1 avec
θ = π.
Ceci se réécrit sous la forme
Pθ (Xi = xi ) = π xi (1 − π)1−xi pour xi ∈ {0, 1} On en déduit que si
(x1 , ..., xn ) ∈ {0, 1}n
alors la vraisemblance est donnée par
L(π; x1 , ..., xn ) = = =
n i=1 n
Pθ (Xi = xi ) π xi (1 − π)1−xi
i=1 n
π
4
i=1
xi
(1 − π)n−
n
i=1
xi
On en déduit que
l(π; x1 , ..., xn ) = ln(π)
n
xi + ln(1 − π)(n −
i=1 puis que
Donc n i=1
xi
n
∂l(π;x1 ,...,xn ) ∂π
>0
. L'EMV est donc
∂l(π; x1 , ..., xn ) ∂π
n ssi
F =
i=1
xi
n n
i=1
>π Xi
n
n
xi )
i=1
n
=
n i=1 xi − π(1 − π) 1 − π
et la fonction de vraisemblance atteint son maximum en
. On retrouve l'estimateur introduit ci-dessus.
Exemple/exercice : On considère les données de l'exemple 1. 1. Réaliser un histogramme de ces observations. 2. On suppose dans la suite de l'exercice que ces observations sont une réalisation de n 2 variables aléatoires (X1 , ..., Xn ) i.i.d. de loi N (µ, σ ). Cette hypothèse vous semble-t-elle réaliste ? 3. Donner la fonction de vraisemblance. Quel est l'estimateur du maximum de vraisemblance de 4.
θ = (µ, σ) ?
Application numérique. Calculer les estimations correspondantes sur les données de température journalière à Brest, puis représenter sur la gure de la question 1. la densité correspondante. Commentez.
Solution partielle : Graphique : l'hypothèse de normalité semble douteuse (cf Figure 1).
(X1 , ..., Xn ) est un échantillon d'une loi normale Xi est donnée, pour xi ∈ R, par : (xi − µ)2 1 exp − fθ (xi ) = √ 2σ 2 2πσ
Calcul de la fonction de vraisemblance : si moyenne
avec
µ
et écart-type
θ = (µ, σ).
σ,
alors la densité de la v.a.
Donc, la fonction de vraisemblance est donnée pour
L(θ; x1 , ..., xn )
=
n
(x1 , ..., xn ) ∈ Rn
par
fθ (xi )
i=1 n
(xi − µ)2 1 √ exp − 2σ 2 2πσ i=1 n 2 1 i=1 (xi − µ) = exp − 2σ 2 (2π)n/2 σ n
=
L'étude des points critiques montre que cette fonction atteint son maximum pour
σ=s
Application numérique : x¯ = 15.9679 et s = 1.7846.
5
µ=x ¯
et
de
1.5
1
0.5
0 19
19.5
20
20.5
21
Fig. 1 Histogramme des températures et densité de la loi normale ajustée
2.3 Propriétés des estimateurs On peut toujours dénir une innité d'estimateurs pour un paramètre inconnu donné, et en pratique on cherchera à utiliser le "meilleur" de ces estimateurs. Ceci nécessite de dénir ce qu'est un bon estimateur....
2.3.1 Biais d'un estimateur Dénition : On appelle biais de l'estimateur T la quantité biais(T ) = E(T ) − θ On dit que l'estimateur
T
est
sans biais lorsque biais(T ) = 0, c'est à dire lorsque E[T ] = θ. Le
biais représente "l'erreur moyenne" qui est faite lorsqu'on utilise
T
pour estimer
θ.
Proposition Soit (X1 , ..., Xn ) est un n-échantillon d'une loi de moyenne E[Xi ] = µ.
¯= X
X1 +...+Xn est un estimateur sans biais de µ. En particulier, si (X1 , ..., Xn ) est un n X1 +...+Xn est un estimateur sans biais de n-échantillon de Bernoulli de paramètre π alors F = n
π.
n−1 2 2 2 Si on suppose en outre que σ < ∞ alors E[S ] = n σ . 2 2 S est donc un estimateur biaisé de σ , et on préfère parfois utilisé l'estimateur corrigé 2 Scorr =
qui est un estimateur sans biais de
n 1 ¯ 2 S2 = (Xi − X) n−1 n − 1 i=1 n
σ2 .
Preuve Si
(X1 , ..., Xn )
est un échantillon d'une loi de moyenne
¯ = E[X] = =
µ
alors
X1 + ... + Xn ] n E[X1 ] + ... + E[Xn ] n µ
E[
6
On suppose que
σ 2 < ∞.
Par dénition,
S2 = et de la décomposition
S2
1 ¯ 2 (Xi − X) n i=1 n
¯ = (Xi − µ) − (X ¯ − µ), (Xi − X)
on déduit que :
1 ¯ − µ)(Xi − µ) + (X ¯ − µ)2 (Xi − µ)2 − 2(X n i=1 n
= =
1 ¯ − µ) 1 ¯ − µ)2 (Xi − µ)2 − 2(X (Xi − µ) + (X n i=1 n i=1
=
1 ¯ − µ)2 (Xi − µ)2 − (X n i=1
n
n
n
Donc
E[S 2 ] =
1 ¯ − µ)2 ] (Xi − µ)2 − (X n i=1 n
E[
1 ¯ − µ)2 ] E[(Xi − µ)2 ] − E[(X n i=1 n
= =
¯ − µ)2 ] σ 2 − E[(X
Il reste à calculer
¯ − µ)2 ] = var(X) ¯ E[(X n 1 = var( Xi ) n i=1 =
n 1 var( Xi ) n2 i=1
=
n 1 var(Xi ) n2 i=1
=
σ2 n
Finalement,
E[S 2 ] =
n−1 2 σ n
♦
2.3.2 Erreur quadratique d'un estimateur On mesure généralement la précision d'un estimateur par son erreur quadratique moyenne.
Dénition L'erreur quadratique moyenne de l'estimateur
T
dénie par
EQM (T ) = E[(T − θ)2 ] 7
L'EQM représente l'espérance du carré de l'écart entre l'estimateur et le paramètre inconnu : plus l'EQM est faible, plus l'estimateur est précis.
Remarque On montre facilement que
E[(T − θ)2 ] = var(T ) + E[(T − θ)]2
c'est à dire que l'erreur quadratique moyenne est égale à la variance de l'estimateur plus le biais de l'estimateur au carré. Lorsque l'estimateur est non-biaisé, l'EQM coincide avec la variance : parmi deux estimateurs sans biais, le plus précis est donc celui de variance minimale.
Proposition Soit (X1 , ..., Xn ) est un échantillon d'une loi de moyenne µ et variance σ2 < ∞. ¯ = var(X) ¯ = σ2 . En particulier, si (X1 , ..., Xn ) EQM (X) n p(1−p) de paramètre π alors EQM (F ) = var(F ) = n
On a alors Bernoulli Si de plus
µ4 = E[(Xi − µ)4 ] < ∞,
est un échantillon de
alors
2 2 EQM (Scorr ) = var(Scorr )=
n−3 4 µ4 − σ n n(n − 1)
Preuve partielle Si
(X1 , ..., Xn )
est un échantillon d'une loi de moyenne
estimateur sans biais de
µ,
¯ EQM (X)
Le calcul de
2 var(Scorr )
µ
et de variance
σ 0.
La densité de
Xi
est alors
fλ (x) = λexp(−λx)1lR+ (x) On peut montrer que l'estimateur du maximum de vraisemblance est
Tn =
nn
1 ¯ n et d'après les propositions précédentes X
Tn = ¯ n est un estimateur convergent de E[Xi ] = 1 X λ √ ¯ L n(Xn − λ1 ) → N (0, σ 2 ) avec σ 2 = var(Xi ) = λ12 . En utilisant la delta méthode avec g(x) = 1/x, on en Tn est un estimateur convergent de λ √ ¯ L n(Tn − λ) → N (0, λ2 )
i=1
Xi . On a donc
déduit que
3 Estimation par intervalles de conance Dans les paragraphes précédents, des méthodes permettant d'estimer la valeur d'un paramètre inconnu
θ
à partir d'observations ont été proposées. Ces méthodes fournissent seulement une
valeur ("estimation ponctuelle"), mais ne permettent pas de quantier la précision de cette estimation. Pour cela, on utilise généralement des intervalles de conance qui peuvent s'interpréter comme des marges d'erreur.
3.1 Construction d'intervalles de conance pour la moyenne d'un échantillon Gaussien lorsque la variance est connue On suppose dans ce paragraphe que cherche à estimer
µ,
X1 , ..., Xn
est un n-échantillon d'une loi
supposé inconnu, mais on suppose que l'écart-type
σ
N (µ, σ 2 ).
On
est connu. Ceci est
rarement le cas en pratique, et ce cas particulier a donc principalement un objectif pédagogique. Nous reviendrons sur la construction d'intervalles de conance la moyenne d'un échantillon sous des hypothèses plus réalistes dans la suite de ce cours. ¯ ¯ ∼ N (µ, σ2 ) puis que √n X−µ On peut alors montrer que X n σ
P [uα/2 ≤
∼ N (0, 1)
¯ −µ √ X ≤ u1−α/2 ] = 1 − α n σ 10
et donc
avec
uα
le quantile d'ordre
α
de la loi
N (0, 1),
ce qui se récrit
¯ + u1−α/2 √σ ] = 1 − α ¯ + uα/2 √σ ≤ µ ≤ X P [X n n ¯ + uα/2 √σ ; X ¯ + u1−α/2 √σ ] est un intervalle aléatoire (puisque les bornes [X n n dépendent des variables aléatoires X1 , ..., Xn ) qui contient la vraie valeur du paramètre µ avec une probabilité 1 − α. Un tel intervalle est appelé intervalle de conance au niveau de conance 1 − α pour µ. En pratique les quantiles de la loi N (0, 1) peuvent être obtenus en utilisant des tables statistiques L'intervalle
ou des logiciels adaptés (R, Matlab, SAS, Excel...)
Dénition :
l'intervalle aléatoire
au niveau de conance
1−α
pour
[a(X1 , ..., Xn ); b(X1 , ..., Xn )] est appelé intervalle de θ si P [a(X1 , ..., Xn ) ≤ θ ≤ b(X1 , ..., Xn )]] = 1 − α.
conance
3.2 Construction d'intervalles de conance pour un échantillon quelconque n est susamment grande, on peut construire des intervalles de ¯ et S 2 . µ en utilisant les propriétés asymptotiques de X (X1 , ..., Xn ) un n-échantillon d'une loi vériant var(Xi ) = σ 2 < +∞. Pour
Lorsque la taille de l'échantillon conance pour la moyenne Plus précisément, soit
"n grand", d'après le TCL, on a :
¯ −µ √ X ≈ N (0, 1) n σ
Cette approximation est valable même si l'échantillon n'est pas gaussien et permet de faire des
σ est connu. 2 de σ , et donc
σ
intervalles de conance lorsque
Lorsque
est un estimateur convergent
pour "n grand", on a
est inconnu, on peut utiliser le fait que
S2
S≈σ Finalement, on en déduit que pour "n grand" :
¯ −µ √ X ≈ N (0, 1) n S (Une démonstration rigoureuse de ce résultat peut être obtenue en utilisant le lemne de Slutsky : √ X−µ ¯ n S converge en loi vers une on peut montrer que, sous les conditions d'application du TCL, loi
N (0, 1))
En pratique, on suppose généralement que cette approximation est valide dès que
n ≥ 30
( !). On
a alors :
P [uα/2 ≤
¯ −µ √ X ≤ u1−α/2 ] ≈ 1 − α n S
puis
¯ + u1−α/2 √S ] ≈ 1 − α ¯ + uα/2 √S ≤ µ ≤ X P [X n n ¯ + uα/2 √S ; X ¯ + u1−α/2 √S ] [X n n conance 1 − α pour µ.
L'intervalle niveau de
est appelé "intervalle de conance asymptotique" au
Exemple/exercice : Quelle est la température moyenne donnée par les thermomètres ? On donnera un intervalle de conance à 95% et on discutera la validité des hypothèses permettant la construction de cet intervalle.
11
3.2.1 Construction d'intervalles de conance pour une proportion Il est également possible de construire des intervalles de conance pour une proportion lorsque n est grand. Soit
X1 , ..., Xn
un n-échantillon d'une loi de Bernoulli de paramètre
π.
D'après le
TCL, on sait que pour n grand, on a :
√ F −π n ≈ N (0, 1) π(1 − π) F est un estimateur convergent de π , pour F (1 − F ) (lemme de Studsky), et on a alors :
Comme par
n grand, on peut remplacer le dénominateur
√ F −π ≈ N (0, 1) n F (1 − F ) puis
P [uα/2 ≤
√ F −π n ≤ u1−α/2 ] ≈ 1 − α F (1 − F )
F (1 − F ) F (1 − F ) √ √ P [F + uα/2 ≤ π ≤ F + u1−α/2 ]≈1−α n n √ √ F (1−F ) F (1−F ) √ √ Donc [F + uα/2 ; F + u ] est un intervalle de conance asymptotique au 1−α/2 n n niveau de conance 1 − α pour π . En pratique, on suppose généralement que cette approximation est valable dès que nπ ≥ 5 et n(1 − π) ≥ 5. Comme π est inconnu en pratique, on vérie a et enn
posteriori si les conditions sont vériées pour les bornes de l'intervalle de conance, c'est à dire
n(F − uα/2
√
F (1−F ) √ ) n
≥5
et
n(1 − F − u1−α/2
√
F (1−F ) √ ) n
≥5
Exemple/exercice : An d'estimer les intentions de vote lors du deuxième tour d'une élection présidentielle, un institut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520 pensent voter pour le candidat A et 480 pour le candidat B. Donner une estimation de la proportion d'intention de vote en faveur du candidat A dans la population totale, ainsi qu'un intervalle de conance à 95%. Combien de personne faudrait-il sonder pour être certain d'obtenir un intervalle de conance à 95% dont la largeur est inférieur à 0.1% ?
4 Tests statistiques 4.1 Généralité sur les tests Un test statistique permet de vérier si certaines hypothèses faites sur la valeur des paramètres sont réalistes ou non. Plus précisément, dans le cadre de ce cours, nous nous intéresserons à tester des hypothèses de la forme
H0 : θ ∈ Θ 0 avec
contre l'hypothèse alternative
H1 : θ ∈ / Θ0
Θ0 ⊂ Θ.
On distingue usuellement deux types d'erreurs :
erreur de première espèce qui consiste à rejeter H0 alors que H0 est vraie. On appelle risque de première espèce α la probabilité de choisir H1 alors que H0 est vraie. L'erreur de deuxième espèce qui consiste à accepter H0 alors que H0 est fausse. On appelle risque de deuxième espèce β la probabilité de choisir H0 alors que H0 est fausse.
L'
En pratique, on xe généralement important que
H1 . 1 − β
α
(valeurs courantes : 5%, 1%) et
H0
joue donc un rôle plus
est appelé la puissance du test : pour un risque de première espèce
xé, on cherche à construire le test dont la puissance est la plus grande !
12
α
4.2 Tests basés sur la loi normale 4.2.1 Tests pour une moyenne On dispose d'un n-échantillon
(X1 , ..., Xn )
d'une loi d'espérance inconnue
µ = E[Xi ]
et on veut
tester l'hypothèse simple
H0 : µ = µ0 avec
µ0
contre l'hypothèse alternative
H1 : µ = µ0
une valeur xée.
Premier cas : supposons que (X1 , ..., Xn ) ∼iid N (µ, σ2 ) avec σ connue (cf paragraphe sur les
intervalles de conance). On a alors :
¯ −µ √ X ∼ N (0, 1) n σ Donc, si
H0
est vraie, on a
µ = µ0
et
PH0 [uα/2 ≤ On adopte alors la
¯ − µ0 √ X ≤ u1−α /2] = 1 − α n σ
règle de décision suivante :
√ ¯ 0 H0 si n X−µ ∈ [uα/2 , u1−α/2 ]. σ H0 sinon.
On accepte On refuse
Remarque : On accepte donc H0
lorsque ,
¯ ∈ [µ0 + uα/2 √σ , µ0 + u1−α/2 √σ ] X n n c'est à dire lorsque
¯ X
est susamment proche de
que le risque de première espèce soit bien égal à
µ0 .
La règle de décision est construite pour
α.
Deuxième cas : on ne suppose plus que l'échantillon est gaussien ni que la variance σ2 connue. Par contre, on suppose que l'approximation
soit valable. Alors, si
H0
est vraie,
n
est susamment grand (n
≥ 30 ?)
est
pour que
¯ −µ √ X ≈ N (0, 1) n S on a µ = µ0 et
PH0 [uα/2 ≤
¯ − µ0 √ X ≤ u1−α/2 ] = 1 − α n S
On adopte alors la règle de décision suivante : √ X−µ ¯ On accepte H0 si n S 0 ∈ [uα/2 , u1−α/2 ].
On refuse
H0
sinon.
Exemple/exercice : Avec les données de l'exemple 1 peut-on armer que les thermomètres mesurent bien une température de
20o C
avec un risque de 5% ?
4.2.2 Test pour une proportion On dispose d'un n-échantillon
(X1 , ..., Xn )
d'une loi de Bernoulli de paramètre
veut tester l'hypothèse simple
H0 : π = π0
contre l'hypothèse alternative
13
H1 : π = π0
π
inconnu, et on
On a vu que pour n "grand" (cf paragraphe sur les intervalles de conance), on a
√ F −π n ≈ N (0, 1) π(1 − π) Donc, si
H0
π = π0
est vraie, on a
et
PH0 [uα/2 ≤
√ F − π0 ≤ u1−α/2 ] ≈ 1 − α n π0 (1 − π0 ) nπ ≥ 5
On suppose généralement que cette approximation est valable lorsque
et
n(1 − π) ≥ 5.
On
adopte alors la règle de décision suivante : √ On accepte H0 si n √ F −π0 ∈ [uα/2 , u1−α/2 ]. π0 (1−π0 ) On refuse
H0
sinon.
Exemple/exercice : An d'estimer les intentions de vote lors du deuxième tour d'une élection présidentielle, un institut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520 pensent voter pour le candidat A et 480 pour le candidat B. Etant donnés les résultats de ce sondage, peut-on supposer que les intentions de vote dans la population totale sont identiques en faveur des deux candidats ?
4.3 Tests basés sur la loi du χ2 4.3.1 Rappels sur la loi du La loi du
χ2
χ2
(khi-deux) est une loi très utile en pratique car de nombreuses statistiques suivent
cette loi ou convergent vers cette loi. Nous nous contenterons d'énoncer certaine de ses propriétés les plus utiles pour la suite.
Denition :
Soient U1 , . . . , Un , n variables N (0, 1) indépendantes. La loi de la variable aléatoire n 2 2 i=1 Ui est appelée loi du khi-deux à n degrés de libertés. On note X ∼ χn 2 + Il est relativement clair que la loi du χ est une loi de probabilité sur R , admettant une densité.
X=
Cette dernière est défnie par :
g(t) =
n t 1 t 2 −1 e− 2 1lR+ (t) n 2 2 Γ( n2 )
On peut montrer de plus les propriétés suivantes de cette loi : 2 2 Soient X ∼ χn et Y ∼ χm , indépendantes. On a alors : 2 X + Y ∼ χ(n+m)
Propriétés :
E(X) = n V (X) = 2n
Exercice : Montrer les propriétés précédentes. 4.3.2 Tests sur la variance d'une loi normale On dispose d'un n-échantillon
(X1 , ..., Xn )
d'une loi normale de paramètres
µ
et
σ.
On souhaite
alors tester l'hypothèse simple
H0 : σ = σ0 avec
σ0
et
σ1
contre l'hypothèse alternative
H1 : σ = σ1
deux valeurs xées.
avec
σ1 > σ0
Premier cas : supposons que (X1 , ..., Xn ) ∼iid N (µ, σ2 ) avec µ connu. On a alors : n
i=1 (Xi σ2
− µ)2
14
∼ χ2n
Donc, si
H0
est vraie, on a
σ = σ0 PH0 [
, où
kn,alpha
i=1 (Xi σ02
est le quantile d'ordre
de décision suivante :
n
(X −µ)2
H0 si i=1 σ2 i 0 H0 sinon.
On accepte On refuse
et
n
α
d'une
− µ)2 χ2
à
> kn,alpha ] = α
n
degrés de libertés. On adopte alors la
règle
< kn,alpha
Remarques :
On accepte donc
H0
lorsque ,
1 σ 2 kn,alpha (Xi − µ)2 > 0 n i=1 n n
D= c'est à dire lorsque
D
l'estimation de la variance est susamment petite. La règle de
décision est construite pour que le risque de première espèce soit bien égal à α. 2 La loi du χ permet de construire des intervalles de conance de manière similaire à celle développée dans la partie correspondante.
2 Deuxième cas : supposons que (X1 , ..., Xn ) ∼iid N (µ, σ ) avec µ inconnu, mais estimé par
¯= X
1 n
n i=1
Donc, si
H0
Xi .
On a alors :
n
i=1 (Xi σ2
est vraie, on a
σ = σ0 PH0 [
On adopte alors la
∼ χ2n−1
et
n
i=1 (Xi σ02
¯ 2 − X)
> kn−1,α ] = α
règle de décision suivante : n
¯ 2 (X −X)
H0 si i=1 σ2i 0 H0 sinon.
On accepte On refuse
¯ 2 − X)
< kn−1,α
Remarque importante : Les deux tests présentés ici utilisant la loi du χ2 ne sont valables que dans le cas où les observations suivent une loi normale. Exemple/exercice : Le fabriquant de thermomètres pris dans l'exemple 1 arme que ses thermomètres donnent la bonne température à
0.1o C
près. Au risque de 5%, pouvez-vous
conrmer ou non cette armation ?
4.3.3 Test du rapport de vraisemblance Nous allons maintenant construire un test ne se basant pas sur un type de loi particulier, mais valable du moment où l'on sait calculer la vraisemblance du modèle. p Supposons que l'on souhaite tester H0 : θ = θ0 où θ ∈ R est un paramètre, caractérisant complètement le modèle par le biais de la vraisemblance. Posons alors :
λn =
L(θ0 ; x1 , . . . , xn ) supL(θ; x1 , . . . , xn ) θ
Notons déjà que Intuitivement,
θ0
λn
λn
se situe entre 0 et 1.
sera d'autant plus proche de 1 que l'hypothèse
H0
est proche de la valeur qui réalise le maximum de vraisemblance,
acceptera
H0
si
λn < k ,
avec
k
est vraisemblable car alors
θˆ.
On en déduit que l'on
une valeur à déterminer pour contrôler le risque associé au test.
Ce point est réglé grâce le théorème suivant, donc nous ferons la démonstration dans le cas où est un paramètre scalaire.
15
θ
L Théorème : Sous l'hypothèse H0 , −2 ln λn n→∞ → χ2p Preuve : La preuve sera faite en cours, nous ne donnerons ici que les idées de base. Nous nous plaçons dans le cas où le paramètre
θˆ,
au voisinage de
θ
est scalaire. Ensuite, un développement en série de Taylor
point où la dérivé s'annule (car c'est un maximum), puis la loi des grand
nombre, nous donnent le résultat attendu.
♦
4.3.4 Test d'adéquation à une loi Nous présenterons ici un test classique d'adéquation à une loi discrète, ou à une loi discrétisée. Ce test est couramment utilisé en pratique, par exemple pour tester l'équilibre d'un dé sur la base d'un échantillon de lancer obtenue avec ce dé. On voit si cet exemple que l'on se situe dans un cadre plus général que lorsque que l'on cherche à tester l'équilibre d'une pièce. Supposons que l'on se donne une variable aléatoire réelle X, dont la loi est discrète, c'est-à-dire qu'elle prend
k
modalités distinctes, chacune avec une probabilité
pi ,
pour
i = 1, . . . , k .
Soit
encore un échantillon de cette variable aléatoire de taille n, c'est-à-dire que pour chaque modalité k on observe un eectif Ni , avec n = i=1 Ni . On peut noter que l'on a E(Ni ) = npi . Formons alors la statistique
D
dénie par :
D=
k (Ni − npi )2
(4.1)
npi
i=1
Intuitivement, cette quantité représente la distance entre ce que l'on observe (les quantité espéré, observée de
D
npi .
On se rend alors compte que si les
(pi )
Ni )
et la
sont ceux de la vraie loi, la valeur
sur un échantillon sera faible.
D suit asymptotiquement une loi du χ2 à k-1 degrés de liberté : on remarque en eet que k termes interviennent dans la somme, mais qu'il ne sont pas tous k indépendants : on a déjà noté que i=1 Ni = n, il y sut donc de connaitre k − 1 termes. On peut montrer que
Il est alors facile d'en déduire le test des hypothèses suivantes :
On rejettera alors
Remarque :
H0
si
D>s
avec
H0 : ∀i, pi = pi0 H1 : ∃i pi = pi0
P (χ2k−1 > s) = α.
On peut aussi étendre ce test à la comparaison de plusieurs échantillons décrits
par une variable qualitative. Cette extension sera traitée à titre d'exercice.
Exemple/exercice : On réalise plusieurs lancers succecifs d'un même dé, les résultats étant reportés dans le tableau ci-dessous. En se xant un risque de 5%, eut-on considérer que le dé est équilibré ? Face
1
2
3
4
5
6
Eectifs
9
16
23
10
13
19
16
View more...
Comments