Notes du cours de statistique L3 Maths et L3 Maths

January 15, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Notes du cours de statistique L3 Maths et L3 Maths...

Description

Notes du cours de statistique L3 Maths et L3 Maths-info Année 2009-2010 P. Ailliot, N. Raillard 29 mars 2010

1 Introduction La statistique est l'activité qui consiste à recueillir, traiter et interpréter des données. La démarche statistique consiste généralement en 3 étapes : 

Le recueil des données (non abordé dans ce cours). Comment recueillir les données pour qu'elles apportent le plus d'information possible par rapport à la question posée ?



La partie exploratoire ou descriptive (non abordée dans ce cours mais quelques exemples seront traités en exercices). L'objectif de cette étape est de synthétiser l'information contenue dans les données an de mettre en évidence certaines propriétés et de suggérer des hypothèses. Cela peut être réalisé en calculant des valeurs numériques (moyennes, écart types, proportions, ...), ou sous la forme de graphiques (histogrammes, camenberts...) et de tableaux.



Statistique inférentielle. Son but est de valider ou d'inrmer les hypothèses faites dans la phase exploratoire.

Quelques exemples qui serviront à illustrer ce cours : 

Exemple 1 : contrôle de qualité. Un client commande à son fournisseur un lot de 10000 thermomètres. An de tester la qualité des thermomètres, le client en choisit 20 au hasard et

les plonge dans un liquide à 20 degrés. Il obtient les résultats suivants : 20.2, 20.4, 20.1, 19.9, 19.7, 20, 20.5, 19.9, 19.9, 20.1, 20.4, 20.6, 20, 19.8, 20.3, 19.6, 19.8, 20.1, 20.3, 20 Que peut-on en déduire sur la qualité des thermomètres ? Est-ce qu'ils donnent la bonne température en moyenne ? Avec quelle précision ? 

Exemple 2 : sondage. An d'estimer les intentions de vote lors du deuxième tour d'une election présidentielle, un institut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520 pensent voter pour le candidat A et 480 pour le candidat B. Que peut-on en déduire sur les intentions de vote dans la population Française ? Avec quelle précision le sondage eectué permet t'il d'estimer le pourcentage d'intention de vote en faveur du candidat A ? Peut on déduire de ce sondage, avec une certaine conance, que à la date du sondage le candidat A est en tête ?



Exemple 3 : ecacité d'un médicament en médecine. An d'étudier l'eet d'un nouveau médicament en vue de réduire la tension artérielle, on a mesuré la tension (en mm de Hg) sur 12 patients avant et après traitement. Les valeurs suivantes ont été obtenues : Avant

200

174

198

170

179

182

193

209

185

155

169

210

Après

191

170

177

167

159

151

176

183

159

145

146

177

Peut-on conclure que ce médicament réduit la tension artérielle ?

1

Autres exemples d'application :  Peut-on prévoir le cours d'une action ?  Dans quelle mesure le fait de fumer des cigarettes augmente-t-il les risques de cancer du poumon ?  Comment estimer les stocks de poissons dans une zone maritime donnée ?  Quelle est la probabilité d'avoir une température inférieur à 0 deg à Brest au mois de Janvier ? Cette probabilité a t'elle évolué au cours des dernières décennies ?  Comment "cibler" de manière optimale les clients lors d'une campagne de publicité ?

2 Introduction à l'estimation ponctuelle 2.1 Introduction On dispose de

n

observations notées

(x1 , ..., xn ) ∈ Rn

(cf exemples ci-dessus). On va supposer

tout d'abord que ces observations sont une réalisation d'une expérience aléatoire, c'est à dire qu'il existe un espace probabilisé espace probabilisé

(Ω, F , P)

(Ω, F , P)

et des variables aléatoires réelles

telles que

(x1 , ..., xn ) = (X1 (ω), ..., Xn (ω))

(X1 , ..., Xn ) dénies avec ω ∈ Ω.

sur un

Ceci permet de modéliser l'aléatoire qui est généralement présente dans le recueil des données. Par exemple, dans les exemples introduits ci-dessus : 

Exemples 1,2 et 3 : dans ces 3 exemples, les individus considérés sont choisis au hasard parmi un grand nombre d'individus. Si on recommence l'expérience, il y a de fortes chances qu'on choisisse d'autres individus et qu'on obtienne des résultats diérents : le résultat de l'expérience est donc bien "aléatoire" !



Exemples 1 et 3 : après avoir choisi les individus, on réalise des mesures qui peuvent être sujettes à des erreurs expérimentales. Ceci rajoute de l'incertitude aux résultats obtenus !

On fait ensuite des hypothèses sur la loi de probabilité du n-uplet

(X1 , ..., Xn ).

Dans le cadre de

ce cours, on supposera que ce sont des variables aléatoires indépendantes et identiquement distribuées (i.i.d). Il s'agit du cadre le plus simple, mais cette hypothèse n'est pas toujours réaliste :  Lorsqu'on considère des phénomènes indexés par le temps (séries temporelles), l'hypothèse d'indépendance n'est généralement pas vériée.

Exemple : Si (X1 , X2 , ..., Xn ) désigne les températures observées pendant n jours successifs, alors l'hypothèse d'indépendance n'est pas vériée puisque la température du jour généralement proche de celle du jour

i

est

i − 1.

 La loi dépend de variables explicatives et l'hypothèse "identiquement distribuée" n'est pas vériée.

Exemple : si (X1 , X2 , ..., Xn) désigne la taille de n individus pris au hasard, hommes et femmes mélangés, alors la loi des variables aléatoires dépend du sexe (les hommes sont généralement plus grands que les femmes) et on ne peut pas supposer que les observations proviennent d'un échantillon "identiquement distribué".

Dénition On appelle n-échantillon qui suivent le loi de probabilité

P.

P X1 , ..., Xn ∼iid P

d'une loi de probabilité

On notera

une suite

(X1 , ..., Xn )

de v.a. i.i.d.

On suppose ensuite que la loi de probabilité commune de X1 , X2 , ..., Xn est un loi de probabilité k qui dépend d'un paramètre inconnu θ ∈ Θ avec Θ ⊂ R et on cherche alors à estimer le paramètre inconnu souvent que

θ

à partir des observations disponibles

Xi ∼iid N (m, σ 2 )

2

(x1 , ..., xn ).

Par exemple, on supposera

pour

i ∈ {1...n}.

Le paramètre inconnu est alors

θ = (m, σ) ∈ R ∗ R+∗ .

Dénition Soit (X1 , ..., Xn ) un n-échantillon d'une loi Pθ . Un estimateur θ

est une variable aléatoire

T = g(X1 , ..., Xn )

qui s'exprime en fonction de

θ est alors la valeur numérique prise par cette statistique (x1 , ..., xn ), c'est à dire la quantité t = g(x1 , ..., xn ).

estimation de particulière

du paramètre inconnu

(X1 , ..., Xn ).

Une

sur une réalisation

Retour sur l'exemple 1 et dénition : on suppose que les températures observées sont une réalisation d'un échantillon

(X1 , ..., Xn )

avec

n = 20.

Diérents paramètres inconnus peuvent être

utilisés pour mesurer la qualité des thermomètres, par exemple : 

µ = E[Xi ]

qui décrit la température moyenne d'un thermomètre pris au hasard. Si les

µ ≈ 20. (NB : comme l'échantillon est i.d., E[Xi ] est indépendant de i) σ 2 = var(Xi ) = E[Xi2 ] − E[Xi ]2 = E[(Xi − E[Xi ])2 ] qui décrit la dispersion des températures mesurées par les thermomètres (si les thermomètres sont bons, on devrait avoir σ faible) .

thermomètres sont bien calibrés, on devrait avoir 

Ces quantités sont inconnus, et on cherche à les estimer à partir des observations disponibles.

espérance mathématique µ est alors la moyenne empirique

 L'estimateur usuel de l' ¯ = X1 +...+Xn X n  Un estimateur usuel de la

variance mathématique σ2 S2 =

n

i=1

n

Xi2

¯2 = −X

est la

variance empirique

1 2 ¯ 2 (X − X) n i=1 i n

écart-type empirique

S est appelé . n 2 2 n n i=1 xi ¯ = x1 +...+x et s = −x ¯2 . x ¯ = x1 +...+x est Les estimations correspondantes sont notées x n n n 2 la moyenne observations et s une mesure de la dispersion des observations autour de la valeur moyenne. Pour notre exemple, on obtient les valeurs numériques x ¯ = 20.075 degré, s2 = 0.072875 2 degré et s = 0.26995 degré.

Retour sur l'exemple 2 et dénition : Prenons l'exemple d'un sondage sur les intentions de vote lors d'une élection avec deux candidats (notés A et B). Le paramètre inconnu est la proportion

π

d'intentions de vote en faveur de B dans la population totale. Pour estimer cette

quantité, on sonde

n = 1000

personnes choisies au hasard, et on code les résultats de la manière

suivante :  

xi = 0 xi = 1

si la ième personne sondée pense voter pour A si la ième personne sondée pense voter pour B

(x1 , ..., xn ) est une réalisation d'un échantillon (X1 , ..., Xn ) d'une loi de Bernoulli θ = π = P [Xi = 1] est le paramètre de cette loi de Bernoulli. Un estimateur "naturel" de π est alors la fréquence empirique F de 1 dans la séquence (X1 , ..., Xn ), c'est à dire : n Xi card{i ∈ {1...n}|Xi = 1} = i=1 F = n n On suppose que

et le paramètre inconnu

En remarquant que

π = E[Xi ]

et

¯, F =X

on peut remarquer qu'on retrouve l'estimateur

précédent de l'espérance. Supposons que lors du sondage, on trouve que 480 personnes pensent voter en faveur du candidat B (i.e. 480 "1" dans la série

(x1 , ..., xn )).

f=

π n

Une estimation de

card{i ∈ {1...n}|xi = 1} = n

3

est alors

i=1

n

xi

= 0.48

Remarque : Dans la suite du cours, les variables aléatoires (Xi , X¯ , F , S ) sont notées avec des lettres majuscules, les observations (xi ) et les estimations (f ,

x ¯, s) avec µ, σ ).

des lettres minuscules.

Les paramètres inconnus sont notés avec des lettres grecques (π ,

2.2 La méthode du maximum de vraisemblance La fonction de vraisemblance dénie ci-dessous joue un rôle fondamental en statistique.

Dénition On appelle fonction de vraisemblance

de l'échantillon

(X1 , ..., Xn )

la loi de

probabilité de ce n-uplet, c'est à dire la quantité : 

L(θ; x1 , ..., xn ) = P (X1 = x1 , ..., Xn = xn ; θ) = discrètes

i=1

P (Xi = xi ; θ)

lorsque les

n

Xi

i=1 f (xi ; θ) lorsque les Xi sont des v.a. continues de densité On appelle fonction de log-vraisemblance la quantité :



L(θ; x1 , ..., xn ) =

n

sont des v.a.

f (xi , θ)

l(θ; x1 , ..., xn ) = ln(L(θ; x1 , ..., xn )) La méthode du maximum de vraisemblance consiste alors, étant donnée une réalisation

(x1 , ..., xn )

d'une loi

Pθ ,

à prendre comme estimation

t

de

θ

une valeur de

θ

qui rend maximale (si

ce maximum existe...) la fonction de vraisemblance

θ → L(θ; x1 , ..., xn ) On notera

t = argmaxθ L(θ; x1 , ..., xn ).

Remarques : 1. Dans le cas discret,

L(θ; x1 , ..., xn ) s'interprète directement comme la probabilité ou (x1 , ..., xn ) lorsque θ est la vraie valeur du paramètre. Une

"vraisemblance" d'observer

interprétation similaire est valable dans le cas continu par passage à la limite. L'EMV est donc la valeur des paramètres qui rend les observations le plus vraisemblable. 2. En pratique, on travaille souvent avec la fonction de log-vraisemblance, car elle est plus simple à étudier (transformation du produit en somme).

Exemple : Si (X1 , ..., Xn ) est un échantillon d'une loi de Bernoulli de paramètre θ = π, alors 1 − π si xi = 0 Pθ (Xi = xi ) = π si xi = 1 avec

θ = π.

Ceci se réécrit sous la forme

Pθ (Xi = xi ) = π xi (1 − π)1−xi pour xi ∈ {0, 1} On en déduit que si

(x1 , ..., xn ) ∈ {0, 1}n

alors la vraisemblance est donnée par

L(π; x1 , ..., xn ) = = =

n  i=1 n 

Pθ (Xi = xi ) π xi (1 − π)1−xi

i=1 n

π

4

i=1

xi

(1 − π)n−

n

i=1

xi

On en déduit que

l(π; x1 , ..., xn ) = ln(π)

n 

xi + ln(1 − π)(n −

i=1 puis que

 Donc n i=1

xi

n



∂l(π;x1 ,...,xn ) ∂π



>0

. L'EMV est donc

∂l(π; x1 , ..., xn ) ∂π

n ssi

F =

i=1

xi

n n

i=1

>π Xi

n

n 

xi )

i=1

n

 =

n i=1 xi − π(1 − π) 1 − π

et la fonction de vraisemblance atteint son maximum en

. On retrouve l'estimateur introduit ci-dessus.

Exemple/exercice : On considère les données de l'exemple 1. 1. Réaliser un histogramme de ces observations. 2. On suppose dans la suite de l'exercice que ces observations sont une réalisation de n 2 variables aléatoires (X1 , ..., Xn ) i.i.d. de loi N (µ, σ ). Cette hypothèse vous semble-t-elle réaliste ? 3. Donner la fonction de vraisemblance. Quel est l'estimateur du maximum de vraisemblance de 4.

θ = (µ, σ) ?

Application numérique. Calculer les estimations correspondantes sur les données de température journalière à Brest, puis représenter sur la gure de la question 1. la densité correspondante. Commentez.

Solution partielle :  Graphique : l'hypothèse de normalité semble douteuse (cf Figure 1).

(X1 , ..., Xn ) est un échantillon d'une loi normale Xi est donnée, pour xi ∈ R, par :   (xi − µ)2 1 exp − fθ (xi ) = √ 2σ 2 2πσ

 Calcul de la fonction de vraisemblance : si moyenne

avec

µ

et écart-type

θ = (µ, σ).

σ,

alors la densité de la v.a.

Donc, la fonction de vraisemblance est donnée pour

L(θ; x1 , ..., xn )

=

n 

(x1 , ..., xn ) ∈ Rn

par

fθ (xi )

i=1 n 

  (xi − µ)2 1 √ exp − 2σ 2 2πσ i=1  n  2 1 i=1 (xi − µ) = exp − 2σ 2 (2π)n/2 σ n

=

 L'étude des points critiques montre que cette fonction atteint son maximum pour

σ=s 

Application numérique : x¯ = 15.9679 et s = 1.7846.

5

µ=x ¯

et

de

1.5

1

0.5

0 19

19.5

20

20.5

21

Fig. 1  Histogramme des températures et densité de la loi normale ajustée

2.3 Propriétés des estimateurs On peut toujours dénir une innité d'estimateurs pour un paramètre inconnu donné, et en pratique on cherchera à utiliser le "meilleur" de ces estimateurs. Ceci nécessite de dénir ce qu'est un bon estimateur....

2.3.1 Biais d'un estimateur Dénition : On appelle biais de l'estimateur T la quantité biais(T ) = E(T ) − θ On dit que l'estimateur

T

est

sans biais lorsque biais(T ) = 0, c'est à dire lorsque E[T ] = θ. Le

biais représente "l'erreur moyenne" qui est faite lorsqu'on utilise

T

pour estimer

θ.

Proposition Soit (X1 , ..., Xn ) est un n-échantillon d'une loi de moyenne E[Xi ] = µ. 

¯= X

X1 +...+Xn est un estimateur sans biais de µ. En particulier, si (X1 , ..., Xn ) est un n X1 +...+Xn est un estimateur sans biais de n-échantillon de Bernoulli de paramètre π alors F = n

π.

n−1 2 2 2  Si on suppose en outre que σ < ∞ alors E[S ] = n σ . 2 2 S est donc un estimateur biaisé de σ , et on préfère parfois utilisé l'estimateur corrigé 2 Scorr =

qui est un estimateur sans biais de

n 1  ¯ 2 S2 = (Xi − X) n−1 n − 1 i=1 n

σ2 .

Preuve  Si

(X1 , ..., Xn )

est un échantillon d'une loi de moyenne

¯ = E[X] = =

µ

alors

X1 + ... + Xn ] n E[X1 ] + ... + E[Xn ] n µ

E[

6

 On suppose que

σ 2 < ∞.

Par dénition,

S2 = et de la décomposition

S2

1 ¯ 2 (Xi − X) n i=1 n

¯ = (Xi − µ) − (X ¯ − µ), (Xi − X)

on déduit que :

1 ¯ − µ)(Xi − µ) + (X ¯ − µ)2 (Xi − µ)2 − 2(X n i=1 n

= =

 1 ¯ − µ) 1 ¯ − µ)2 (Xi − µ)2 − 2(X (Xi − µ) + (X n i=1 n i=1

=

1 ¯ − µ)2 (Xi − µ)2 − (X n i=1

n

n

n

Donc

E[S 2 ] =

1 ¯ − µ)2 ] (Xi − µ)2 − (X n i=1 n

E[

1 ¯ − µ)2 ] E[(Xi − µ)2 ] − E[(X n i=1 n

= =

¯ − µ)2 ] σ 2 − E[(X

Il reste à calculer

¯ − µ)2 ] = var(X) ¯ E[(X n 1 = var( Xi ) n i=1 =

n  1 var( Xi ) n2 i=1

=

n 1  var(Xi ) n2 i=1

=

σ2 n

Finalement,

E[S 2 ] =

n−1 2 σ n



2.3.2 Erreur quadratique d'un estimateur On mesure généralement la précision d'un estimateur par son erreur quadratique moyenne.

Dénition L'erreur quadratique moyenne de l'estimateur

T

dénie par

EQM (T ) = E[(T − θ)2 ] 7

L'EQM représente l'espérance du carré de l'écart entre l'estimateur et le paramètre inconnu : plus l'EQM est faible, plus l'estimateur est précis.

Remarque On montre facilement que

E[(T − θ)2 ] = var(T ) + E[(T − θ)]2

c'est à dire que l'erreur quadratique moyenne est égale à la variance de l'estimateur plus le biais de l'estimateur au carré. Lorsque l'estimateur est non-biaisé, l'EQM coincide avec la variance : parmi deux estimateurs sans biais, le plus précis est donc celui de variance minimale.

Proposition Soit (X1 , ..., Xn ) est un échantillon d'une loi de moyenne µ et variance σ2 < ∞. ¯ = var(X) ¯ = σ2 . En particulier, si (X1 , ..., Xn ) EQM (X) n p(1−p) de paramètre π alors EQM (F ) = var(F ) = n

 On a alors Bernoulli  Si de plus

µ4 = E[(Xi − µ)4 ] < ∞,

est un échantillon de

alors

2 2 EQM (Scorr ) = var(Scorr )=

n−3 4 µ4 − σ n n(n − 1)

Preuve partielle  Si

(X1 , ..., Xn )

est un échantillon d'une loi de moyenne

estimateur sans biais de

µ,

¯ EQM (X)

 Le calcul de

2 var(Scorr )

µ

et de variance

σ 0.

La densité de

Xi

est alors

fλ (x) = λexp(−λx)1lR+ (x) On peut montrer que l'estimateur du maximum de vraisemblance est

Tn =

 nn

1 ¯ n et d'après les propositions précédentes X

Tn = ¯ n est un estimateur convergent de E[Xi ] = 1  X λ √ ¯ L  n(Xn − λ1 ) → N (0, σ 2 ) avec σ 2 = var(Xi ) = λ12 . En utilisant la delta méthode avec g(x) = 1/x, on en  Tn est un estimateur convergent de λ √ ¯ L  n(Tn − λ) → N (0, λ2 )

i=1

Xi . On a donc

déduit que

3 Estimation par intervalles de conance Dans les paragraphes précédents, des méthodes permettant d'estimer la valeur d'un paramètre inconnu

θ

à partir d'observations ont été proposées. Ces méthodes fournissent seulement une

valeur ("estimation ponctuelle"), mais ne permettent pas de quantier la précision de cette estimation. Pour cela, on utilise généralement des intervalles de conance qui peuvent s'interpréter comme des marges d'erreur.

3.1 Construction d'intervalles de conance pour la moyenne d'un échantillon Gaussien lorsque la variance est connue On suppose dans ce paragraphe que cherche à estimer

µ,

X1 , ..., Xn

est un n-échantillon d'une loi

supposé inconnu, mais on suppose que l'écart-type

σ

N (µ, σ 2 ).

On

est connu. Ceci est

rarement le cas en pratique, et ce cas particulier a donc principalement un objectif pédagogique. Nous reviendrons sur la construction d'intervalles de conance la moyenne d'un échantillon sous des hypothèses plus réalistes dans la suite de ce cours. ¯ ¯ ∼ N (µ, σ2 ) puis que √n X−µ On peut alors montrer que X n σ

P [uα/2 ≤

∼ N (0, 1)

¯ −µ √ X ≤ u1−α/2 ] = 1 − α n σ 10

et donc

avec



le quantile d'ordre

α

de la loi

N (0, 1),

ce qui se récrit

¯ + u1−α/2 √σ ] = 1 − α ¯ + uα/2 √σ ≤ µ ≤ X P [X n n ¯ + uα/2 √σ ; X ¯ + u1−α/2 √σ ] est un intervalle aléatoire (puisque les bornes [X n n dépendent des variables aléatoires X1 , ..., Xn ) qui contient la vraie valeur du paramètre µ avec une probabilité 1 − α. Un tel intervalle est appelé intervalle de conance au niveau de conance 1 − α pour µ. En pratique les quantiles de la loi N (0, 1) peuvent être obtenus en utilisant des tables statistiques L'intervalle

ou des logiciels adaptés (R, Matlab, SAS, Excel...)

Dénition :

l'intervalle aléatoire

au niveau de conance

1−α

pour

[a(X1 , ..., Xn ); b(X1 , ..., Xn )] est appelé intervalle de θ si P [a(X1 , ..., Xn ) ≤ θ ≤ b(X1 , ..., Xn )]] = 1 − α.

conance

3.2 Construction d'intervalles de conance pour un échantillon quelconque n est susamment grande, on peut construire des intervalles de ¯ et S 2 . µ en utilisant les propriétés asymptotiques de X (X1 , ..., Xn ) un n-échantillon d'une loi vériant var(Xi ) = σ 2 < +∞. Pour

Lorsque la taille de l'échantillon conance pour la moyenne Plus précisément, soit

"n grand", d'après le TCL, on a :

¯ −µ √ X ≈ N (0, 1) n σ

Cette approximation est valable même si l'échantillon n'est pas gaussien et permet de faire des

σ est connu. 2 de σ , et donc

σ

intervalles de conance lorsque

Lorsque

est un estimateur convergent

pour "n grand", on a

est inconnu, on peut utiliser le fait que

S2

S≈σ Finalement, on en déduit que pour "n grand" :

¯ −µ √ X ≈ N (0, 1) n S (Une démonstration rigoureuse de ce résultat peut être obtenue en utilisant le lemne de Slutsky : √ X−µ ¯ n S converge en loi vers une on peut montrer que, sous les conditions d'application du TCL, loi

N (0, 1))

En pratique, on suppose généralement que cette approximation est valide dès que

n ≥ 30

( !). On

a alors :

P [uα/2 ≤

¯ −µ √ X ≤ u1−α/2 ] ≈ 1 − α n S

puis

¯ + u1−α/2 √S ] ≈ 1 − α ¯ + uα/2 √S ≤ µ ≤ X P [X n n ¯ + uα/2 √S ; X ¯ + u1−α/2 √S ] [X n n conance 1 − α pour µ.

L'intervalle niveau de

est appelé "intervalle de conance asymptotique" au

Exemple/exercice : Quelle est la température moyenne donnée par les thermomètres ? On donnera un intervalle de conance à 95% et on discutera la validité des hypothèses permettant la construction de cet intervalle.

11

3.2.1 Construction d'intervalles de conance pour une proportion Il est également possible de construire des intervalles de conance pour une proportion lorsque n est grand. Soit

X1 , ..., Xn

un n-échantillon d'une loi de Bernoulli de paramètre

π.

D'après le

TCL, on sait que pour n grand, on a :

√ F −π n ≈ N (0, 1) π(1 − π) F est un estimateur convergent de π , pour F (1 − F ) (lemme de Studsky), et on a alors :

Comme par

n grand, on peut remplacer le dénominateur

√ F −π ≈ N (0, 1) n F (1 − F ) puis

P [uα/2 ≤

√ F −π n ≤ u1−α/2 ] ≈ 1 − α F (1 − F )

F (1 − F ) F (1 − F ) √ √ P [F + uα/2 ≤ π ≤ F + u1−α/2 ]≈1−α n n √ √ F (1−F ) F (1−F ) √ √ Donc [F + uα/2 ; F + u ] est un intervalle de conance asymptotique au 1−α/2 n n niveau de conance 1 − α pour π . En pratique, on suppose généralement que cette approximation est valable dès que nπ ≥ 5 et n(1 − π) ≥ 5. Comme π est inconnu en pratique, on vérie a et enn

posteriori si les conditions sont vériées pour les bornes de l'intervalle de conance, c'est à dire

n(F − uα/2



F (1−F ) √ ) n

≥5

et

n(1 − F − u1−α/2



F (1−F ) √ ) n

≥5

Exemple/exercice : An d'estimer les intentions de vote lors du deuxième tour d'une élection présidentielle, un institut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520 pensent voter pour le candidat A et 480 pour le candidat B. Donner une estimation de la proportion d'intention de vote en faveur du candidat A dans la population totale, ainsi qu'un intervalle de conance à 95%. Combien de personne faudrait-il sonder pour être certain d'obtenir un intervalle de conance à 95% dont la largeur est inférieur à 0.1% ?

4 Tests statistiques 4.1 Généralité sur les tests Un test statistique permet de vérier si certaines hypothèses faites sur la valeur des paramètres sont réalistes ou non. Plus précisément, dans le cadre de ce cours, nous nous intéresserons à tester des hypothèses de la forme

H0 : θ ∈ Θ 0 avec

contre l'hypothèse alternative

H1 : θ ∈ / Θ0

Θ0 ⊂ Θ.

On distingue usuellement deux types d'erreurs :

erreur de première espèce qui consiste à rejeter H0 alors que H0 est vraie. On appelle risque de première espèce α la probabilité de choisir H1 alors que H0 est vraie. L'erreur de deuxième espèce qui consiste à accepter H0 alors que H0 est fausse. On appelle risque de deuxième espèce β la probabilité de choisir H0 alors que H0 est fausse.

 L' 

En pratique, on xe généralement important que

H1 . 1 − β

α

(valeurs courantes : 5%, 1%) et

H0

joue donc un rôle plus

est appelé la puissance du test : pour un risque de première espèce

xé, on cherche à construire le test dont la puissance est la plus grande !

12

α

4.2 Tests basés sur la loi normale 4.2.1 Tests pour une moyenne On dispose d'un n-échantillon

(X1 , ..., Xn )

d'une loi d'espérance inconnue

µ = E[Xi ]

et on veut

tester l'hypothèse simple

H0 : µ = µ0 avec 

µ0

contre l'hypothèse alternative

H1 : µ = µ0

une valeur xée.

Premier cas : supposons que (X1 , ..., Xn ) ∼iid N (µ, σ2 ) avec σ connue (cf paragraphe sur les

intervalles de conance). On a alors :

¯ −µ √ X ∼ N (0, 1) n σ Donc, si

H0

est vraie, on a

µ = µ0

et

PH0 [uα/2 ≤ On adopte alors la

¯ − µ0 √ X ≤ u1−α /2] = 1 − α n σ

règle de décision suivante :

√ ¯ 0 H0 si n X−µ ∈ [uα/2 , u1−α/2 ]. σ H0 sinon.

 On accepte  On refuse

Remarque : On accepte donc H0

lorsque ,

¯ ∈ [µ0 + uα/2 √σ , µ0 + u1−α/2 √σ ] X n n c'est à dire lorsque

¯ X

est susamment proche de

que le risque de première espèce soit bien égal à 

µ0 .

La règle de décision est construite pour

α.

Deuxième cas : on ne suppose plus que l'échantillon est gaussien ni que la variance σ2 connue. Par contre, on suppose que l'approximation

soit valable. Alors, si

H0

est vraie,

n

est susamment grand (n

≥ 30 ?)

est

pour que

¯ −µ √ X ≈ N (0, 1) n S on a µ = µ0 et

PH0 [uα/2 ≤

¯ − µ0 √ X ≤ u1−α/2 ] = 1 − α n S

On adopte alors la règle de décision suivante : √ X−µ ¯  On accepte H0 si n S 0 ∈ [uα/2 , u1−α/2 ].

 On refuse

H0

sinon.

Exemple/exercice : Avec les données de l'exemple 1 peut-on armer que les thermomètres mesurent bien une température de

20o C

avec un risque de 5% ?

4.2.2 Test pour une proportion On dispose d'un n-échantillon

(X1 , ..., Xn )

d'une loi de Bernoulli de paramètre

veut tester l'hypothèse simple

H0 : π = π0

contre l'hypothèse alternative

13

H1 : π = π0

π

inconnu, et on

On a vu que pour n "grand" (cf paragraphe sur les intervalles de conance), on a

√ F −π n ≈ N (0, 1) π(1 − π) Donc, si

H0

π = π0

est vraie, on a

et

PH0 [uα/2 ≤

√ F − π0 ≤ u1−α/2 ] ≈ 1 − α n π0 (1 − π0 ) nπ ≥ 5

On suppose généralement que cette approximation est valable lorsque

et

n(1 − π) ≥ 5.

On

adopte alors la règle de décision suivante : √  On accepte H0 si n √ F −π0 ∈ [uα/2 , u1−α/2 ]. π0 (1−π0 )  On refuse

H0

sinon.

Exemple/exercice : An d'estimer les intentions de vote lors du deuxième tour d'une élection présidentielle, un institut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520 pensent voter pour le candidat A et 480 pour le candidat B. Etant donnés les résultats de ce sondage, peut-on supposer que les intentions de vote dans la population totale sont identiques en faveur des deux candidats ?

4.3 Tests basés sur la loi du χ2 4.3.1 Rappels sur la loi du La loi du

χ2

χ2

(khi-deux) est une loi très utile en pratique car de nombreuses statistiques suivent

cette loi ou convergent vers cette loi. Nous nous contenterons d'énoncer certaine de ses propriétés les plus utiles pour la suite.

Denition : 

Soient U1 , . . . , Un , n variables N (0, 1) indépendantes. La loi de la variable aléatoire n 2 2 i=1 Ui est appelée loi du khi-deux à n degrés de libertés. On note X ∼ χn 2 + Il est relativement clair que la loi du χ est une loi de probabilité sur R , admettant une densité.

X=

Cette dernière est défnie par :

g(t) =

n t 1 t 2 −1 e− 2 1lR+ (t) n 2 2 Γ( n2 )

On peut montrer de plus les propriétés suivantes de cette loi : 2 2 Soient X ∼ χn et Y ∼ χm , indépendantes. On a alors : 2  X + Y ∼ χ(n+m)

Propriétés :  

E(X) = n V (X) = 2n

Exercice : Montrer les propriétés précédentes. 4.3.2 Tests sur la variance d'une loi normale On dispose d'un n-échantillon

(X1 , ..., Xn )

d'une loi normale de paramètres

µ

et

σ.

On souhaite

alors tester l'hypothèse simple

H0 : σ = σ0 avec 

σ0

et

σ1

contre l'hypothèse alternative

H1 : σ = σ1

deux valeurs xées.

avec

σ1 > σ0

Premier cas : supposons que (X1 , ..., Xn ) ∼iid N (µ, σ2 ) avec µ connu. On a alors : n

i=1 (Xi σ2

− µ)2

14

∼ χ2n

Donc, si

H0

est vraie, on a

σ = σ0 PH0 [

, où

kn,alpha

i=1 (Xi σ02

est le quantile d'ordre

de décision suivante :

n

(X −µ)2

H0 si i=1 σ2 i 0 H0 sinon.

 On accepte  On refuse

et

n

α

d'une

− µ)2 χ2

à

> kn,alpha ] = α

n

degrés de libertés. On adopte alors la

règle

< kn,alpha

Remarques :

 On accepte donc

H0

lorsque ,

1 σ 2 kn,alpha (Xi − µ)2 > 0 n i=1 n n

D= c'est à dire lorsque

D

l'estimation de la variance est susamment petite. La règle de

décision est construite pour que le risque de première espèce soit bien égal à α. 2  La loi du χ permet de construire des intervalles de conance de manière similaire à celle développée dans la partie correspondante.



2 Deuxième  cas : supposons que (X1 , ..., Xn ) ∼iid N (µ, σ ) avec µ inconnu, mais estimé par

¯= X

1 n

n i=1

Donc, si

H0

Xi .

On a alors :

n

i=1 (Xi σ2

est vraie, on a

σ = σ0 PH0 [

On adopte alors la

∼ χ2n−1

et

n

i=1 (Xi σ02

¯ 2 − X)

> kn−1,α ] = α

règle de décision suivante :  n

¯ 2 (X −X)

H0 si i=1 σ2i 0 H0 sinon.

 On accepte  On refuse

¯ 2 − X)

< kn−1,α

Remarque importante : Les deux tests présentés ici utilisant la loi du χ2 ne sont valables que dans le cas où les observations suivent une loi normale. Exemple/exercice : Le fabriquant de thermomètres pris dans l'exemple 1 arme que ses thermomètres donnent la bonne température à

0.1o C

près. Au risque de 5%, pouvez-vous

conrmer ou non cette armation ?

4.3.3 Test du rapport de vraisemblance Nous allons maintenant construire un test ne se basant pas sur un type de loi particulier, mais valable du moment où l'on sait calculer la vraisemblance du modèle. p Supposons que l'on souhaite tester H0 : θ = θ0 où θ ∈ R est un paramètre, caractérisant complètement le modèle par le biais de la vraisemblance. Posons alors :

λn =

L(θ0 ; x1 , . . . , xn ) supL(θ; x1 , . . . , xn ) θ

Notons déjà que Intuitivement,

θ0

λn

λn

se situe entre 0 et 1.

sera d'autant plus proche de 1 que l'hypothèse

H0

est proche de la valeur qui réalise le maximum de vraisemblance,

acceptera

H0

si

λn < k ,

avec

k

est vraisemblable car alors

θˆ.

On en déduit que l'on

une valeur à déterminer pour contrôler le risque associé au test.

Ce point est réglé grâce le théorème suivant, donc nous ferons la démonstration dans le cas où est un paramètre scalaire.

15

θ

L Théorème : Sous l'hypothèse H0 , −2 ln λn n→∞ → χ2p Preuve : La preuve sera faite en cours, nous ne donnerons ici que les idées de base. Nous nous plaçons dans le cas où le paramètre

θˆ,

au voisinage de

θ

est scalaire. Ensuite, un développement en série de Taylor

point où la dérivé s'annule (car c'est un maximum), puis la loi des grand

nombre, nous donnent le résultat attendu.



4.3.4 Test d'adéquation à une loi Nous présenterons ici un test classique d'adéquation à une loi discrète, ou à une loi discrétisée. Ce test est couramment utilisé en pratique, par exemple pour tester l'équilibre d'un dé sur la base d'un échantillon de lancer obtenue avec ce dé. On voit si cet exemple que l'on se situe dans un cadre plus général que lorsque que l'on cherche à tester l'équilibre d'une pièce. Supposons que l'on se donne une variable aléatoire réelle X, dont la loi est discrète, c'est-à-dire qu'elle prend

k

modalités distinctes, chacune avec une probabilité

pi ,

pour

i = 1, . . . , k .

Soit

encore un échantillon de cette variable aléatoire de taille n, c'est-à-dire que pour chaque modalité k on observe un eectif Ni , avec n = i=1 Ni . On peut noter que l'on a E(Ni ) = npi . Formons alors la statistique

D

dénie par :

D=

k  (Ni − npi )2

(4.1)

npi

i=1

Intuitivement, cette quantité représente la distance entre ce que l'on observe (les quantité espéré, observée de

D

npi .

On se rend alors compte que si les

(pi )

Ni )

et la

sont ceux de la vraie loi, la valeur

sur un échantillon sera faible.

D suit asymptotiquement une loi du χ2 à k-1 degrés de liberté : on remarque en eet que k termes interviennent dans la somme, mais qu'il ne sont pas tous k indépendants : on a déjà noté que i=1 Ni = n, il y sut donc de connaitre k − 1 termes. On peut montrer que

Il est alors facile d'en déduire le test des hypothèses suivantes :



On rejettera alors

Remarque :

H0

si

D>s

avec

H0 : ∀i, pi = pi0 H1 : ∃i pi = pi0

P (χ2k−1 > s) = α.

On peut aussi étendre ce test à la comparaison de plusieurs échantillons décrits

par une variable qualitative. Cette extension sera traitée à titre d'exercice.

Exemple/exercice : On réalise plusieurs lancers succecifs d'un même dé, les résultats étant reportés dans le tableau ci-dessous. En se xant un risque de 5%, eut-on considérer que le dé est équilibré ? Face

1

2

3

4

5

6

Eectifs

9

16

23

10

13

19

16

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF