Chapitre 3 Théorie..

January 15, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Chapitre 3 Théorie.....

Description

Chapitre 3 : Théorie de l’estimation U3 Selim Mankaï

EM Normandie Automne 2013

1

Plan du chapitre

1. Estimation ponctuelle 2. Estimation par intervalle de confiance

2

Objectifs du cours 1. Identifier les caractéristiques des estimateurs. 2. Construire des intervalle de confiance autour des paramètres à estimer 3. Contrôler l’amplitude de l’intervalle de confiance en fonction de la taille de l’ échantillon

3

Estimation ponctuelle Cette technique consiste à estimer un paramètre cible inconnu θ (thêta) de la population à l’aide d’un seul nombre obtenu par un estimateur ponctuel de θ.

4

Propriétés des estimateurs ponctuels

5

2.1 Estimateur sans biais Définition 1 : Soit U un estimateur du paramètre inconnu θ . U est un estimateur sans biais de θ si et seulement si: E(U) = θ Autrement dit, U est sans biais s'il est "en moyenne" (sur plusieurs échantillons) égal à θ. Un estimateur V de θ sera dit "biaisé" si E(V)≠θ . Définition 2 : Le biais de l’estimateur V correspond à la différence:

Biais (V, θ) = E(V) - θ 6

2.1 Estimateur de l’espérance de la population μ Exemple 1 : Soit un échantillon aléatoire (X1,…,Xn) i.i.d issu d’un population d’espérance μ. Vérifier si la moyenne empirique est un estimateur sans biais de μ. 1 n La moyenne empirique est définie par : X   X i 1  E  X   E   Xi   n i 1  1  n  1 n = E   Xi    E  Xi  n  i 1  n i 1 n

n

i 1

Comme l’échantillon est composé de variables aléatoires i.i.d (indépendamment et identiquement distribuées) 1 1 E  X      .....      n    n n

X est un estimateur sans biais de μ 7

2.1 Estimateur de l’espérance de la population μ Exemple 2 : Soit une population des 4 entreprises innovantes pour lesquelles on dispose des montants en millions d’euros alloués à la R&D respectivement égaux à 1, 3, 5 et 9. On cherche à estimer pour cette population le montant moyen μ alloué à la R&D. On construit un échantillon aléatoire de 2 entreprises pour X estimer μ. lesquelles on calcule la moyenne empirique pour 1/ Déterminer les valeurs de la moyenne empirique obtenues sur tous les échantillons qu’il est possible de construire (tirage sans remise). 2/ Vérifier si la moyenne empirique X est un estimateur sans biais de μ. 8

Estimateur de l’espérance de la population μ Exemple 2 : 1/ Comme la population est petite, il est possible de calculer directement μ : 1 3  5  9 

 4,5

4

Les différents échantillons qu’il est possible de construire : Echantillon

(1,3)

(1,5)

(1,9)

(3,5)

(3,9)

(5,9)

X

2

3

5

4

6

7

Prob

1/6

1/6

1/6

1/6

1/6

1/6

2/ L’espérance de la moyenne empirique EX  

1 1  2  3  5  4  6  7    27   4,5 6 6 9

Estimateur de la variance de la population σ² Exemple 3 :Vérifier si la variance empirique S2 est un estimateur sans biais de la variance de la population inconnue σ² . • Par définition :

  E  X  E  X   E  X 2

2

2

 EX 

2

2 1 n 1 n 2 S   Xi  X     Xi   X 2 n i 1  n i 1  2

10

Estimateur de la variance de la population σ² 1 n  E (S )  E   X i 2  X 2   n i 1  1 n 2 2 2 2  E   Xi      X   n i 1  2

1 n   E   X i 2   2    E  X 2   2    n i 1  1 n 2 2    E  X i       E  X 2   2    n i 1 









2 1 n 2 2 2 2       E  Xi      E X  E  X     n i 1   2  1  n 1 2 2 2     1     n n  n 11

Estimateur de la variance σ² Cette technique con

S 2 est asymptotiquement sans biais si son biais tend vers 0 quand la taille de l'échantillon augmente • En revanche, la variance empirique corrigée est un estimateur sans biais de σ² : n

Sˆ 2 

 X i 1

i

X

2

n 1 12

:

Erreur quadratique moyenne (Mean square error) L’erreur quadratique moyenne (MSE) d’un estimateur W d’un paramètre inconnu θ

MSE (W )  Variance(W )  biais(W , )

2

13

Convergence d’un estimateur Formellement, U est un estimateur convergent de θ si la probabilité que U soit dans un "petit intervalle" du vrai θ approche 1 quand la taille n de l'échantillon devient "grande": Pr( |U – θ | < ε ) = 1 quand n > n0 avec ε un réel très petit et n0 un entier très grand Alternativement, U est un estimateur convergent de θ si la probabilité que U soit "loin" du vrai θ approche 0 quand la taille de l'échantillon devient "grande": Pr( |U – θ | > ε ) = 0 quand n > n0 avec ε un réel très petit et n0 un entier très grand

14

Convergence : condition suffisante L'estimateur U de θ est convergent si sa variance et son biais potentiel tendent tous deux vers zéro quand la taille de l'échantillon devient grande (quand n +→∞). Exemple lim E ( X )  

n 

lim V ( X )  lim

n 

n 

2 n

=0

X est un estimateur convergent

15

Exemple d’erreur de mesure On pèse un poids d’un kilo (15 fois sur les 3 balances imprécises). On obtient les résultats suivants: Pesée 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Poids en gr Poids en gr Poids en gr affiché (B1) affiché (B2) affiché (B3) 1001.75 994.76 1011.84 999.44 991.92 1016.29 1002.38 999.24 1013.77 997.47 1000.05 1018.90 1001.63 988.48 1006.73 998.83 988.84 1006.71 997.88 1016.85 1003.47 1001.66 1005.09 1004.27 997.14 1002.21 1005.62 1004.13 1011.66 1011.27 997.54 1005.33 1015.26 1000.25 1005.30 1007.00 1002.48 997.28 1003.85 997.69 993.82 1003.75 999.73 999.12 1006.25

16

Comportement de l’erreur Pesée 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Poids en gr Poids en gr Poids en gr affiché affiché affiché (B1) (B2) (B3) 1001.75 994.76 1011.84 999.44 991.92 1016.29 1002.38 999.24 1013.77 997.47 1000.05 1018.90 1001.63 988.48 1006.73 998.83 988.84 1006.71 997.88 1016.85 1003.47 1001.66 1005.09 1004.27 997.14 1002.21 1005.62 1004.13 1011.66 1011.27 997.54 1005.33 1015.26 1000.25 1005.30 1007.00 1002.48 997.28 1003.85 997.69 993.82 1003.75 999.73 999.12 1006.25 Moyenne Variance

Erreur 1

Erreur 2

Erreur 3

1.75 -0.56 2.38 -2.53 1.63 -1.17 -2.12 1.66 -2.86 4.13 -2.46 0.25 2.48 -2.31 -0.27 0 4.97

-5.24 -8.08 -0.76 0.05 -11.52 -11.16 16.85 5.09 2.21 11.66 5.33 5.30 -2.72 -6.18 -0.88 0 64.58

11.84 16.29 13.77 18.90 6.73 6.71 3.47 4.27 5.62 11.27 15.26 7.00 3.85 3.75 6.25 9 26.20

17

Comportement de l’erreur 1. Contrairement à la balance 3, les balances 1 et 2 sont centrées. 2. La variance de l’erreur de mesure de la balance 1 est la plus faible. 3. Par analogie à la théorie d’estimation, la balance 1 serait un estimateur sans biais et à variance minimale.

4. Pour estimer le poids inconnu d’un objet, on se fiera plutôt au résultat donné par la balance 1.

18

Exemple d’erreur de mesure On cherche à trouver le poids inconnu d’un « cailloux ». On obtient les résultats suivants.

Pesée 1

Poids en gr Poids en gr Poids en gr affiché (B1) affiché (B2) affiché (B3) 223.75 218.16 22984

La valeur 223,75 représente une estimation ponctuelle du poids inconnu du cailloux obtenu par B1.

19

2. Estimation par intervalle de confiance • L’estimation ponctuelle d’un paramètre θ donne une valeur unique approximative de ce paramètre

• Elle n’apporte aucune information sur la précision des résultats en ne tenant pas compte des erreurs dues aux fluctuations d’échantillonnage. • Pour évaluer la confiance que l’on peut avoir en une estimation, il est nécessaire de lui associer un intervalle qui contient, avec une certaine probabilité, la vraie valeur du paramètre, c’est l’estimation par intervalle de confiance.

20

2. Estimation par intervalle de confiance • L’estimation par intervalle de confiance d’un paramètre θ consiste à associer à un échantillon, un intervalle aléatoire

• Cet intervalle est choisi de telle façon que la probabilité pour qu’il contienne la valeur inconnue du paramètre soit égale à un nombre fixé à l’avance :

P   I   1   1    : probabilité associée à l’intervalle d’encadrer la vraie valeur du paramètre, c’est le seuil de confiance.

  : niveau d’erreur

21

2. Estimation par intervalle de confiance • Dans le cas idéal, l’intervalle de confiance doit remplir deux propriétés:

1/ Il doit contenir le paramètre cible θ; 2/ Etre le plus étroit possible. • D’un pont de vue pratique l’intervalle de confiance identifie une plage de valeurs qui pour des échantillonnages répétitifs va contenir le contenir le paramètre cible θ.

22

2. Estimation par intervalle de confiance • Pour construire un intervalle de probabilité, deux questions se posent : – Quel est le seuil d’erreur α susceptible d’être valablement considéré comme négligeable ? – Pour une loi de probabilité et pour un seuil α, il existe une infinité d’intervalles. Comment choisir cet intervalle ?

23

2. Estimation par intervalle de confiance • Dans la pratique, on donne à a une valeur acceptable, de l’ordre de 10%, 5 % ou 1% puis, quand cela est possible, on augmente la taille de l’échantillon. • On peut construire des intervalle de confiance bilatéral à risques symétriques ou des intervalles de confiance unilatéraux.

24

2. Estimation par intervalle de confiance Exemple : A partir d’une réalisation (y=0,75) d’une variable aléatoire Y qui suit une loi normale d’espérance inconnue μ et variance 1.

Trouver : - Un intervalle de confiance bilatéral à 95% de μ. - Un intervalle de confiance unilatéral à droite à 95% de μ. - Un intervalle de confiance unilatéral à gauche à 95% de μ.

25

2. Estimation par intervalle de confiance 1/ On cherche un intervalle de confiance bilatéral à 95% de μ.

P  a    b   1    95% On sait que

Y   N (0,1) 1

 Y  P  u   u 1  2 2

   1    95% 

P  1,96  Y    1,96   95%

u : valeur lue à partir de 2

la table de la loi normale N(0,1)

P Y  1,96    Y  1,96   95% P  0, 75  1,96    0, 75  1,96   95% P  1, 21    2, 71  95% 26

2. Estimation par intervalle de confiance 1/ On cherche un intervalle de confiance unilatéral à droite à 95% de μ.

P    b   1    95%

On sait que

Y   N (0,1) 1

Y   P  u   1    95%  1  P Y    1, 65   95% P    Y  1, 65   95% P    0, 75  1, 65   95% P    2, 4   95% 27

2. Estimation par intervalle de confiance 1/ On cherche un intervalle de confiance unilatéral à gauche à 95% de μ.

P  a     1    95%

On sait que

Y   N (0,1) 1

Y    P  u    1    95% 1   P 1, 65  Y     95% P Y  1, 65     95% P  0, 75  1, 65     95% P  0,9     95% 28

Distribution d'échantillonnage de X

29

Estimation de l’espérance μ d'une loi N(μ,σ²) • Dans une population donnée, soit une variable aléatoire X de loi N(μ,σ²). On cherche à estimer le paramètre inconnu μ par intervalle de confiance.



Dans un échantillon aléatoire simple de taille n tiré de cette population, on prend pour estimateur de μ la moyenne X



Pour encadrer μ, il faut considérer deux cas possibles: - la variance de la population σ² est connue (ce qui n'est en général pas le cas) -

la variance de la population σ² est inconnue (ce qui est le cas le plus général)

30

Cas où variance σ² est connue (IC bilatéral) • Étant donné un niveau de confiance 1-α, on construit, pour la moyenne X de l’échantillon, un intervalle de probabilité :

  X  P  u   u   1   2   2  n la valeur u étant lue sur la table de la loi normale réduite. 2  P  X  u  n    X  u   n   1    2 2  L’intervalle de confiance bilatéral de μ :

 P  x  u   2

n    x  u  2

 n   1 

où x est la moyenne observée de l’échantillon.

31

Cas où σ² est connue (IC unilatéral à droite) • Étant donné un niveau de confiance 1-α, on construit, pour la moyenne X de l’échantillon, un intervalle de probabilité :

 X   P  u   1    n  la valeur u étant lue sur la table de la loi normale réduite. 2



P   X  u 



n  1

L’intervalle de confiance unilatéral à droite de μ :



P   x  u 



n  1 

où x est la moyenne observée de l’échantillon. 32

Cas où σ² est connue (IC unilatéral à gauche) • Étant donné un niveau de confiance 1-α, on construit, pour la moyenne X de l’échantillon, un intervalle de probabilité :

 X   P  u    1   n  la valeur u étant lue sur la table de la loi normale réduite. 2



P X  u 



n    1 

L’intervalle de confiance unilatéral à gauche de μ :



P x  u 



n    1 

où x est la moyenne observée de l’échantillon. 33

Cas où variance σ² est connue (récapitulatif) • Étant donné un niveau de confiance 1-α : L’intervalle de confiance bilatéral de μ :

    x  u   2

 n 

n , x  u  2

L’intervalle de confiance unilatéral à droite de μ :

  , x  u 

n 

L’intervalle de confiance unilatéral à gauche de μ :

   x  u 

n ,   34

Cas où variance σ² est connue (récapitulatif) • Étant donné un niveau de confiance 1-α : largeur de l’intervalle de confiance bilatéral de μ :

largeur  2u 

n

2

Pour réduire l’amplitude de l’intervalle de confiance, on augmente la taille de l’échantillon.

35

Cas où variance σ² est inconnue et n ≥ 30 On utilise l’estimateur sans biais Sˆ 2 de la variance inconnue σ². Étant donné un niveau de confiance 1-α : L’intervalle de confiance bilatéral de μ :

    x  u sˆ  2

n , x  u sˆ 2

 n 

L’intervalle de confiance unilatéral à droite de μ :

  , x  u sˆ

n 

L’intervalle de confiance unilatéral à gauche de μ :

   x  u sˆ

n ,   36

Cas où variance σ² est inconnue et n < 30 Lorsque la distribution de la population est normale, la distribution d’échantillonnage de X suit la loi de Student de degré de liberté (n-1) :

X   Std (n  1) Sˆ n

37

Cas où variance σ² est inconnue et n < 30 On utilise l’estimateur sans biais Sˆ 2 de la variance inconnue σ². Étant donné un niveau de confiance 1-α : L’intervalle de confiance bilatéral de μ :

    x  tn1 sˆ  2

n 1

n , x  t sˆ 2

 n 

L’intervalle de confiance unilatéral à droite de μ :

  , x  tn1 sˆ

n 

L’intervalle de confiance unilatéral à gauche de μ :

   x  tn1 sˆ tn 1 2

n ,  

valeur lue à partir de la table de la loi de Student (n-1)

38

Exemple • Afin d’étudier le salaire journalier, en euros, des ouvriers d’un secteur d’activité, on procède à un tirage aléatoire d’un échantillon de taille n = 16. On obtient les résultats suivants : 41 40 45 50 41 41 49 43 45 52 40 48 50 49 47 46 On suppose que la loi suivie par la variable aléatoire « salaire journalier » est normale d’espérance μ et d’écart-type σ inconnus. 1/ Calculer la moyenne, la variance et la variance corrigée de échantillon. 2/ Trouver un intervalle de confiance bilatéral à 95% de μ.

39

Exemple 1/Estimation de la moyenne arithmétique : 16

x

x i 1

i

16

 45, 43

• Estimation ponctuelle de la variance empirique (estimateur biaisé) : 16 s2 

  xi  x  i 1

16

2

 15,2460= (3,9046)2

• Estimation ponctuelle de la variance empirique corrigée (estimateur sans biais) : 16

sˆ2 

  xi  x  i 1

15

2

 16,262= (4,0326)2 40

Exemple 2/ Intervalle de confiance pour la moyenne, seuil de confiance 0,95 (intervalle bilatéral à risques symétriques). La variable aléatoire X   suit une loi de Student à (n−1) degrés de Sˆ n liberté. • Dans la suite des calculs nous tenons compte des résultats donnés par l’échantillon :

 n 1 X   n 1  P  t   t   0.95 Sˆ n 2   2   X  P  -2,131   2,131   0.95 Sˆ n   41

Exemple  P  X  Sˆ 

n 1

n t



n 1

n t

2

 P  x  sˆ 



   X  Sˆ

2

n t    x  sˆ n 1

n 1

n t

2



2

   0.95 

   0.95 







P 5, 43  4,0326 16 2,131    45, 43  4,0326 16 2,131  0.95

P  43,2895    47,5859   0.95

  43,2895 , 47,5859 42

Intervalle de confiance de la proportion (p) • Un chef d’entreprise veut connaitre la proportion p de satisfaction parmi les 20000 clients ayant acquis le nouveau produit de l’entreprise récemment lancé sur le marché. • Soit X la VA égale à 1 si un client est satisfait et à 0 sinon. On considère que cette variable suit une loi de Bernoulli B(1, p), où p est le paramètre à estimer (proportion). • Le chef de l’entreprise construit au hasard un échantillon de 100 clients. L'estimateur de p utilisé dans cet échantillon est la fréquence empirique fn des clients satisfaits.

43

Intervalle de confiance de la proportion (p) • Dans l'échantillon aléatoire simple de 100 clients, on trouve

1 100 1 fn  xi  (1  1  0   100 i 1 100

 0)  0.85

NB: xi est la ième réalisation de X dans l'échantillon, et n = 100 • La valeur 0.85 est-elle une bonne approximation de p, la proportion inconnue des clients satisfaits dans la population? • Pour répondre à cette question, Il faut en premier lieu trouver la loi de fn.

44

Intervalle de confiance de la proportion (p) X

45

Intervalle de confiance de la proportion (p)

46

Intervalle de confiance de la proportion (p) • Dans notre exemple, en remplaçant fn par 0.85 et n par 100, on trouve 0.78 ≤ p ≤ 0.92 au niveau de confiance 0.95. • Autrement dit, il y a 95% de chances que la proportion de clients satisfaits dans la population soit comprise entre 0.78 et 0.92. • On a 5% de chances de se tromper en donnant cette conclusion. • On remarque que la proportion trouvée dans l'échantillon (0.85) est bien comprise entre 0.78 et 0.92. On peut en conclure que cette valeur est une bonne estimation de p.

47

Intervalle de confiance de la proportion (p)

48

Intervalle de confiance de la variance (σ²) • Dans notre exemple, en remplaçant fn par 0.85 et n par 100, on trouve 0.78 ≤ p ≤ 0.92 au niveau de confiance 0.95. • Autrement dit, il y a 95% de chances que la proportion de clients satisfaits dans la population soit comprise entre 0.78 et 0.92. • On a 5% de chances de se tromper en donnant cette conclusion. • On remarque que la proportion trouvée dans l'échantillon (0.85) est bien comprise entre 0.78 et 0.92. On peut en conclure que cette valeur est une bonne estimation de p.

49

Cas 1: l'espérance μ est connue

50

Illustration • Le chef d’entreprise de l’exemple précédent veut maintenant estimer la variance du temps d’utilisation quotidien de son produit. • La VA continue représentant du temps d’utilisation (en h) est notée X, de loi N(μ, σ²) dans la population. Les paramètres μ et σ² sont inconnus. Le chef d’entreprise veut estimer σ² au moyen d'un IC. • L'espérance est inconnue, l'estimateur de σ² utilise donc la moyenne empirique X . Dans l'échantillon de 100 clients, le chef d’entreprise trouvent une moyenne de 0.6 h et un écart-type empirique de 0.3 h (ce qui donne une variance empirique de 0.09).

51

Application numérique • On se donne un niveau de confiance de 95%. A ce niveau de confiance et pour n-1 = 99 d.l., on trouve k1 = 128,42 et k2 = 73,37. • On applique alors la formule de l'IC:

• aux valeurs trouvées dans l'échantillon de 100 fulmars. Il vient:



"La variance du temps d’utilisation quotidien est comprise entre 0,07 et 0,12 avec une probabilité de 95%" 52

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF