De la loi de Bernoulli à la loi normale - IREM Aix

January 12, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download De la loi de Bernoulli à la loi normale - IREM Aix...

Description

De la loi de Bernoulli à la loi normale en suivant le programme de Statistique de Terminale IREM Marseille / Groupe "Statistique et Probabilités" Mars 2012

Loi de Bernoulli

On considère une variable aléatoire X à valeurs dans {0, 1}. C'est une variable de (loi de) Bernoulli de paramètre p ∈ [0, 1], notée B(p), avec : p = P(X = 1) et 1 − p = P(X = 0).

Propriétés : I I

E(X) = p, V(X) = p(1 − p), si X et Y sont deux variables de Bernoulli alors I

XY

I

X +Y

est de Bernoulli

,→

indique la présence des deux maladies,

indique le nombre de maladies.

Exemples

I I I

Présence d'une anomalie génétique chez un individu. Etre favorable à un candidat. Réussite d'une gree.

Remarques :

,→ C'est la variable de comptage la plus simple. Lorsque p = 0 ou p = 1 on tombe sur une variable constante (V(X) = 0) ,→ On peut aussi construire une Bernoulli à partir de n'importe

quelle variable aléatoire comme le montre l'exemple suivant

On s'intéresse à des durées de vie après rechute d'une maladie.

0.08 0.06 0.00

0.02

0.04

Probabilités

0.10

0.12

Histogramme des durées de vie

35

40

45

50

55

60

65

Mois

On peut associer une variable de Bernoulli B(p) comme : I le fait que la durée de vie dépasse 55 mois ,→ p = 0.05, I le fait d'avoir une durée de vie entre 45 et 50 mois ,→ p = 0.45.

Loi binomiale

Soient X1 , · · · , Xn des variables aléatoires i.i.d. (identiquement et indépendamment distribuées) de Bernoulli B(p). On pose S = X1 + · · · + Xn . S suit une loi binomiale B(n, p) dénie par P(S = s) =

n X k=0

pour s = 0, 1, · · · , n

n! px (1 − p)n−s , (n − s)!s!

Propriétés : I

Moyenne et variance : E(S) = np,

I

I

V(S) = np(1 − p).

Si S1 et S2 sont deux binomiales B(n1 , p) et B(n2 , p) indépendantes alors S1 + S2 est une binomiale B(n1 + n2 , p). ,→ faux s'il n'y a plus indépendance, ou si les probabilités p sont diérentes.

Exemples

I

I

I I

Quatre réacteurs identiques et indépendants peuvent tomber en panne au cours d'un vol chacun avec la même probabilité p (on suppose les pannes mutuellement indépendantes). On s'intéresse au nombre de réacteurs en panne ,→ B(4, p). Plus généralement, le nombre de réacteurs qui ont une durée de fonctionnement supérieure à 1000 heures ,→ B(4, p(1000)). Ou tout système en parallèle. Dans les familles de quatre enfants, combien de lles ?

Contre-exemple Deux maladies : la première contractée avec une probabilité p1 = 1/4, la deuxième contractée avec une probabilité p2|0 = 1/6 si on n'a pas la première et p2|1 = 1/2 si on a déjà la première. On observe sur un même individu le nombre S de maladies (0,1 ou 2). Alors P(S = 0) = (1 − p1 )(1 − p2|0 ) = 15/24, P(S = 1) = p1 (1 − p2|1 ) + (1 − p1 )p2|0 = 1/4, P(S = 2) = p1 p2|1 = 1/8,

ce n'est pas une binomiale, pourtant les deux maladies sont des Bernoulli de même paramètre 1/4.

Binomiale n=100, p=0.3

0.10 0.00

0.05

0.05

0.10

0.15

Probabilités

0.20

0.15

0.25

Binomiale n=10, p=0.3

0.00

Probabilités

Convergence vers une loi normale ?

0

2

4

On a S −→ ∞...

6

8

10

10

20

30

40

50

La loi normale

On approxime souvent la loi binomiale par une loi normale, qui pourtant est une loi à densité.

0.0

0.1

0.2

0.3

0.4

Densité de la loi normale centrée réduite

−4

−2

0

2

4

Illustration de la densité

0.10

0.00

0.02

0.02

0.04

0.04

0.06

0.06

0.08

0.08

0.10

Sur une règle de dix centimètres, chaque centimètre a une probabilité uniforme d'être choisi. Puis on coupe en dix : chaque millimètre, etc...

2

4

6

8

10

0

2

4

6

8

10

Binomiale n=100, p=0.3

0.10 0.00

0.05

0.05

0.10

0.15

Probabilités

0.20

0.15

0.25

Binomiale n=10, p=0.3

0.00

Probabilités

Distributions de S

0

2

4

6

8

10

10

20

30

40

Mais on va plutôt regarder S/n qui reste entre 0 et 1 (comme la règle qui restait entre 0 et 1 décimètre)

50

Binomiale/1000 (n=1000, p=0.3)

200 150 100 0

50

5

10

Probabilités (X10000)

15

250

Binomiale/100 (n=100, p=0.3)

0

Probabilités (X100)

Distributions de S/n

0.1

0.2

0.3

0.4

0.5

0.24

0.26

0.28

0.30

0.32

0.34

S/n reste entre 0 et 1 avec des probabilités de plus en plus petites.

0.36

Le Théorème de la Limite Centrale (TLC ou TCL) On approxime souvent la loi binomiale par une loi normale On peut généraliser ce résultat grâce au théorème suivant.

Théorème

Si X1 , · · · , Xn est une suite de variables aléatoires indépendantes de même loi (donc de même moyenne m et de même variance σ 2 supposée nie). Alors ¯ −m √ X n σ

L

→ N (0, 1)

¯ = (X1 + · · · + Xn )/n = S/n. où X

¯? Pourquoi X

En général, on ne dispose pas de la population totale mais seulement d'un échantillon i.i.d. X1 , · · · , Xn . C'est le cas lorsque l'on observe n individus, n réacteurs, n durées de vie... Ces variables ont une même espérance inconnue m. I

Dans le cas de Bernoulli c'est p.

,→ comment estimer p ?

A partir de l'échantillon on a une moyenne empirique S/n = (X1 + · · · + Xn )/n. ,→ S/n est une variable aléatoire.

Dans le cas de Bernoulli I

S est une binomiale.

I

E(S) = np et V(S) = np(1 − p)

I

E(S/n) = p et V(S/n) = p(1 − p)/n

,→ On s'aperçoit qu'en moyenne S/n donne la bonne valeur p ,→ La variance de S/n tend vers zéro (S/n tend vers sa moyenne).

Dans le cas général I

E(S/n) = E(X) = m

I

V(S/n) = V(X)/n = σ 2 /n

,→ En moyenne S/n donne la bonne valeur m ,→ La variance de S/n tend vers zéro (S/n tend vers sa moyenne).

Illustrations du TCL

0.00

0.05

0.10

0.15

0.20

0.25

Densité originale et loi normale associée

0

5

10

15

20

Illustrations du TCL

0.00

0.05

0.10

0.15

0.20

Densité ''moyennisée'' par 2 et loi normale associée

0

5

10

15

Illustrations du TCL

0.00

0.05

0.10

0.15

0.20

Densité ''moyennisée'' par 5 et loi normale associée

5

10

15

Illustrations du TCL

0.0

0.1

0.2

0.3

0.4

Densité ''moyennisée'' par 30 et loi normale associée

4

6

8

10

De la loi de Bernoulli à la loi normale

D'après le TCL on a la cvce en loi suivante : U=



S/n − p np p(1 − p)

→ N (0, 1),

ce qui signie que la fonction de répartition P(U ≤ u) converge vers la fonction de répartition d'une loi normale P(N (0, 1) ≤ u). D'où l'approximation pour "n grand" : U

≈ N (0, 1).

Propriétés de la loi normale

Si X ∼ N (m, σ 2 ) alors I

X − m ∼ N (0, σ 2 ),

I

X/σ ∼ N (m/σ, 1),

I

(X − m)/σ ∼ N (0, 1).

Si X ∼ N (m1 , σ12 ) et Y ∼ N (m2 , σ22 ) sont indépendantes alors I X + Y ∼ N (m1 + m2 , σ 2 + σ 2 ), 1 2 I X − Y ∼ N (m1 − m2 , σ 2 + σ 2 ). 1 2

Revenons à √

S/n − p np p(1 − p)

→ N (0, 1).

Pour "n grand" S/n ≈ N (p, p(1 − p)/n), S ≈ N (np, np(1 − p)).

Remarque : la qualité de l'approximation dépend de la valeur

(inconnue) de p. Plus p est proche de 0.5 et plus on s'approche rapidement de la loi normale. On impose généralement n > 30, np > 5 et np(1 − p) > 5, ce qui revient à vérier que S > 5 et S(1 − S/n) > 5.

Binomiale n=30, p=0.5

0.15

Probabilités

0.6

0.00

0.2

0.05

0.4

0.10

0.8

0.20

1.0

0.25

1.2

Binomiale n=30, p=0.1

0.0

Probabilités

Deux approximations diérentes pour une même valeur de n

0

2

4

6

8

10

12

5

10

15

20

25

Erreur d'approximation

On a une borne de type Bery-Esseen : |P(U ≤ u) − P(N (0, 1) ≤ u)| ≤



S/n − p

où U = n p

p(1 − p)

.

(1 − p)2 + p2 p . 2 np(1 − p)

Borne pour n = 10 en fonction de p

Borne pour n10

0.26 0.24 0.22 0.2 0.18 0.16 0.2

0.3

0.4

0.5 p

0.6

0.7

0.8

Borne pour n = 30 en fonction de p

Borne pour n30

0.15 0.14 0.13 0.12 0.11 0.1 0.09

0.2

0.3

0.4

0.5 p

0.6

0.7

0.8

Borne pour n = 100 en fonction de p

Borne pour n100

0.085 0.08 0.075 0.07 0.065 0.06 0.055 0.05 0.2

0.3

0.4

0.5 p

0.6

0.7

0.8

Intervalle de conance On observe X1 , · · · , Xn i.i.d. de loi B(p). On s'intéresse à la valeur de p ∈]0, 1[ inconnue. Par exemple pour chaque individu : 1 = satisfait, 0 = non satisfait. ,→ Quel est le pourcentage d'individus satisfaits dans la population ? I I

On peut estimer ponctuellement p par S/n. On peut aussi proposer un intervalle de conance lorsque "n est grand". C'est-à-dire a, b tels que P (a ≤ p ≤ b) = 0.95 par exemple.

Remarque : c'est a et b qui sont aléatoires (ils vont dépendre des X1 , · · · , Xn )

On utilise l'approximation précédente combinée à la convergence (en probabilité) de S/n vers p : √

S/n − p np → N (0, 1) (en loi), p(1 − p) S/n → p (en probabilit´e),

pour conclure à l'approximation pour "n grand" (Théorème de Slutsky) T =



S/n − p np S/n(1 − S/n)

≈ N (0, 1).

Prenons ensuite u fractile de la loi normale tel que (par ex.) : P(−u ≤ N (0, 1) ≤ u) = 0.95

On en déduit l'intervalle de conance de niveau 0.95 pour p (avec "n grand") √

S/n − p np ≤ u) = 0.95 S/n(1 − S/n) q q S S S S S S n (1 − n ) n (1 − n )  √ √ ≤ p ≤ + 1.96 = 0.95 P − 1.96 n n n n P(−u ≤

On en déduit l'intervalle de conance de niveau 0.95 pour p (avec "n grand") √

S/n − p np ≤ u) = 0.95 S/n(1 − S/n) q q S S S S S S n (1 − n ) n (1 − n )  √ √ ≤ p ≤ + 1.96 = 0.95 P − 1.96 n n n n P(−u ≤

| |− − − − − {z − − − − − −} | − − − − − {z − − − − − −} | |{z} | q q S S S S S n (1 − n ) n (1 − n ) √ √ −1.96 +1.96 n n n

En résumé : I S/n est l'estimation ponctuelle. q I I

S n (1



− Sn )

n

est (une estimation de) l'écart-type de S/n

1.96 est associée au niveau p S/n(1 − S/n) √ IC(p, 0.95) = [S/n ± 1.96 ] n

p S/n(1 − S/n) √ L'amplitude de l'intervalle vaut 2 u . n I Plus n est grand et plus cette amplitude va diminuer, I

Plus le niveau de conance est grand et plus l'amplitude va augmenter.

Remarque : lorsque S/n est entre 0.2 et 0.8, alors p S/n(1 − S/n) ∈ [0.4, 0.5] et on fait l'approximation suivante : 1 IC(p, 0.95) ≈ [S/n ± √ ] n

Test sur une valeur

On dispose de deux pièces : I Une pièce non truquée : probabilité p0 = 1/2 de tomber sur pile. I Une pièce truquée : probabilité p1 = 1/4 de tomber sur pile. On observe n lancers avec la même pièce et on veut décider si elle est truquée ou non.

On veut tester H0 : p = p0 V S H1 : p = p1

I I

Sous H0 , S provient d'une B(n, p0 ). Sous H1 , S provient d'une B(n, p1 ).

Distributions de S avec n = 10 lancers :

0

2

4

6

Sous H0

8

10

0

2

4

Sous H1

6

8

Distributions de S avec n = 100 lancers

30

40

50

Sous H0

60

70

10

20

30

Sous H1

40

On doit xer une règle de décision pour rejeter H0 avec un risque maîtrisé. Par exemple avec 10 observations on regarde la distribution théorique de S :

0

2

4

6

8

10

On doit xer une règle de décision pour rejeter H0 avec un risque maîtrisé. Par exemple avec 10 observations on regarde la distribution théorique de S :

0



2

4

6

Probabilité faible sous H0 (' 0.001)

8

10

On doit xer une règle de décision pour rejeter H0 avec un risque maîtrisé. Par exemple avec 10 observations on regarde la distribution théorique de S :

0



2

4

6

8

10

Probabilité faible sous H0 (' 0.001) ,→ Règle : si S = 0 on rejette H0

On doit xer une règle de décision pour rejeter H0 avec un risque maîtrisé. Par exemple avec 10 observations on regarde la distribution théorique de S :

0



2

4

6

8

10

Probabilité faible sous H0 (' 0.001) ,→ Règle : si S = 0 on rejette H0 ,→ Risque d'erreur en rejetant H0 ' 0.001.

On peut aller plus loin (toujours avec 10 lancers)

0

2

4

6

8

10

On peut aller plus loin (toujours avec 10 lancers)

0

2

| {z }

4

6

Probabilités assez faible sous H0 P(S = 0, 1, 2) ' 0.055

8

10

On peut aller plus loin (toujours avec 10 lancers)

0

2

4

6

8

| {z }

Probabilités assez faible sous H0 P(S = 0, 1, 2) ' 0.055

On rejette H0 quand S vaut 0, 1 ou 2.

10

Deux types d'erreurs : I En réalité H0 est vraie (pièce non truquée) ,→ erreur si je rejette H0 ,→ c'est le risque d'observer 0, 1 ou 2 alors que la pièce n'est pas truquée (p = 1/2). On le maîtrise : cette probabilité vaut environ 0.055. I En réalité H1 est vraie (pièce truquée) ,→ erreur si j'accepte H0 ,→ c'est le risque d'observer S = 3, 4, · · · , 10 alors que la pièce est truquée (p = 1/4).

On va calculer ce deuxième risque.

Calcul de la probabilité d'erreur en acceptant H0 (alors que la pièce est truquée)

0

2

4

6

8

Calcul de la probabilité d'erreur en acceptant H0 (alors que la pièce est truquée)

0

2

4

6

| {z Sous H1 , P(S = 3, 4, · · · , 10) ' 0.71

8

}

Donc si la pièce est truquée on peut se tromper avec une forte probabilité (dans 71% des cas).

On peut calculer l'erreur globale de se tromper (quelque soit la décision). On suppose (au début de l'expérience) que l'on choisit au hasard l'une des deux pièces. P(erreur) = P(erreur ∩ H0 ) + P(erreur ∩ H1 ) = P(erreur|H0 ) ∗ P(H0 ) + P(erreur|H1 ) ∗ P(H1 ) = 0.055 ∗ 1/2 + 0.71 ∗ 1/2 = 0.38

Avec 10 lancers, notre règle de décision nous permet donc de distinguer les deux pièces sans erreurs dans 62% des cas.

Cas intéressant : on lance une seule fois la pièce (n = 1). Règle de décision : I I

On observe pile ,→ on décide H0 (non truquée). On observe face ,→ on décide H1 (truquée).

Les erreurs possibles :

* Erreur si la pièce n'est pas truquée : P (f ace|H0 ) = 1/2 * Erreur si la pièce est truquée : P (pile|H1 ) = 1/4 * Erreur globale : P (pile ∩ H1 ∪ f ace ∩ H0 ) = (1/4 ∗ 1/2 + 1/2 ∗ 1/2) = 3/8

Si on propose une autre règle : Règle de décision 2 : I I

On observe pile ,→ on décide H0 (non truquée). On observe face ,→ on décide H1 (truquée).

Les erreurs possibles :

* Erreur si la pièce est truquée : P (f ace|H1 ) = 3/4 * Erreur si la pièce n'est pas truquée : P (pile|H0 ) = 1/2 * Erreur globale : P (pile ∩ H0 ∪ f ace ∩ H1 ) = 5/8 Remarque : dans ce cas il vaut mieux décider au hasard (une

chance sur deux de se tromper).

Approximation par une loi normale

Et avec n = 50 lancers, si nous faisons l'approximation de la binomiale par une loi normale alors :

0.10 0.05 0.00

Density

0.15

0.20

Avec 50 observations

5

10

15

20

25

30

35

0.10 0.05 0.00

Density

0.15

0.20

Avec 50 observations

5

10

{z Sous H1 |

15

20

} |

25

30

Sous H0 {z

35

}

Démonstration du TLC Pour simplier supposons que les variables de la suite X1 , · · · , Xn sont centrées (m = E(X) = 0) et réduites (σ 2 = V(X) = 1) (quitte à retrancher m et à diviser par σ ). On sait que la fonction caractéristique de la loi normale centrée réduite N (0, 1) est  ϕZ (t) = E exp(itZ) = exp(−t2 /2),

où Z ∼ N (0, 1). Si la fonction caractéristique de S/n tend (quand n → ∞) vers exp(−t2 /2) alors la loi de S/n tend vers la loi normale centrée réduite (Théorème de Lévy).

On va utiliser trois propriétés importantes de la fonction caractéristique : t  ϕX √ = ϕ √X (t), n n

et si X1 et X2 sont indépendantes alors ϕX1 +X2 (t) = ϕX1 (t)ϕX2 (t),

et donc si X1 et X2 ont même fonction caractéristique (i.e. même loi) : ϕX1 +X2 (t) = ϕX (t)2

Et une dernière propriété : si la variance de X existe alors ϕ0X (0) = iE(X) ϕ00X (0) = −E(X 2 ).

Posons (après avoir centré et réduit les Xi ) U=

√ S/n − m √ n = S/ n. σ

Les Xi étant indépendantes et de même fonction caractéristique on a ϕU (t) = ϕ √S (t) n

t  = ϕS √ n t  = ϕX1 +···+Xn √ n t  t  = ϕX1 √ · · · ϕXn √ n n t n = ϕX √ n

On fait alors un d.l. à l'ordre 2 : t n ϕX √ n

n t t2 ϕX (0) + i √ ϕ0X (0) + (i2 ) ϕ00X (0) + o(1/n) 2n n 2 n t = 1− + o(1/n) 2n −→ exp(−t2 /2) (quand n → ∞) =

Test sur deux valeurs On observe deux échantillons de Bernoulli indépendantes : X1 , · · · , Xn et Y1 , · · · , Yk . On teste : H0 : pX = pY

V S H1 : pX 6= pY

On utilise l'approximation par la loi normale : SX /n ≈ N (pX , pX (1 − pX )/n) SY /k ≈ N (pY , pY (1 − pY )/k).

L'indépendance nous permet d'écrire SX /n − SY /k ≈ N (pX − pY , V )

avec V =

SX /n(1 − SX /n) SY /k(1 − SY /k) + . n k

Donc, si H0 est vraie on s'attend à avoir une valeur issue de la loi normale centrée réduite de T T

=

SX /n − SY /k √ , V

on décide alors de rejeter ou non H0 .

Généralisation au cas d'une moyenne

Le TCL s'applique pour toute suite de variables i.i.d. de moyenne m ayant une variance σ 2 nie. On a U=

¯ −m √ X n √ σ

→ N (0, 1),

ce qui donne l'approximation pour n grand : ¯ ≈ N (m, σ 2 /n). X

Intervalle de conance

On observe X1 , · · · , Xn i.i.d. de moyenne m et de variance σ 2 inconnues. Par exemple des durèes de vie. On utilise l'approximation précédente combinéeP à la convergence 2 ¯ 2 /n : (en probabilité) de la variance empirique S = (Xi − X) U=

¯ −m √ X → N (0, 1) (en loi), n σ S → σ (en probabilit´e),

pour conclure T =

¯ −m √ X n S

≈ N (0, 1).

Prenons ensuite u fractile de la loi normale tel que : P(−u ≤ T ≤ u) ≈ 0.95,

on en déduit l'intervalle de conance de niveau 0.95 asymptotique pour m ¯ ± 1.96 √S ] IC(p, 0.95) = [X n

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF