Statistiques inférentielles

January 13, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Statistiques inférentielles...

Description

ENSEIGNEMENT DE PROMOTION SOCIALE

—————————————————————— Cours de

STATISTIQUES INFERENTIELLES - Distributions théoriques ——————————————————————

- version provisoire -

H. Schyns Novembre 2011

Distributions théoriques

Sommaire

Sommaire 1.

INTRODUCTION 1.1. Position du problème 1.2. Variable aléatoire et distribution théorique 1.3. Prérequis

2.

LA LOI BINOMIALE 2.1. Approche intuitive 2.1.1. 2.1.2. 2.1.3.

Schéma de Bernoulli Graphe de distribution des probabilités Paramètres caractéristiques

2.2. Généralisation 2.2.1. 2.2.2. 2.2.3.

Terme générique Graphes Paramètres caractéristiques

2.3. Applications 2.3.1. 2.3.2. 2.3.3.

Exemple 1 Exemple 2 Exemple 3

2.4. Interprétation erronée de la théorie 2.5. La planche de Galton

3.

DU DISCRET AU CONTINU 3.1. Position du problème 3.2. Effet du nombre d'observations 3.3. Effet du nombre de classes 3.4. Densité de fréquence relative 3.5. Densité de probabilité

4.

LA LOI NORMALE 4.1. Un peu d'Histoire 4.2. Graphes 4.3. Convergence vers la loi normale 4.4. Quelques propriétés 4.4.1. 4.4.2.

Translation, dilatation Composition

4.5. Loi normale réduite 4.6. Lecture de la table 4.6.1. 4.6.2. H. Schyns

Premier cas Deuxième cas S.1

Distributions théoriques

4.6.3. 4.6.4. 4.6.5.

Sommaire

Troisième cas Quatrième cas Quelques valeurs typiques

4.7. Applications 4.7.1. 4.7.2. 4.7.3.

Exemple 1 Exemple 2 Exemple 3

4.8. Correction de continuité

5.

LA LOI UNIFORME 5.1. Distribution Uniforme 5.1.1. 5.1.2.

6.

Variable aléatoire discrète Variable aléatoire continue

LA LOI EXPONENTIELLE 6.1.1.

Variable aléatoire discrète

7.

LA LOI DE POISSON

8.

ANNEXES 8.1. Table de fonction de répartition de la loi normale 8.2. Représentation graphique 8.3. Approximations de la loi normale 8.3.1. 8.3.2.

Approximation par Taylor Approximation de Hastings

8.4. Le triangle de Pascal 8.5. Alphabet grec 8.6. Démonstrations 8.6.1.

9.

Loi binomiale

EXERCICES 9.1. Exercice 1

10. SOURCES

H. Schyns

S.2

Distributions théoriques

1.

1 - Introduction

Introduction 1.1. Position du problème Dans le cours de statistique descriptive, nous avons appris comment rassembler et analyser des données de nature qualitative ou quantitative. En particulier, nous avons vu comment présenter les données observées sous une forme qui facilite la prise de connaissance : -

tableaux (tableaux de fréquence, …); diagrammes et graphiques (histogrammes, …); paramètres et valeurs typiques (moyenne, écart-type, …).

L'objectif final de ces outils étant d'une part, de se faire une idée des caractéristiques d'une population à partir des observations faites sur un échantillon et, d'autre part, de mettre en évidence des variations de ces caractéristiques (fig. 1.1). Dans le cours de probabilité, la démarche est exactement l'inverse : nous avons toute l'information nécessaire sur la population. Cette population peut être une urne remplie de billes, un jeu de cartes ou le temps pendant lequel un feu de signalisation est vert. Nous disposons de tous ces paramètres caractéristiques. Effectuer un tirage au hasard dans cette population revient à en extraire un ou plusieurs échantillons. La question est maintenant de savoir quels sont les échantillons possibles, quelle pourrait être leur composition, quelles sont leurs caractéristiques probables, comment ces caractéristiques sont-elles susceptibles de varier d'un échantillon à l'autre. Les statistiques : Je plonge ma main dans un seau de billes et j'en retire une poignée. J'ai l'information sur ce qui est dans ma main (mon échantillon). Qu'y a-t-il dans le seau ? Les probabilités : Je plonge ma main dans un seau de billes et j'en retire une poignée J'ai l'information sur ce qui est dans le seau (la population). Qu'y a-t-il dans ma main ? fig. 1.1 Différence entre statistiques et probabilités (source : Saunders, Statistics)

1.2. Variable aléatoire et distribution théorique Ceci nous ramène à la notion de variable aléatoire que nous avions introduite dans le cours de probabilités. H. Schyns

1.1

Distributions théoriques

1 - Introduction

On appelle variable aléatoire n’importe quelle fonction qui fait intervenir une expérience aléatoire telle que le tirage d'une ou de plusieurs billes dans un seau… ou tout autre scénario, mécanisme, épreuve, comptage, mesure, etc dont le résultat n’est pas connu a priori. Nous allons voir que : - si la population (le contenu du seau, les probabilités élémentaires) est connue et - si la règle de tirage est connue (tirer un certain nombre de billes) alors, nous pouvons définir les probabilités associées à chacune des valeurs possibles de la variable aléatoire (p.ex.: nombre de billes de la même couleur). Un exemple typique est le nombre de fois que l'on peut obtenir "pile" au terme de cinq lancers d'une pièce de monnaie. Il est clair que ce nombre peut varier entre zéro et cinq. A chacune de ces valeurs, nous pouvons associer une probabilité. En faisant cette association, nous définissons une loi de distribution théorique. Il existe quelques dizaines de lois de distribution théoriques. Dans ce document, nous examinerons les principales : la loi binomiale, la loi normale, la loi uniforme et quelques autres. Statistiques

Statistiques inférentielles

Probabilités

Histogrammes

ð Correspondance ï

Lois de distribution

fig. 1.2 Rôle des statistiques inférentielles

Ceci nous amène au cœur du problème : -

d'un côté, les statistiques nous fournissent des histogrammes, de l'autre, les probabilités nous fournissent un ensemble de lois de distribution théoriques.

L'un des rôles des statistiques inférentielles sera de rechercher ou de vérifier la correspondance entre ces deux faces du problème (fig. 1.2). C'est un rôle important en sciences car identifier une distribution théorique, établir un modèle théorique, permet souvent de faire la lumière sur le mécanisme qui sous-tend un phénomène physique.

1.3. Prérequis Avant d'aborder ce chapitre, nous conseillons au lecteur de bien maîtriser les chapitres intitulés : H. Schyns

Eléments d'algèbre en mathématiques Statistique descriptive en statistiques Introduction aux probabilités en statistiques inférentielles 1.2

Distributions théoriques

2.

2 - La loi Binomiale

La loi Binomiale 2.1. Approche intuitive 2.1.1. Schéma de Bernoulli Considérons un scénario dans lequel un joueur lance une pièce de monnaie. Le joueur gagne s'il obtient pile. D'un point de vue probabiliste, ce scénario est une expérience qui est soumise au hasard (expérience aléatoire) et qui aboutit sur deux événements mutuellement exclusifs : pile ou face. Dans l'esprit du joueur, obtenir pile est considéré comme un succès et face, un échec (1). Appelons : -

p q

la probabilité d'un succès, la probabilité d'un échec.

Comme les événements sont mutuellement exclusifs p+q=1

ou

q = p-1

Une telle expérience est appelée épreuve de Bernoulli (2) Le joueur décide de lancer plusieurs fois [ n fois ] la pièce et de compter le nombre [ x ] de succès obtenus à la fin de tous ses lancers. A priori, [ x ] peut prendre toutes les valeurs comprises entre 0 et [ n ]. Par exemple, sur cinq lancers, le joueur peut aussi bien ne jamais obtenir pile que l'obtenir une, deux… ou cinq fois. Dans le scénario évoqué ici : -

-

-

chacun des [ n ] lancers est indépendant des autres. Le résultat des lancers précédents n'a aucune influence sur le résultat des lancers présents ou futurs. En particulier, ils n'incitent pas le joueur à continuer ou à s'arrêter; les résultats sont équiprobables. Les faces ont toutes la même probabilité d'apparaître. p = q = 1/2 le nombre de succès [ x ] est une variable aléatoire Comme il s'agit d'un comptage, la variable aléatoire ne peut prendre que des valeurs entières, c'est une variable aléatoire discrète.

1 Cette notion de succès et d'échec varie bien entendu en fonction de l'expérience et de l'attente du ou des joueurs 2 Célèbre famille de mathématiciens et physiciens suisses issue de Nicolas Bernoulli (1623-1708). Il engendra Jacques (1654-1705), à qui nous devons cette théorie des probabilités, Nicolas (1662-1716), et Jean (1667-1748) qui apporta d'importantes contributions au calcul infinitésimal et au calcul différentiel et fut le mentor de Leonhard Euler (source : Wikipédia).

H. Schyns

2.1

Distributions théoriques

2 - La loi Binomiale

Une telle succession d'expériences est appelée schéma de Bernoulli. Elle peut être facilement représentée par un arbre de probabilité (fig. 2.1). Après un lancer, le schéma comprend : -

1 branche qui conduit à un succès (pile), 1 branche qui conduit à zéro succès (face)

Après deux lancers, le schéma comprend : -

1 branche qui conduit à deux succès (pile, pile), 2 branches qui conduisent à un seul succès (pile, face) ou (face, pile), 1 branche qui conduit à zéro succès (face, face).

fig. 2.1 Arbre de probabilité d'un schéma de Bernoulli (1)

Après trois lancers, nous obtenons le tableau suivant : Résultats possibles

Nbre succès xi

Branches Probabilité favorables P(xi)

1

2

3

0P/3F

0

1P/2F

2

xi·P(xi)

ei

ei ·P(xi)

4

5

6

7

1

0.125

0.000

-1.500

0.2813

1

3

0.375

0.375

-0.500

0.0938

2P/1F

2

3

0.375

0.750

+0.500

0.0938

3P/0F

3

1

0.125

0.375

+1.500

0.2813

Total

-

8

1.000

1.500

0.000

0.7500

Racine

0.8660 tab. 2.1 Tableau des probabilités

1 Si on donne à P la valeur 0 et à F la valeur 1, on obtient la suite des 8 nombres binaires de 000 à 111

H. Schyns

2.2

Distributions théoriques

2 - La loi Binomiale

Ce tableau ressemble furieusement à un tableau de fréquences mais ce n'en est pas un ! En effet, les chiffres reportés dans les colonnes [ 3 ] ne sont pas des fréquences observées mais bien un décompte de branches (ou cas) favorables tandis que ceux de la colonne [ 4 ] ne sont pas des fréquences relatives mais bien des probabilités (obtenues en multipliant les probabilités sur chacun des trajets de l'arbre) (1).

2.1.2. Graphe de distribution des probabilités Nous pouvons néanmoins tracer un graphique qui ressemble à un histogramme en reportant en abscisse le nombre de succès [ x ] et en ordonnée la probabilité correspondante [ P(x) ] (2). Un tel diagramme est appelé graphe de distribution des probabilités ou graphe de densité des probabilités.(3)

fig. 2.2 Distribution des probabilités

2.1.3. Paramètres caractéristiques En statistique descriptive, lorsque nous disposions d'un tableau de fréquences 2 relatives, nous pouvions calculer une moyenne [ xmoy ] et une variance [ s ] ou un écart-type [ s ] : x moy =

s

2

å ( N

N

N

å

1 n x N i =1 i i

)

1 = n i x i - x moy 2 N i =1

ou

x moy = å f i x i

[Eq 2.1]

i=1

ou

s

2

=

å f i (x i - x moy N

)

2

[Eq 2.2]

i =1

1 Dans le cas présent, succès et échec sont équiprobables si bien que le probabilité peut aussi être obtenue en divisant le nombre de branches favorables par le nombre total de branches. 2 Comme [ x ] est une variable quantitative discrète (discontinue), nous devons tracer un diagramme en batonnets. 3 On préfère garder le terme "densité des probabilités" pour le cas des variables aléatoires continues.

H. Schyns

2.3

Distributions théoriques

2 - La loi Binomiale

ou [ fi ] est la fréquence relative des valeurs observées [ xi ]. En calcul des probabilités, nous pouvons faire de même à partir des données du tableau (tab. 2.1) dans lequel les probabilités ont pris la place des fréquences relatives. Mais comme les probabilités traitent d'événements hypothétiques et non d'observations effectives, on remplace la notion de moyenne par celle d'espérance mathématique notée E(x). E(x ) =

N

åP( x i ) × x i

[Eq 2.3]

i =1

Dans le cas de notre exemple, au terme de trois lancers de la pièce de monnaie, le joueur à une espérance mathématique de E(x) = 1,5 succès (1). A cette espérance mathématique est associée une dispersion caractérisée par -

une variance s2 = 0,75 succès2

-

un écart-type s = 0.866 succès

2.2. Généralisation 2.2.1. Terme générique Reprenons le problème en généralisant les paramètres.

1 Ce chiffre peut sembler bizarre mais, à la réflexion, ce n'est pas plus bizarre que quand on dit qu'en moyenne chaque femme donne naissance à 1,9 enfants.

H. Schyns

2.4

Distributions théoriques

2 - La loi Binomiale

fig. 2.3 Arbre de probabilité généralisé

Cette fois considérons que les probabilités de succès et d'échec [ p ] et [ q ] ne sont pas nécessairement égales. Ceci ne nous empêche pas de construire un arbre de probabilités (fig. 2.3) : Un tel arbre peut correspondre aux situations suivantes : -

nous jouons "Rouge" à la roulette française p = 18/37 et q = 19/37.

-

nous lançons un dé avec l'espoir de faire un six p = 1/6 et q = 5/6

Dans chaque cas la question qui se pose est toujours de savoir combien de succès nous pouvons enregistrer au bout de un, deux, trois ou quatre coups ou tirages. Tous les cas possibles après un nombre donné de coups sont sur une même verticale. Dès lors, la somme des probabilités situées sur une même verticale doit toujours être égale à un. : -

après le premier coup nous avons une branche avec 1 succès, une branche avec 0 succès et les probabilités correspondantes : p + q = 1 (1) [Eq 2.4]

-

après le deuxième coup nous avons comme précédemment une branche avec 2 succès, deux branches avec 1 succès et une branche avec 0 succès : p 2 + 2 pq + q 2 = 1 (p + q) 2 = 1

[Eq 2.5]

1 Vrai, par définition de [ p ] et [ q ]

H. Schyns

2.5

Distributions théoriques

-

2 - La loi Binomiale

après le troisième coup nous avons une branche avec 3 succès, trois branches avec 2 succès, trois branches avec 1 succès et une branche avec 0 succès : p

3

+ 3 p 2 q + 3 pq 2 + q 3 = 1

(p + q) -

3

=1

[Eq 2.6]

après le quatrième coup, le décompte donne : p

4

+ 4 p 3 q + 6 p 2 q 2 + 4 pq 3 + q 4 = 1

(p + q)

4

=1

[Eq 2.7]

Le lecteur perspicace aura immédiatement remarqué que chacune des sommes rappelle les formules des produits remarquables ! Elles correspondent au développement de l'expression connue sous le nom de binôme de Newton :

(p + q ) n

[Eq 2.8]

Or, nous savons par le cours d'algèbre que la formule générale du développement du binôme de Newton est (1) : ( p + q ) n = C n0 p n q 0 + C n1 p n -1q 1 + ... + C nk p n - k q k + ... + C nn p 0 q n =

n

å C nk p n -k q k

[Eq 2.9]

k =0

où nous voyons réapparaître l'expression rencontrée dans le calcul des combinaisons :

C nk =

n! k ! × ( n + k )!

[Eq 2.10]

Nous en déduisons que, dans un schéma de Bernoulli, la probabilité -

d'obtenir [ x ] succès, au terme de [ n ] étapes ou tirages, alors que la probabilité de succès élémentaire vaut [ p ]

est donnée par le terme générique du développement du binôme de Newton : P ( x , n , p ) = C nx p x q n - x

[Eq 2.11]

2.2.2. Graphes Dans les tableurs Excel et OpenOffice, -

la combinaison est donnée par la fonction

C nx

ð

COMBIN(n,

x)

1 Bon d'accord, si vous avez vu cette démonstration en algèbre, ça remonte sans doute à quelques années. Faites-moi confiance sur ce point.

H. Schyns

2.6

Distributions théoriques

-

2 - La loi Binomiale

la probabilité est donnée par la fonction P(x,n,p)

ð

LOI.BINOMIALE(x,

n, p, cumul)

cumul est un paramètre logique (0 ou 1) dont la valeur indique s'il faut utiliser la loi cumulée (1) ou non (0). Une fois la probabilité élémentaire [ p ] et le nombre de tirage [ n ] fixés, nous pouvons facilement calculer les probabilités associées aux différentes valeurs possibles de la variable aléatoire [ x ] et tracer les graphes de distribution (ou de densité) correspondants. Si les probabilités de succès et d'échec sont identiques (1), comme dans le cas de la fig. 2.4, le graphe présente un axe de symétrie vertical qui correspond à la moitié du nombre de tirages. Lorsque le nombre de tirages augmente, la distribution des bâtonnets s'aplatit, s'élargit et prend l'allure d'une courbe en cloche. Attention : pour faciliter la lecture, nous avons représenté la courbe qui enveloppe les bâtonnets mais cette courbe n'existe pas puisque la variable aléatoire ne peut prendre que des valeurs entières.

fig. 2.4 Loi de distribution binomiale symétrique

Le graphe des probabilités cumulées est appelé fonction de répartition (fig. 2.5). Puisque la variable aléatoire est une variable discrète, la fonction de répartition est un diagramme en escalier d'aspect sigmoïdal (courbe en S).

1 Ce qui impose évidemment p=q=0.50

H. Schyns

2.7

Distributions théoriques

2 - La loi Binomiale

fig. 2.5 Fonction de répartition binomiale (cumul des probabilités)

Si les probabilités de succès et d'échec sont différentes, comme dans le cas de la fig. 2.6, le graphe n'est plus symétrique. Le sommet est décalé vers 0 ou vers [ n ] selon que [ p ] est respectivement inférieur ou supérieur à 0.50.

fig. 2.6 Loi de distribution binomiale asymétrique

Cette asymétrie s'estompe toutefois au fur et à mesure que le nombre de tirages augmente. La loi de distribution reprend alors l'allure d'une courbe en cloche (fig. 2.7).

H. Schyns

2.8

Distributions théoriques

2 - La loi Binomiale

fig. 2.7 Loi de distribution binomiale devient symétrique si le nombre de tirages est grand

2.2.3. Paramètres caractéristiques L'espérance mathématique [ E(x) ] (1) d'une variable aléatoire [ x ] soumise à une loi de probabilité [ P(x) ] est, par définition, égale à la somme des produits du nombre de succès par la probabilité correspondante : E( x ) =

å x × P( x )

[Eq 2.12]

x

Dans le cas où [ x ] suit une distribution binomiale dans l'intervalle [ 0, n ], l'équation devient : n

å x × C nx p x q n - x

E( x ) =

[Eq 2.13]

x =0

Après simplification de cette expression, nous obtenons (2) E(x ) = n×p

[Eq 2.14]

En toute généralité, la variance [ V(x) ], elle, est donnée par : V( x) =

å ( x - E ( x )) 2 × P ( x )

[Eq 2.15]

x

ou V( x) =

å x 2 × P ( x ) -E ( x ) 2

[Eq 2.16]

x

Après simplification, l'expression devient 1 Rappelons que l'espérance mathématique peut être vu comme le "nombre moyen" de succès attendus. 2 La démonstration mathématique est présentée dans l'annexe 8.6.1

H. Schyns

2.9

Distributions théoriques

2 - La loi Binomiale

V ( x ) = n ×p × q s( x ) =

[Eq 2.17]

n×p× q

où [ s(x) ] est l'écart-type de la distribution (racine carrée de la variance) Notons au passage que V (x ) E( x )

=q

p = 1- q

n=

E( x ) p

[Eq 2.18]

ce qui permet d'estimer rapidement les caractéristiques d'une distribution binomiale lorsqu'on connaît ses paramètres de position et de dispersion. Nous pouvons vérifier que ces expressions s'appliquent bien aux résultats du tableau (tab. 2.1) : -

n = 3, p = 0.5, q = 0.5 E(x) = n·p = 3·0.5 = 1.5 V(x) = n·p·q = 3·0.5·0.5 = 0.75 s(x) = Ö0.75 = 0.866

2.3. Applications 2.3.1. Exemple 1 Un joueur lance simultanément (ou l'une après l'autre) cinq pièces de monnaie. Quelle est la probabilité qu'il obtienne trois fois pile (succès) et deux fois face (échec) ? -

x = nombre de succès (pile) = 3 n = nombre de tirages = 5 p = q = 1/2 ou 0.5 P ( 3 , 5 , 0.5 ) = C 53 p 3 q 2 =

5! ( 0.5 ) 3 ( 0.5 ) 2 3 ! ×2 !

= 10 × ( 0.5 ) 5 = 0.3125

2.3.2. Exemple 2 Dans une usine de confiture, on a observé que 5% des pots présentent un défaut d'étanchéité qui provoque une contamination rapide du contenu. Les pots sont groupés par cartons de 12 avant d'être envoyés aux clients. Quelle est la probabilité qu'un client reçoive : -

un carton avec 3 pots défectueux ? un carton sans aucun pot défectueux ? un carton avec au moins un pot défectueux ?

Quelle est l'espérance mathématique du nombre de pots défectueux par carton ? H. Schyns

2.10

Distributions théoriques

2 - La loi Binomiale

Premier cas -

x = nombre de succès (pot défectueux) = 3 n = nombre de coups = nombre de pots prélevés pour former un carton = 12 p = 5/100 = 0.05; q = 0.95 3 3 9 P ( 3 ,12 , 0.05 ) = C 12 p q

=

12 ! ( 0.05 ) 3 ( 0.95 ) 9 3 ! ×9 !

= 220 × 0.000125 × 0.63025 = 0.0173 Deuxième cas -

x = nombre de succès (pot défectueux) = 0 0 0 12 P ( 0 ,12 , 0.05 ) = C 12 p q

= 1( 0.05 ) 0 ( 0.95 ) 12 = 0.5404 Troisième cas "Recevoir au moins un pot défectueux" est l'événement contraire à "ne recevoir aucun pot défectueux". Dès lors P(au moins 1, 12) = 1 - P(0, 12, 0.05) = 1 - 0.5404 = 0.4596 » 46% Presque un carton sur deux contiendra au moins un pot défectueux, ce qui est inadmissible (fig. 2.8) !

fig. 2.8 Loi de distribution des pots défectueux

Espérance mathématique E(x) = n·p = 12·0.05 = 0.60 pot / carton. Ecart-type H. Schyns

2.11

Distributions théoriques

s(x) =

n ×p × q =

2 - La loi Binomiale

12 × 0.05 × 0.95 = 0.75 pot / carton.

2.3.3. Exemple 3 Un automobiliste quitte son domicile pour se rendre au travail. Il emprunte un parcours sur lequel il rencontre 8 carrefours équipés de feux tricolores. On suppose que les feux ne sont pas synchronisés. Sachant que les feux sont au vert pendant 27 secondes, à l'orange pendant 3 secondes et au rouge pendant 30 secondes, -

quelle est la probabilité qu'il ne rencontre que des feux verts ? combien de feux verts devrait-il rencontrer "en moyenne" ?

Chaque arrivée à un carrefour correspond à un tirage. Pour estimer les probabilités on peut imaginer que chaque feu est remplacé par une urne qui contient 60 boules dont 27 vertes, 3 oranges et 30 rouges. -

n = nombre de tirages = 8 x = nombre de succès (feu vert) = 8 p = 27/60 = 9/20 P ( 8 , 8 , 9 / 20 ) = C 88 p 8 q 0 8

æ 9 ö = 1× ç ÷ ×1 è 20 ø = 0.0017 Espérance mathématique E(x) = n·p = 8·9/20 = 3.6 feux verts / trajet.

2.4. Interprétation erronée de la théorie Arrivée à ce stade, il arrive souvent que la personne qui aborde la théorie des probabilités pour la première fois en tire des conclusions erronées (1). Reprenons l'exemple du lancement de trois pièces de monnaie. Nous savons que quatre cas peuvent se présenter en fonction du nombre de fois que pile apparaît. Certains seraient tentés de croire que si nous lançons 8 fois les trois pièces de monnaie, nous obtiendrons forcément et exactement : -

1 fois 0P / 3F 3 fois 1P / 2F 3 fois 2P / 1F 1 fois 3P / 0F

1 Même Jean le Rond D'Alembert, philosphe français (1717-1783) à qui on doit "L'encyclopédie" ainsi que d'importantes avancées en mathématique, en astonomie, en physique et en musique, y a succombé !

H. Schyns

2.12

Distributions théoriques

2 - La loi Binomiale

Dès lors, au fur et à mesure des tirages, les pièces lancées ont de moins de choix dans leur manière de retomber car elles doivent se conformer à la théorie. Au fil des tirages, le hasard se voit progressivement remplacé par le déterminisme. Le même raisonnement appliqué à l'exemple des pots de confiture, nous conduit à penser que si nous prenons 5000 cartons de 12 pots de confiture, nous aurons forcément et exactement : -

2702 cartons sans aucun pot défectueux, 1706 cartons avec un seul pot défectueux, etc.

Il n'en est évidemment rien. La pièce de monnaie "n'a ni conscience ni mémoire" (1), sa chute reste soumise au hasard. Il s'agit manifestement là d'une interprétation abusive de la théorie. C'est ce type de raisonnement erroné qui amène certains joueurs de Lotto à jouer les numéros qui ne sont plus sortis depuis longtemps ou ceux qui apparaissent le moins souvent. Mais alors, direz-vous, à quoi sert la théorie ? Quel est son apport ? La théorie nous affirme que, plus le nombre de tirages est grand, plus les fréquences relatives observées tendent vers la distribution théorique. Inversement, les fréquences relatives observées donnent une estimation des probabilités d'autant meilleure que le nombre de tirages réalisés est grand. Cette conclusion est connue sous le nom de loi des grands nombres. En réalité, le joueur ne devrait jouer que les numéros qui sortent le plus souvent… pour autant que la différence des fréquences relatives soit significative (2).

2.5. La planche de Galton La planche de Galton est un dispositif expérimental qui permet de générer une distribution expérimentale basée sur la loi binomiale et de vérifier sa convergence vers une loi normale. Pour réaliser l'expérience, on a besoin d'une planche, d'une vingtaine de clous et d'une cinquantaine de billes identiques (au moins). La planche est divisée en trois zones (fig. 2.9) : -

la partie supérieure se compose d'une trémie dans laquelle on lâchera les billes. la partie centrale comprend plusieurs rangées de clous qu'on a soigneusement plantés en quinconce. Le premier clou se trouve au milieu de la sortie de la

1 Joseph Bertand, mathématicien français (1822-1900) extrêmement doué et précoce : à 17 ans il avait déjà obtenu une licence (aujourd'hui, master) et un doctorat en sciences. C'est dans son traité "Calcul des probabilités" qu'apparaît cette formule devenue célèbre : "On fait trop d'honneur à la roulette : elle n'a ni conscience ni mémoire", phrase qui se doit d'être citée dans tous les cours de probabilités (et donc ici). 2 Savoir quand une différence est significative ou non fera l'objet du chapitre consacré aux tests statistiques.

H. Schyns

2.13

Distributions théoriques

-

2 - La loi Binomiale

trémie. L'espace entre les clous est un peu plus grand que le diamètre des billes. la partie inférieure comprend une série de cases destinées à recueillir les billes.

fig. 2.9 Planche de Galton (source: wikipedia)

Lorsqu'une bille est lâchée dans la trémie, en haut de la planche, elle peut passer soit à gauche, soit à droite du premier clou. Elle rencontre alors un autre clou et peut aussi passer soit à gauche, soit à droite et ainsi de suite. L'expérience montre que la distribution des billes dans les cases suit une loi binomiale.

H. Schyns

2.14

Distributions théoriques

3.

3 - Du discret au continu

Du discret au continu 3.1. Position du problème Dans le chapitre précédent, nous avons considéré des variables aléatoires discrètes, représentant un comptage. Est-il possible de faire un raisonnement similaire avec des variables aléatoires continues représentant une mesure ? Partons d'une mesure quelconque comme la température à l'extérieur, la teneur en CO2 dans l'atmosphère, la hauteur d'une table de salon… Commençons par noter que les valeurs mesurées ne s'étalent que dans un intervalle limité. Par exemple, la température ne peut descendre en dessous du zéro absolu ni tendre vers l'infini; la hauteur de la table du salon ne peut pas être négative et ne peut pas dépasser la hauteur de la pièce dans laquelle elle se trouve. Par contre, nous pouvons mesurer la température et la hauteur de la table du salon autant de fois que nous voulons. Autrement dit, le nombre 1 d'observations, lui, n'est pas limité ( ).

3.2. Effet du nombre d'observations Intéressons-nous aux fréquences relatives des observations. Nous avons vu en statistique descriptive que, pour créer un tableau de fréquences relatives d'une variable continue, il faut créer des classes. Par définition, la somme des fréquences relatives calculées dans les différentes classes est toujours égale à 100%. Raisonnons d'abord en nombre de classes constant. Chaque fois que nous effectuons une observation, elle s'inscrit dans une des classes du tableau et en augmente la fréquence relative (rapport à toutes les autres classes qui, elles, diminuent) (fig. 3.1). S'il y avait déjà [ n ] observations dans le tableau et [ ni ] observations dans la classe considérée, la fréquence relative [ fi ] passe de : n fi = i n

à

n +1 f i' = i n+1

[Eq 3.1]

L'impact de l'ajout sur la fréquence relative est donc de l'ordre de 1 n+1

1 Il serait faux de croire que mesurer 100 fois la hauteur de la table du salon va toujours donner la même valeur : de nombreuses variations vont survenir à cause de la dilatation des pieds, de l'effet de l'humidité ambiante, de la verticalité de l'instrument de mesure, de l'habileté du mesureur, de l'effet de parallaxe de lecture…

H. Schyns

3.1

Distributions théoriques

3 - Du discret au continu

Au fur et à mesure que nous ajoutons des observations, [ n ] augmente et l'impact d'une nouvelle mesure sur les fréquences relatives devient de plus en plus faible (1). On en conclut que les fréquences relatives [ fi ] se stabilisent au fur et à mesure que le nombre d'observations [ n ] augmente.

fig. 3.1 Stabilisation des fréquences relatives

3.3. Effet du nombre de classes A présent, faisons varier le nombre de classes. En statistique descriptive, le nombre de classes (nombre entier) augmente en fonction de la racine carrée du nombre d'observations (2). Dès lors, si le nombre de mesures [ n ] augmente : -

-

le nombre de classes augmente. Toutefois, l'augmentation est de plus en plus lente. Par exemple, il faut 100 observations pour utiliser 10 classes, mais il en faut 400 pour passer à 20 classes; 900 pour passer à 30 classes et 1600 pour 40 classes. Dès lors, les fréquences relatives disposent de plus en plus de temps pour se stabiliser et les histogrammes deviennent de plus en plus réguliers quand le nombre de classe augmente. la largeur de classe diminue. En effet, il est de plus en plus rare d'observer une valeur inférieure à la borne minimum ou une valeur supérieure à la borne maximum. L'amplitude devient donc de plus en plus stable mais comme le nombre de classes continue à augmenter, la largeur des classes diminue.

1 Imaginons un banquet prévu pour 10 convives. Si un convive supplémentaire arrive à l'improviste, on décide d'amputer la part de chacun de 1/11 afin de le nourir. Si le banquet était prévu pout 100 personnes, chacun ne verrait qu'une diminution de 1/101. Plus le nombre de convives est grand, plus l'impact d'un nouvel arrivant est faible. 2 C'est du moins la méthode qui a été choisie dans le cadre du cours de statistiques

H. Schyns

3.2

Distributions théoriques

-

3 - Du discret au continu

la somme des fréquences relatives de toutes les classes vaut toujours 100%.

Il y a cependant un problème : faire passer l'histogramme de 10 à 20 classes revient à couper verticalement chaque classe en 2. Certes, les fréquences absolues augmentent (passant de 100 observations réparties en 10 classes à 400 observations réparties en 20 classes) mais les fréquences relatives attribuées à chaque "demi-classe", elles, ne sont plus que la moitié de celles des classes initiales. Ceci provoque un aplatissement progressif de l'histogramme au fur et à mesure que le nombre d'observations et de classes augmente (fig. 3.2). Si le nombre d'observations tend vers l'infini, l'histogramme tend à se confondre avec l'axe des abscisses. Voilà qui est très embarrassant.

fig. 3.2 Effet de l'augmentation du nombre de classes

3.4. Densité de fréquence relative Pour contourner le problème, nous allons remplacer la notion de fréquence 1 relative [ fi ] par celle de densité de fréquence relative [ fi ] ( ), tout simplement 1 Un tableau des lettres grecques, souvent utilisées en mathématiques, est présenté en annexe.

H. Schyns

3.3

Distributions théoriques

3 - Du discret au continu

en divisant la valeur de chaque fréquence relative par la largeur de la classe correspondante [ Dci ] (1). f fi = i ou f i = f i × Dc i [Eq 3.2] Dc i Conséquence : si nous augmentons le nombre de classes, par exemple en coupant verticalement chaque classe en deux, les fréquences relatives sont divisées par deux mais les largeurs de classe sont aussi divisées par deux, de sorte que la densité de fréquence relative reste inchangée (2) ! ì ' fi ï fi = f ï 2 fi = i ® í Dc ï c ' Dc i ïD i = 2 î

fi ü ' ï fi ï ' = 2 = fi ý ®fi = ' Dc i Dc i ï ïþ 2

[Eq 3.3]

1 Dans nos exemples, toutes les classes ont la même largeur, mais ce n'est pas obligatoire. 2 Du moins en première approximation car il n'est pas dit que les observations considérées par la classe unique se répartissent moitié/moitié dans les deux demi-classes. Si le nombre d'observations est impair, ce ne sera certainement pas le cas.

H. Schyns

3.4

Distributions théoriques

3 - Du discret au continu

fig. 3.3 Stabilisation de la densité de fréquence

La fréquence relative n'est plus représentée par la hauteur du rectangle posé sur chaque intervalle, mais bien par sa surface (fig. 3.3). Grâce à ce stratagème, nous parvenons à combiner les avantages d'une augmentation du nombre d'observations et d'une augmentation du nombre de classes.

3.5. Densité de probabilité Nous déduisons que, à la limite, lorsque le nombre d'observations tend vers l'infini : -

les densités de fréquences relatives atteignent des valeurs stables… dans une infinité de classes… de largeurs égales et infiniment petites les fréquences relatives deviennent des probabilités

Nous sommes ainsi passés d'un histogramme discontinu de fréquences relatives à une fonction continue de densité de probabilité

H. Schyns

3.5

Distributions théoriques

3 - Du discret au continu

fig. 3.4 Passage à une fonction continue de densité de probabilité

La probabilité que la variable aléatoire continue [ x ] prenne une valeur supérieure à une valeur donnée [ a ] est définie par la surface comprise entre l'axe des abscisses et la fonction de densité de probabilité [ f(x) ], limitée à gauche par la verticale passant par [ a ]. En termes mathématiques, cette probabilité est définie par une intégrale (1) : +¥

P( x ³ a ) =

ò f ( x ) × dx

[Eq 3.4]

a

De manière similaire, la probabilité que la variable aléatoire prenne une valeur comprise entre une borne inférieure [ a ] et une borne supérieure [ b ] est définie par la surface comprise entre ces deux verticales. b

ò

P ( a £ x £ b ) = f ( x ) × dx

[Eq 3.5]

a

Par construction, l'histogramme initial comprenait l'ensemble des fréquences relatives [ fi ]. Or, on sait que : n

å f i = 100% = 1

[Eq 3.6]

i =0

Par transformation et passage à la limite, la surface totale correspond maintenant à l'ensemble des probabilités pour toutes les valeurs possibles de [ x ], d'où

1 Pour les lecteurs qui n'auraient jamais abordé le calcul intégral, disons simplement que cette opération fait la somme [ ò ] des aires d'un nombre infini de petits rectangles verticaux de hauteur [ f(x) ] et de largeur infiniment mince [ dx ].

H. Schyns

3.6

Distributions théoriques

3 - Du discret au continu +¥

ò f ( x ) × dx = 1

[Eq 3.7]



Comme la variable aléatoire [ x ] est continue, elle peut prendre une infinité de valeurs possibles dans un intervalle aussi petit que l'on veut. On en déduit que la probabilité que la variable prenne exactement une valeur déterminée [ a ] est nulle, ce que confirme l'expression intégrale dérivée de [ Eq 3.5 ] : a

ò

P ( x = a ) = P ( a £ x £ a ) = f ( x ) × dx = 0

[Eq 3.8]

a

Dès lors, les probabilités que la valeur aléatoire soit strictement supérieure à [ a ] ou supérieure ou égale à [ a ] sont identiques P ( x ³ a ) = P( x = a ) + P ( x > a ) = P ( x > a )

H. Schyns

[Eq 3.9]

3.7

Distributions théoriques

4.

4 - La loi normale

La loi normale 4.1. Un peu d'Histoire Nous avons vu au point 2.2.1 que la probabilité d'une variable aléatoire [ x ] qui suit une loi de distribution binomiale est donnée par : P ( x , n , p ) = C nx p x q n - x

[Eq 4.1]

Nous avons vu également que, lorsque le nombre d'épreuves [ n ] augmente, la loi de distribution devient de plus en plus régulière et tend vers une courbe en cloche. Cette observation suscita la curiosité de Abraham de Moivre (1) qui voulut établir l'équation de cette mystérieuse courbe en cloche. Malheureusement, lorsque le nombre d'épreuves [ n ] est grand, les factorielles qui apparaissent dans l'expression [Eq 4.1] sont pratiquement impossibles à calculer. En 1730, James Stirling (2) débloque la situation en établissant l'approximation qui porte son nom : n! »

ænö 2 np × ç ÷ èeø

n

(3)

[Eq 4.2]

Dès lors, en 1733, de Moivre (4) put établir que, si pour simplifier l'écriture, on note : -

m = E( x ) = n × p

-

s = s( x ) =

n ×p × q

alors, la fonction de densité de probabilité binomiale [ p(x) ] tend vers

f( x ) =

1 s × 2p

1 æ x -m - çç 2 s ×e è

ö ÷÷ ø

2

[Eq 4.3]

En 1812, Pierre-Simon de Laplace (5) découvre que, lorsqu'il fait la somme de plusieurs variables aléatoires : -

qui sont indépendantes entre elles, qui suivent la même loi de distribution,

il retombe sur cette même fonction de densité de probabilité [ Eq 4.3 ] (6). Il en tire un théorème extrêmement important en statistique : le théorème central limite (ou théorème de la limite centrale).

1 Mathématicien français (1667-1754). mathématique et de trigonométrie.

On lui doit également une importante formule d'analyse

2 Mathématicien écossais (1692-1770), disciple de Isaac Newton. 3 Rappelons les valeurs de ces nombres tanscendants : p = 3.141592653, e = 2.718281828 4 Rendons à César ce qui est à César : de Moivre a établi la formule dans le cas particulier où p = 0.5 en 1733. Il faudra attendre 1812 pour que Pierre-Simon de Laplace la généralise pour toute valeur de p. 5 Pierre-Simon de Laplace (1749-1827), mathématicien, astronome et physicien français. 6 C'est de cette manière qu'on a constitué la série de 1600 valeurs utilisées au chapitre 3 pour illustrer le

. /. H. Schyns

4.1

Distributions théoriques

4 - La loi normale

D'autre part, Gauss (1) observe que de nombreuses distributions observées dans la vie réelle se rapprochent également de cette distribution au fur et à mesure que le nombre d'observations augmente. Dès lors, cette fonction de densité de probabilité sera appelée indifféremment loi normale, loi de Gauss, loi de Laplace-Gauss ou loi de distribution gaussienne. La loi normale est un modèle extrêmement important en statistiques car, ainsi que l'avait remarqué Gauss, il permet de décrire la distribution de probabilité de nombreuses variables aléatoires continues (mesures) et même de variables aléatoires discrètes (comptages) (2). Par exemple, la taille ou le poids des individus, la concentration en polluants dans divers échantillons, les fluctuations des cours de bourse de jour en jour, etc.

4.2. Graphes La loi normale est une loi à deux paramètres : -

m : l'espérance mathématique, paramètre de position, s : l'écart- type, paramètre de dispersion.

fig. 4.1 Quelques exemples de graphes de la loi normale (densité de probabilité)

La fig. 4.1 donne quelques exemples de graphes de la fonction de densité de probabilité pour différentes valeurs des paramètres [ m ] et [ s ]. Nous constatons : -

qu'il s'agit bien chaque fois de courbes en cloche,

-

que le maximum est atteint pour [ x ] égal à [ m ],

passage du discontinu au continu. 1 Carl-Friedrich Gauss, mathématicien et physicien allemand (1777-1855) dont l'apport aux sciences a été considérable. 2 A condition d'introduire une "correction de continuité" dont nous parlerons plus loin.

H. Schyns

4.2

Distributions théoriques

4 - La loi normale

-

que les courbes sont symétriques par rapport à un axe vertical (moyenne = médiane = mode),

-

que la courbe s'aplatit et s'étale quand [ s ] augmente qu'il y a deux points d'inflexion situés à peu près à mi-hauteur que la courbe se rapproche rapidement de l'axe des abscisses quand [ x ] s'éloigne de [ m ] lim x ® ±¥ f ( x ) = 0 +

De plus, l'aire comprise entre la courbe et l'axe horizontal est identique dans tous les cas et est unitaire. Nous pouvons nous en convaincre en faisant une approximation "à la grosse louche" en découpant la courbe en cloche à mi-hauteur et selon l'axe de symétrie puis en rabattant les quartiers ainsi découpés (fig. 4.2).

fig. 4.2 L'aire sous la courbe est constante et vaut 1

La fait se vérifie de manière plus rigoureuse quand on effectue le cumul. Nous obtenons alors la fonction de répartition (fig. 4.3)

H. Schyns

4.3

Distributions théoriques

4 - La loi normale

fig. 4.3 Fonction de répartition de la loi normale

Dans les tableurs Excel et OpenOffice, -

la fonction de densité de probabilité est donnée par la fonction

f(x)

ð

LOI.NORMALE(x,

mu, sigma, cumul(=0))

dans laquelle le paramètre cumul vaut 0. -

la fonction de répartition ou probabilité est donnée par la même fonction mais en demandant le cumul

F (x)

ð

LOI.NORMALE(x,

mu, sigma, cumul(=1))

dans laquelle le paramètre cumul vaut 1. Inversement, il est possible de retrouver la valeur de la variable aléatoire [ x ] correspondant à un seuil de probabilité [ F(x) ] donnée grâce à la fonction x = F -1 (F (x))

ð

LOI.NORMALE.INVERSE(P,

mu, sigma)

4.3. Convergence vers la loi normale Nous avons vu au point [ 4.1 ] que de Moivre et Laplace ont démontré qu’il y a convergence de la loi binomiale vers la loi normale quand le nombre d’épreuves [ n ] tend vers l’infini. Ceci permet, dans certains calculs, de remplacer la loi binomiale discrète (discontinue) par une loi normale continue, beaucoup plus facile à traiter analytiquement. En pratique, il n’est pas nécessaire d’aller jusqu’à l’infini. Dans les calculs de probabilité, nous pourrons remplacer la loi binomiale par une loi normale "équivalente" dès que : n = 30

H. Schyns

et

n·p = 5

et

n·q = 5

4.4

Distributions théoriques

4 - La loi normale

fig. 4.4 Convergence de la loi binomiale vers la loi normale

A titre d’illustration (fig. 4.4), reprenons la distribution binomiale de la fig. 2.7 pour laquelle n = 25 ü ï p = 0.25 ý q = 0.75 ïþ Ces valeurs nous permettent de calculer les paramètres [ m ] et [ s ] de la loi normale "approchée". ì m = n × p = 6.25 í î s = n × p × q = 4.69

avec

ì n = 25 < 30 ï í n × p = 6.25 > 5 ï n × q = 18.75 > 5 î

Bien que le nombre d’épreuve [ n ] soit un peu trop faible par rapport au nombre conseillé, nous constatons que l’approximation est néanmoins excellente. De même, comme l'a démontré Laplace, la somme de plusieurs variables aléatoires distribuées de manière identique tend vers une loi normale dont la moyenne et l'écart-type correspondent à ceux de l'échantillon considéré.

H. Schyns

4.5

Distributions théoriques

4 - La loi normale

fig. 4.5 Convergence d'une somme de v.a. vers la loi normale

La fig. 4.5 montre que cette convergence s'applique par exemple aux 900 valeurs aléatoires utilisées pour construire la fig. 3.3

4.4. Quelques propriétés 4.4.1. Translation, dilatation Si [ x ] est une variable aléatoire de distribution normale N ( m x , s x ) , [ y ] est une variable aléatoire telle que y = a·x + b Alors, [ y ] suit aussi une distribution normale N ( m y , s y ) pour laquelle ìï m y = a × m x + b í ïî s y = a × s y

4.4.2. Composition Si [ x ] est une variable aléatoire de distribution normale N ( m x , s x ) , [ y ] est une variable aléatoire de distribution normale N ( m y , s y ) , [ z ] est une variable aléatoire telle que z=x+y Alors, [ z ] suit aussi une distribution normale N ( m z , s z ) pour laquelle

H. Schyns

4.6

Distributions théoriques

4 - La loi normale

ìm z = m x + m y ï í 2 2 ïs z = s x + s y î

4.5. Loi normale réduite Lorsqu'on pose -

m=0 s=1

L'équation de densité de probabilité de la loi normale [ f(x) ] se simplifie et devient :

f( x ) =

1 - x2

1 ×e 2 2p

[Eq 4.4]

Cette fonction porte le nom de loi normale réduite ou loi normale standard. Elle est définie pour toutes les valeurs de [ x ] allant de [ -¥ ] à [ +¥ ]. Comme il s'agit d'une loi de densité de probabilité, la probabilité que la variable aléatoire [ x ] soit inférieure à une certaine valeur [ z ] s'obtient par calcul intégral ainsi que nous l'avons vu au point 3.5 : z

P( x £ z ) = F( z ) =

ò

1 2 - x

1 × e 2 2 p -¥

× dx

[Eq 4.5]

Cette fonction [ F(z) ] est appelée fonction de répartition réduite. On peut transformer n'importe quelle distribution normale en une distribution normale réduite à condition d'appliquer la transformation z=

x-m s

Malheureusement, l'intégrale qui apparaît dans l'expression [ Eq 4.5 ] n'a pas de solution analytique. En d'autres mots, il n'existe pas de "formule" exacte qui permette de calculer directement cette probabilité. Toutefois, en utilisant des techniques numériques, les mathématiciens sont parvenus à calculer la valeur de l'intégrale pour toute une série de valeurs typiques de [ z ]. Ces valeurs sont reprises dans la table présentée en annexe 8.1, table qu'on retrouve dans tous les livres de statistiques.

H. Schyns

4.7

Distributions théoriques

4 - La loi normale

fig. 4.6 Valeurs caractéristiques de la loi normale réduite

Dans les tableurs Excel et OpenOffice la fonction de répartition ou probabilité est donnée par la fonction

F (z)

ð

LOI.NORMALE.STANDARD(z)

Inversement, il est possible de retrouver la valeur de la variable aléatoire réduite [ z ] correspondant à un seuil de probabilité [ F(z) ] donnée grâce à la fonction z = F -1(F (z))

ð

LOI.NORMALE.STANDARD.INVERSE()

4.6. Lecture de la table La table de l'annexe 8.1 donne la probabilité qu'une variable aléatoire réduite soit plus petite ou égale à une valeur limite [ z ] donnée. Il s'agit d'une table à double entrée : -

l'unité et la première décimale de [ z ] se lisent dans la première colonne (entête des lignes) la deuxième décimale de [ z ] se lit dans la première ligne (en-tête des colonnes)

4.6.1. Premier cas

fig. 4.7 Probabilité pour x0

Par exemple, recherchons la probabilité que la variable aléatoire réduite [ x ] soit inférieure ou égale à une valeur de [ z ] positive (p.ex.: 0.73) (en bleu sur fig. 4.7), H. Schyns

4.8

Distributions théoriques

4 - La loi normale

fig. 4.8 Probabilité pour z=0.73

Nous recherchons l'unité et la première décimale, soit 0.7, dans l'en-tête des lignes et la deuxième décimale, soit 0.03, dans l'en-tête des colonnes. La valeur recherchée se trouve dans la cellule située à l'intersection de la ligne et de la colonne sélectionnée : P ( x £ 0.73 ) = F ( 0.73 ) = 0.76730 = 76.73%

4.6.2. Deuxième cas Pour les valeurs de [ z ] négatives, on utilise le fait que la courbe est symétrique et que l'aire totale vaut 1 (par définition).

fig. 4.9 Probabilité pour x
View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF