NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE

January 15, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE...

Description

Chapitre 1

NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE Les statistiques sont une modélisation de la part aléatoire des phénomènes. Dans le cadre de ce cours, cet aléatoire concerne la variabilité des mesures quantitatives qui peuvent être entreprise en chimie ou en chimie-physique. Les bases mathématiques de cette modélisation sont les probabilités. Ici, on se contentera de définitions proposées par l’ISO 3534[8]. Ce cours transcrira souvent des normes éditées dans les séries ISO, en particulier [8], [9] et [10].

1.1 1.1.1

Défintions Définition déterministe de la probabilité

Lors de la réalisation d’un événement A dont le nombre d’issues favorables peut être calculé au moyen de l’analyse combinatoire (compte tenu de l’hypothèse d’équiprobabilité des issues), on définit la probabilité P (A) de cet événement par le rapport du nombre d’issues favorables (nA ) au nombre d’issues possibles (n) : nA (1.1) n C’est la définition classique que l’on utilise pour évaluer les issues d’un jeu de hasard depuis les travaux de B. Pascal au sujet des problèmes du Chevalier de Méré [3] et développés par Huigens [7] et Bernouilli [1]. Exemple : La probabilité pour obtenir "pile" après un lancé d’une pièce parfaitement symétrique est de 0,5. P (A) =

1.1.2

Définition empirique de la probabilité

Si après un grand nombre de réalisations d’une expérience (n réalisations) on observe nA fois l’issue souhaitée, la probabilité de cet événement est la limite de la fréquence des observations de l’issue souhaitée : 1

2CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE

P (A) = lim

n→∞

nA n

(1.2)

En réalité, la fréquence observée en fonction de n oscille autour de sa valeur théorique et s’en rapproche indéfiniment lorsque lim conformément à la "loi n→∞

des grands nombres" [1, 13].

1.1.3

Variables aléatoires

Considérons un événement comportant un certain nombre d’issues. Si on associe un nombre à chaque issue, ou à chaque ensemble d’issues, ce nombre est appelé variable aléatoire ou aléa numérique. On la note par une lettre majuscule X, par contre les valeurs particulières de la variable aléatoire sont notées par une minuscule x. On additionne parfois un indice pour faire référence à une réalisation particulière au sein d’une série de réalisation d’une même variable aléatoire xi . Exemple : jeu de pile ou face : Les issues du jeu sont pile ou face. On peut associer à pile X = 1 et à face X = -1 ou encore 0 et 1 ou tout autre nombre. X est alors une variable aléatoire. Exemple détaillé : Expérience aléatoire : lancer deux dés, un rouge et un bleu. Evénements : le dé rouge fait 2 et le dé bleu fait 3 Variables aléatoires : X la valeur obtenue au tirage du dé rouge, Y celle obtenue pour le dé bleu, Z =X +Y, T qui vaut 1 si X = Y et 0 sinon. Remarquons que les événement {“On tire un double”} et {T = 1} sont identiques.

1.1.4

Continuité et discontinuité d’une variable aléatoire, notion de densité de probabilité

Variable discontinue ou discrète : C’est une variable qui ne peut prendre que des valeurs isolées séparées par un intervalle fini, c’est-à-dire non infinitésimal. Elle est généralement représentée par un entier. On peut associer une probabilité à chaque valeur possible d’une variable aléatoire discrète. Variable continue : C’est une variable qui peut prendre toutes les valeurs d’un intervalle fini ou infini. Cela signifie que la différence entre deux valeurs voisines peut être aussi petite que l’on peut l’imaginer. C’est un nombre réel. On ne peut pas associer une probabilité à une valeur particulière d’une variable aléatoire continue. La probabilité pour que X prenne une valeur particulière x dans R (l’ensemble des nombres réels) est toujours nulle. Par contre on peut associer à x une densité de probabilité f (x) et on peut associer à un intervalle [x, x + δx] une probabilité non nulle (figure 1.1). La densité de probabilité est définie de la même manière que la densité d’un milieu continu [11, 12]. Si l’intervalle est assez petit pour qu’on puisse y considérer f (x) comme constant : P (X ∈ [x, x + δx]) = f (x)δx

(1.3)

1.1. DÉFINTIONS

3

Figure 1.1 – Seule l’aire sous la courbe représentative d’une distribution d’une fonction de probabilité est, en pratique, une probabilité.

4CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE On constate bien que cette probabilité tend vers 0 lorsque δx tend vers 0. Remarque : Une probabilité est une grandeur sans dimensions. En revanche, la densité de probabilité a une dimension : c’est l’inverse de la dimension de la variable aléatoire concernée. Par exemple, si la variable aléatoire est une mesure de distance exprimée en mètres, alors la densité de probabilité de cette variable aléatoire s’exprime en mètres−1 . Exemple : On s’intéresse à la taille des personnes d’un certain âge. Si la taille est considérée comme une variable aléatoire continue, donc un nombre réel (un nombre réel est un nombre infiniment précis), rien n’empêche d’examiner la probabilité pour rencontrer un individu de taille 1,7500 m ou même 1,7543 m. La probabilité de rencontrer dans la population une valeur numérique aussi précise est nulle. Il est d’ailleurs impossible de mesurer la taille d’une personne avec une telle précision. Par contre il existe un certain nombre d’individus ayant une taille comprise entre 1,75 et 1,76 m si l’échantillon est suffisamment grand. L’opération qui consiste à définir des classes correspondant à des intervalles de valeur que peut prendre une variable aléatoire est appelée discrétisation. Usuellement, ces classes sont ne se recouvrent pas les unes les autres mais couvrent en revanche la totalité du domaine de définition de la variable aléatoire.

1.2 1.2.1

Généralités sur les lois de probabilités Définition

Une loi de probabilité est une relation permettant d’associer une probabilité ou une densité de probabilité à chaque valeur d’une variable aléatoire. Pour une variable aléatoire discrète, c’est la donnée de la probabilité que soient prises chacunes des valeurs de la variable aléatoire. Exemple détaillé : En reprenant l’exemple précédent, la loi de X est 1 6 de même pour Y . Pour Z P (X = 1) =

P (X = 2) =

1 2 P (Z = 3) = 36 36 Enfin, la loi de T est P (Z = 2) =

...

1 6

...

P (Z = 7) =

P (X = 6) =

6 36

...

1 6

P (Z = 12) =

1 36

1 5 P (T = 1) = 6 6 Pour une variable aléatoire continue, on ne peut pas procéder de cette manière, puisque dans ce cas P (X = x0 ) = 0 pour tout x0 . On pourrait considérer que la loi d’une variable aléatoire continue est la donnée de P (X ∈ [a, b]) pour tout a et pour tout b. Mais c’est assez lourd et nous allons voir dans un instant que ça revient à donner la fonction de répartition de la variable aléatoire. P (T = 0) =

1.2.2

Représentation d’une loi de probabilité

Si la variable est discrète : représentation comme un diagramme en bâtons (figure 1.2). Pour une variable continue on représente la fonction densité de probabilité (voir 1.1)

1.2. GÉNÉRALITÉS SUR LES LOIS DE PROBABILITÉS

5

Figure 1.2 – Représentation en bâton d’une distribution de probabilité discrète.

6CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE

1.2.3

Fonction de répartition d’une loi de probabilité

La fonction cumulative de distribution, ou fonction de distribution F ou fonction de répartition F est définie par : FX (x) = P (X ≤ x)

(1.4)

Cette notion, ainsi que celle de densité de probabilité a vraisemblablement été énoncée dans leur sens moderne pour la première fois par C. F. Gauss en 1809 [5]. Remarquons que les variables aléatoires continues ont en général une fonction de répartition dérivable. Leur densité fX est alors la dérivée de leur fonction de répartition : 0 fX = FX Et donc, la fonction de répartition est la primitive de la densité qui vaut 0 en −∞ Z x FX (x) = fX (t)dt −∞

Par ailleurs, remarquons que pour tout a et b P (X ∈]a, b]) = FX (b) − FX (a) Ainsi la donnée de la fonction de répartition équivaut à la donnée de la loi. En pratique, on préférera donner la densité.

1.2.4

Représentation graphique de la fonction de répartition

La courbe est encore appelée Courbe des Probabilités Cumulées. Dans le cas d’une loi continue, F (x) représente la surface délimitée par la courbe représentation de la loi entre −∞ et l’abscisse x. Ces courbes sont continues dans le cas de variables aléatoires continues et sont discontinues dans le cas de variables aléatoirs discrètes. Remarque : une fonction de répartition est toujours croissante et continue à droite.

1.2.5

Fractile d’ordre α : tα

Dans le cas d’une loi continue le fractile tα est l’abscisse x telle que la surface délimitée par la loi de probabilité entre −∞ et tα soit égale à α. Les fonctions F (t) et tα sont des fonctions réciproques l’une de l’autre. Si t(α) est le fractile d’ordre α on a les relations :

P (X < tα ) = α

(1.5)

P (X ≥ tα ) = 1 − α

(1.6)

F (tα ) = α

(1.7)

On s’intéresse également au fractile t1−α qui joue le même rôle que tα ) pour les grandes valeurs de l’absice x (figure 1.5). On démontre que :

1.2. GÉNÉRALITÉS SUR LES LOIS DE PROBABILITÉS

7

Figure 1.3 – Fonction cumulative ou fonction de répartition d’une loi de probabilité continue.

8CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE

Figure 1.4 – Fonction cumulative ou fonction de répartition d’une loi de probabilité discrète.

1.3. PARAMÈTRES STATISTIQUES DES VARIABLES ALÉATOIRES

9

Figure 1.5 – Exemples de factiles « inférieur »et « supérieur »d’une loi statistique.

P (X ≥ t1−α ) = α

(1.8)

P (X < t1−α ) = 1 − α

(1.9)

F (t1−α ) = α

(1.10)

Si la loi statistique est symétrique et centrée on a la relation tα = −t1−α . Les fractiles symétriques sont utilisé pour délimiter chacun une surface extérieure de α2 . La surface totale intérieure à l’intervalle interfractile étant 1 − α. Seul le fractile positif est donné, la borne inférieur s’en déduisant au signe près. Remarques : — Les fractiles des lois de probabilités ont une importance considérable dans les tests statistiques. — Des fractiles ne peuvent être définis que pour des variables aléatoires continues, discrètes ou ordonnées.

1.3 1.3.1

Paramètres statistiques des variables aléatoires Espérance mathématique

Definition 1. L’espérance mathématique est un paramètre de position (ou paramètre de tendance centrale) défini par les relations : PN — Variable discrète : E(X) = R i=1 xi P (X = xi ) — Variable continue : E(X) = U xf (x)dx Où les xi sont les issues possibles de la variable aléatoire discrète X et U est le domaine défini par les issus possibles de la variable aléatoire X quand celle-ci est continue. Notez l’utilisation dans ce cas de la densité de probabilité f (x).

10CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE

Figure 1.6 – Exemple de factiles symétrique d’une loi statistique, forcément symétrique. L’espérance mathématique s’apparrente donc à une somme des issues possibles de la variable aléatoire pondérée par les porbabilités leurs réalisations respectives. Cette idée est énoncée dès la naissance des probabilités : le concept est ainsi déjà énoncé par Huygens en 1657 [7]. Exemple détaillé : Pour le dé à 6 faces, E(X) = 1.P (X = 1) + 2.P (X = 2) + · · · + 6.P (X = 6) =

1 + 2 + ... + 6 7 = 6 2

Quelques propriétés de l’espérance mathématique Si α est un nombre, E(α) = α

(1.11)

Remarque : La dimension de l’espérance mathématique d’une variable aléatoire est la même que celle de cette variable aléatoire. Si X et Y sont deux variables aléatoire et α et β sont deux nombres : E(αX + βY ) = αE(X) + βE(Y )

(1.12)

Si X et Y sont deux variables aléatoire indépendantes : E(XY ) = E(X)E(Y )

(1.13)

On appel variable aléatoire centrée, la variable aléatoire Z construite à partir de la variable aléatoire X selon la relation : Z = X − E(X) L’espérance mathématique de X est donc nulle.

(1.14)

1.3. PARAMÈTRES STATISTIQUES DES VARIABLES ALÉATOIRES

1.3.2

11

Variance et écart-type

Definition 2. La variance est l’espérance du carré de la variable centrée : V (X) = E((X − E(X))2 ). PN — Variable discrète : V (X) = R i=1 (xi − E(X))2 P (X = xi ) — Variable continue : V (X) = U (x − E(X))2 f (x)dx p Definition 3. L’écart-type est la racine carrée de la variance : σ(X) = V (X). La variance et l’écart-type sont des paramètres de dispersion. Remarque : La dimension de la variance d’une variable aléatoire est le carré de celle de cette variable aléatoire ; celle de l’écart-type est la même que celle de la variable aléatoire. Quelques propriétés de l’espérance mathématique Si X est une variable aléatoire et α est un nombre : V (αX) = α2 V (X)

(1.15)

Si X et Y sont deux variables aléatoires :

V (X + Y ) = V (X) + V (Y )

(1.16)

V (X − Y ) = V (X) + V (Y )

(1.17)

Ces propriétés ne s’appliquent pas aux écart-types. On appel variable aléatoire centré réduite, la variable aléatoire Z défini par rapport à la variable aléatoire X selon la relation suivante : Z=

X − E(X) σ(X)

(1.18)

La variable aléatoire admet une espérance nulle et une variance de 1. Elle aussi appelée variable normalisée. Propriété : V X = E(X 2 ) − (EX)2 Démonstration : EX est un nombre qu’on note m et qu’on identifie à la variable aléatoire constante qui vaut m, notée m aussi. V X = E((X−m)2 ) = E(X 2 −2mX+m2 ) = E(X 2 )−2mEX+m2 = E(X 2 )−m2

1.3.3

Moments d’ordre supérieur et cumulants

Definition 4. On appelle moment d’ordre n la grandeur : Mn = E(X n )

(1.19)

Le moment centré d’ordre n est le moment d’ordre n de la variable centrée : µn = E((X − E(X))n )

(1.20)

12CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE On a donc M1 = E(X) , µ1 = 0 et µ2 = V (X). Les moments sont particulièrement importants car ils sont liés à la transformée de Fourier de leur distrbution de probabilité. En effet, on définis un fonction génératrice des moments par la relation suivante : GX (k) = E(eikX )

(1.21)

Pour une variable continue prenant ses valeurs dans un domaine U : Z GX (k) = e( ikx)fX (x)dx (1.22) U

Ainsi, GX (k) apparaît comme la transformée de Fourier de la densité de probablité fX (x) de la variable aléatoire X 1 . Pour une variable discrète GX (k) =

N X

eikxi P (X = xi )

(1.23)

i=1

Dans ce cas, la fonction GX (k) est évidemment périodique. Ces fonction GX (k) sont des génératrice de moments parce que leur développement analytique fait apparaître chaque moment individuellement : GX (k) =

∞ X (ik)n Mn n! n=1

(1.24)

Ainsi, la connaissance de tous les moments d’une distribution implique que l’on peut reconstruire la fonction génératrice des moments, puis par transformée de Fourier inverse, avoir une connaissance exacte de la distribution de probabilité. A l’inverse, la connaissance exacte de la distribution de probabilité, via le calcul du terme n du développement analytique de la fonction génératrice des moments, permet d’avoir accès au moment d’orde n. Si on considère le développement analytique du logarithme de la fonction GX (k), on obtient les cumulants de la distribution : log(GX (k)) =

∞ X (ik)n Kn n! n=1

(1.25)

Les cumulants sont des combinaisons des moments, par exemple :

K1 = M1 = E(X) K2 = M2 −

M12

= V (X)

K3 = M3 − 3M2 M1 + K4 = M4 − 4M3 M1 − Kn = Mn −

n−1 X

(1.26) 2M12 3M22

(1.27) (1.28) +

l−1 Cn−1 Kl Mn−l

12M2 M12



6M14

(1.29) (1.30)

l=1

1. Plus exactement, il s’agit de la transformée de Fourier d’un prolongement analytique de la densité de probabilité.

1.3. PARAMÈTRES STATISTIQUES DES VARIABLES ALÉATOIRES

13

bien entendu la relation de récurrence permet de trouver les moments en fonction des cumulants :

Mn = Kn +

n−1 X

l−1 Cn−1 Kl Mn−l

(1.31)

l=1

Les cumulants sont étroitements liés aux moments et inversement. L’intérêt de calculer avec des cumulants est que la fonction génératrice des cumulants est souvent plus simple à manipuler. Ces notions ont été développées par le marquis de Laplace au début du XIXème siècle [11, 12].

1.3.4

Kurtosis et coefficient d’aplatissement

Il est fréquemment affirmé que tous les moments centrés d’ordre impair (>1) donnent une indication sur la dissymétrie de la loi de probabilité et les moments d’ordre pair (>2) sur l’aplatissement de cette loi. Ceci vient de comparaisons à la loi normale centré réduite qui joue un rôle prépondérant en probabilité et statistique. En effet, pour la loi normmale centrée, tous les moments d’ordre pair sont des puissances du moment d’ordre 2 et tous les moments d’ordre impair sont nuls. En somme, pour une distribution normale quelconque, la connaissance de la moyenne et de la variance sont suffisant pour la déterminer complètement. Pour une distribution dont empiriquement, on pense qu’elle ressemble à une loi normale, il sera donc pertinent de calculer les moments d’ordre 3 et 4 pour affiner la comparaison à la loi normale. Definition 5. On appelle coefficient d’assumétrie la quantité 3 !  K3 µ3 X − E(X) = 3/2 = 3/2 γ=E σ(X) µ K 2

(1.32)

2

On note que pour une distibution normale, gamma = 0 nécessairement, car la distribution est centrée. Le coefficient d’asymétrie est une grandeur sans dimension, sa valeur donne une idée de l’importance de la dissymétrie et son signe montre si la dissymétrie provient de valeurs élevées de X (dissymétrie à droite ) ou des valeurs petites de X (dissymétrie à gauche). Definition 6. On appelle Kurtosis la quantité  β=E

X − E(X) σ(X)

4 ! =

µ4 µ22

(1.33)

On note que la Kurtosis pour une loi normale est donc nécessairement beta = 3. Comme généralement on préfère généralement avoir des quantités relatives à la valeur zéro, on introduit une Kurtosis normalisée. Definition 7. On appelle Kurtosis normalisée la quantité  4 ! X − E(X) K4 β=E −3= 2 σ(X) K2

(1.34)

14CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE C’est souvent la Kurtosis normalisée qui est en pratique calculée par les logiciels de statistique. Dans ce cas, β > 0 (respectivement β < 0) indique une distribution dont les queues sont plus épaisses (respectivement moins épaisses) comparées à une distribution normale, toutes choses égales par ailleurs.

1.3.5

Autres paramètres de position

Definition 8. Le mode est la réalisation possible x de la variable aléatiore X dont la probabilité est maximale. Cette valeur peut ne pas être unique. Une distribution unimodale est une distribution n’ayant qu’un seul mode, sinon elle est bimodale, trimodale ou multimodale. Definition 9. La médiane Med est la réalisation possible x de la variable aléatoire X pour laquelle P (X < x) = P (X ≥ x). Pour une distribution continue c’est la valeur qui sépare la courbe de densité de probabilité en deux portions de surface égale. La médiane est le fractile d’ordre t 21 .

1.4 1.4.1

Etude de quelques lois de probabilités discrètes La loi de Bernouilli

Le loi de Bernouilli [1] décrit un jeu comportant deux issues : — une issue favorable S, à laquelle on associe la valeur 1, avec la probabilité p; ¯ à laquelle on associe la valeur 0, avec la proba— une issue défavorable S, bilité q = 1 − p. Le diagramme en bâton de la distribution ne contient donc que deux barres. Les paramètres de positions de la distribution peuvent être résumés ainsi :

E(X) = p

(1.35)

V (X) = pq √ σ(X) = pq

(1.36) (1.37)

M3 (X) = p

(1.38)

κ3 (X) = pq(q − p)

(1.39)

µ3 (X) = κ3 (X) = pq(q − p)

(1.40)

M4 (X) = p

(1.41)

κ4 (X) = pq(1 − 6pq) µ4 (X) = κ4 (X) + p−q β(X) = √ pq 1 − 6pq γ(X) = pq

3κ22 (X)

(1.42) = pq(1 − 3pq)

(1.43) (1.44) (1.45)

1.4. ETUDE DE QUELQUES LOIS DE PROBABILITÉS DISCRÈTES

1.4.2

15

La loi Binomiale

La loi Binomiale [2] est la somme de n processus de Bernouilli de paramètre p. En d’autre termes il s’agit de compter le nombre de succès, chacun ayant une probabilité p d’être réalisé, à la suite de n essais indépendants et indiscernables. Si les essais sont représentés par une chaîne de bits, les succès sont les bits allumés et les non-succès sont les bits éteints. La position des bits allumés n’est pas importante : toutes les permutations des bits donnent correspondent au même nombre de succès et donc à la même réalisation de la variable aléatoire qui représente leur compte. La distribution est calculée en utilisant la formule 1.46.   n x P (X = x) = p (1 − p)n−x (1.46) x Paramètres statistiques

E(X) = np

(1.47)

V (X) = np(1 − p) p σ(X) = np(1 − p)

(1.48)

3 3

(1.49)

2 3

2 2

3

2

M3 (X) = n p − 3n p + 3n p + 2np − 3np + np 3 1 − 2p κ3 (X) = p (np(1 − p)) 2 np(1 − p) µ3 (X) = κ3 (X) = pq(q − p) M4 (X) = p

(1.51) (1.52) (1.53)

κ4 (X) = pq(1 − 6pq) µ4 (X) = κ4 (X) + p−q β(X) = √ pq 1 − 6pq γ(X) = pq

(1.50)

3κ22 (X)

(1.54) = pq(1 − 3pq)

(1.55) (1.56) (1.57)

Moyenne : np Mediane : bnpc si p ≤ 1p − ln(2) ou si ln(2) ≤ p. Déviation Standard : np(1 − p). Coefficient d’applatissement : √ 1−2p si p 6= 0 et p 6= 1. np(1−p)

1 Kurtosis : 3 − n6 + np(1−p) On représente la loi binomiale à l’aide d’un diagramme en bâtons. Le diagramme est symétrique lorsque p = q = 0, 5 (Figure 1.7a). Dans ce cas la médiane, le mode et l’espérance sont égaux. Lorsque p augmente et q diminue la dissymétrie augmente : la médiane et le mode deviennent sont plus petits que l’espérance (Figure 1.7b). Enfin, lorsque n est grand et p petit, les valeurs de P (X = x) diminuent très vite à partir d’une certaine valeur de x. En pratique, pour ce type de distribution, il n’y a souvent qu’une vingtaine de valeurs dont la probabilité n’est pas négligeable.

16CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE

Figure 1.7 – Diagramme en bâton de distributions binomiales. Les paramètres sont (a) n=10, p=0,5 et (b) n=10, p=0,3.

1.4. ETUDE DE QUELQUES LOIS DE PROBABILITÉS DISCRÈTES

1.4.3

17

La loi de Poisson

On obtient la loi de Poisson [14] à partir de la loi binomiale lorsque n est très grand et p très petit, le produit m = np n’étant pas très grand (1 ≤ np ≤ 20). Par exemple une loi Binomiale de paramètres p = 0,05 et n = 100 est très bien approximée par une loi de Poisson. Techniquement la distribution d’une loi de Poisson est donnée par l’équation 1.58. Elle n’est paramétrée que par une quantité, noté m et qui représente la valeur moyenne de la distribution. D’autre part, contrairement à la loi Binomiale, son support n’admet pas de majorant. Pour toute valeur de x entière positive ou nul, on peut calculer une probabilité. Cette loi modélise très bien les situations où l’on compte des évènements rares dans une population quasiment infini. Par exemple, le nombre de désintégrations radioactives par unité de temps, dans un échantillon suit une loi de Poisson. La probabilité de désintégration d’un atome par seconde est très faible, mais il faut intégrer celle-ci sur la taille d’un échantillon comprenant un nombre d’atomes de l’ordre d’une mole. Un autre exemple est le nombre d’objets défectueux issus d’une chaîne de fabriquation. Un dernier exemple, est le nombre de réponses à une attaque de phishing par courriel. P (X = x) =

mx −m e x!

(1.58)

Paramètres statistiques

E(X) = m

(1.59)

V (X) = m √ σ(X) = m

(1.60) (1.61) 2

3

M3 (X) = m + 3m + m

(1.62)

κ3 (X) = m

(1.63)

µ3 (X) = m

(1.64) 2

3

M4 (X) = m + 7 ∗ m + 6 ∗ m + m

4

(1.65)

κ4 (X) = m

(1.66)

µ4 (X) = (3 ∗ m + 1) ∗ m 1 β(X) = √ m 1 γ(X) = 3 + m

(1.67) (1.68) (1.69)

Moyenne : m Mediane : bm + 13 − 0.02 √∗ mc. Déviation Standard : m. Coefficient d’applatissement : √1m . 1 Kurtosis : 3 − m Le diagramme est toujours dissymétrique vers les valeurs élevées de x ; la médiane et le mode sont inférieurs à la moyenne (Figure 1.8). Pour les grandes valeurs de n, β tend vers 0 et γ tend vers 3, et la loi se rapproche d’une loi de Normale.

18CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE

Figure 1.8 – Diagramme en bâton d’un distribution de Poisson de paramètre m = 3.

1.5

1.5.1

Etude de quelques lois de probabilités continues utiles pour l’interprétation de données expérimentales Loi de Gauss ou loi Normale

Cette loi est fréquemment appelée loi Normale [2, 5]. Sa densité, donnée par l’équation 1.70, est une fonction continue dépendant des deux paramètres µ et σ, la moyenne et l’écart-type respectivement. Le cas particulier où µ = 0 et σ = 1 est désigné comme étant une loi Normale Centrée Réduite. Il est toujours possible de ramener une variable aléatoire X suivant une loi Normale quelconque à une variable aléatoire Z suivant loi Normale Centrée Réduite par un changement de variable (équation 1.71). La densité de la loi Normale Centrée Réduite est donnée par l’équation 1.72. Remarque : Ainsi la fonction de répartition de la loi normale centrée réduite est Z x 1 −t2 √ e 2 dt Φ(x) = 2π −∞ Cette fonction est bien définie, mais elle ne peut pas être exprimée comme composée de fonction classiques. Pour calculer une valeur de Φ, on se reportera à une table statistique ou à une calculatrice. Le changement de variable pour calculer les valeurs prises par la fonction de répartition d’une Gaussienne de paramètres m et σ est x−m ) F (x) = Φ( σ g(x) =

−(x−m)2 1 √ e 2σ2 σ 2π

(1.70)

1.5. ETUDE DE QUELQUES LOIS DE PROBABILITÉS CONTINUES UTILES POUR L’INTERPRÉTATION D

Z=

X −µ σ

(1.71)

1 −x2 g1 (x) = √ e 2 2π

(1.72)

Beaucoup de mesures physiques se distribuent suivant une loi Normale. Il existe des tests statistiques permettant de prouver le caractère normal d’un ensemble de mesures et la normalité d’une distribution expérimentale est souvent une condition nécessaire pour l’application des tests statistiques sur les moyennes ou sur les variances.

Paramètres statistiques

E(X) = µ V (X) = σ

(1.73) 2

(1.74)

σ(X) = σ

(1.75) 2

3

M3 (X) = 3 ∗ σ ∗ µ + µ

(1.76)

κ3 (X) = 0

(1.77)

µ3 (X) = 0

(1.78) 4

2

2

4

M4 (X) = 3 ∗ σ + 6 ∗ σ ∗ µ + µ κ4 (X) = 0 µ4 (X) = 3 ∗ σ

(1.79) (1.80)

4

(1.81)

β(X) = 0

(1.82)

γ(X) = 3

(1.83)

Moyenne : µ Mediane : µ. Déviation Standard : σ. Coefficient d’applatissement : 0. Kurtosis : 3 La loi est représentée par son diagramme de densité (Figure 1.9a). Le mode, la médiane et la moyenne sont égales. L’aplatissement prend une valeur caractéristique, γ = 3. Pour une loi Normale Centrée Réduite, les paramètres sont les suivants :

20CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE

Figure 1.9 – Diagrammes de densité de probabilité (a) d’une loi Normale de paramètres µ = 3 et σ = 1.5 et (b) d’une loi Normale Central Réduite.

1.5. ETUDE DE QUELQUES LOIS DE PROBABILITÉS CONTINUES UTILES POUR L’INTERPRÉTATION D

E(X) = 0

(1.84)

V (X) = 1

(1.85)

σ(X) = 1

(1.86)

M3 (X) = 0

(1.87)

κ3 (X) = 0

(1.88)

µ3 (X) = 0

(1.89)

M4 (X) = 3

(1.90)

κ4 (X) = 0

(1.91)

µ4 (X) = 3 β(X) = 0

(1.92) (1.93)

γ(X) = 3

(1.94)

Moyenne : µ Mediane : µ. Déviation Standard : σ. Coefficient d’applatissement : 0. Kurtosis : 3 La loi Normale Centrée Réduite représentée par sa densité sur la figure ??b, est donc symétrique. Le mode, la médiane et la moyenne sont nules. L’aplatissement γ = 3 est prise comme référence lorsqu’on veut comparer les autres lois statistiques à la loi Normale. Les tests d’hypothèses font fréquemment appel à la loi Normale Centré Réduite. C’est pourquoi il est important de connaître des ordres de grandeurs particulièrement fréquents. Ceux-ci sont résumés dans le tableau 1.1.

Approximation d’une loi binômiale par une loi normale Soit X une variable aléatoire qui suit une loi binômiale de paramètres m et p. On peut considérer que X = X1 + X2 + · · · + Xn où les Xi sont n variables aléatoires qui suivent une loi de Bernouilli de paramètre p. Ce sont donc n variables aléatoires indépendantes identiquement distribuées (même loi, de moyenne µ et √ converge en de variance σ 2 ). On déduit du théorème centrale limite que X−nµ σ n loi vers une Gaussienne. Autrement dit, pour n suffisamment p grand, on peut considérer que X suit une loi normale de paramètres np et np(1 − p). La qualité de l’approximation est meilleure lorsque p est proche de 21 . On considèrera qu’elle est valide si np ≥ 5 et n(1 − p) ≥ 5. Nous faisons ici l’approximation d’une variable aléatoire discrète par une variable aléatoire continue. Pour qu’elle soit valide, il faut lui donner un peu “d’épaisseur”. P (X = x0 ) en tant que variable aléatoire binômiale est approchée par la Gaussienne notée aussi X vérifiant 1 1 1 1 P (X ∈]x0 − , x0 + ]) = Φ(x0 + ) − Φ(x0 − ) 2 2 2 2

22CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE

Log(Distribution)

x

g(x)

P (|X| > x) en %

3.5

0.00087

0.05

3.0

0.0044

0.25

2.6

0.013

1.00

1.96

0.058

5.00

1.00

0.24

32.00

Table 1.1 – Valeurs remarquables de la distribution Normale Centrée Réduite. La distribution g(x)est représentée en échelle logarithmique pour rendre visible les queues de la distribution. Les aires colorées correspondent aux probabilités reportées dans la colonne P (|X| > x), aux différentes absices x.

1.5. ETUDE DE QUELQUES LOIS DE PROBABILITÉS CONTINUES UTILES POUR L’INTERPRÉTATION D

Figure 1.10 – Distribution du χ2 pour différentes valeurs du paramètre k. Quand k augmente, la distribution se décale vers la droite, s’applatie et approche une loi normale.

Pour simplifier les notations, le calcul a été fait dans le cas d’une Gaussienne centrée réduite, dans le cas général, il faut tenir compte du changement de variable en Φ( x−m σ ).

1.5.2

Loi du χ2

Il s’agit de la loi suivie par une variable aléatoire qui se décompose comme une somme de carrés de variables aléatoires indépendantes, chacune suivant une loi normale centrée réduite N (0, 1) (équation 1.95) [6]. Elle apparaît fréquemment, notemment quand il s’agit de calculer les écarts entre des estimations et les données expérimentales correspondantes. La loi du χ2 est donc utilisée dans les problèmes d’adéquation, c’est à dire lorsqu’il faut prouver que des valeurs expérimentales sont proches de valeurs modèles ou théoriques.

X=

X

Y 2 , Y ∼ N (0, 1)

(1.95)

Puisqu’il s’agit d’une somme de carrés de termes, cette distribution a pour support les nombres réels positifs ou nuls. Elle dépend d’un paramètre k, appelé degré de liberté qui correspond au nombre de termes de la somme. Quand ce 2 paramètre devient très grand, la loi √ du χ s’approche d’une loi Normale dont la moyenne est k et l’écart-type est 2k.

24CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE Paramètres statistiques

E(X) = k

(1.96)

V (X) = 2k √ σ(X) = 2k

(1.97) (1.98)

3

2

M3 (X) = k + 6k + 8k

(1.99)

κ3 (X) = 8k

(1.100)

µ3 (X) = 8k

(1.101)

4

3

2

M4 (X) = k + 12k + 44k + 48k

(1.102)

κ4 (X) = 48k

(1.103)

µ4 (X) = 12k(k + 4)

(1.104)

3(k + 4) r k 8 γ(X) = k

β(X) =

(1.105) (1.106)

Moyenne : k Mediane : 0. √ Déviation Standard : 2k. Coefficient d’applatissement : Kurtosis :

q

8 k.

3(k+4) k

Fractiles de la loi du χ2 Le risque α représente la surface sous la courbe de densité entre un absice noté χ2 (k, 1 − α) et l’infinis ou entre 0 et χ2 (k, α). Contrairement aux lois symétriques où les fractiles « à gauche »se déduisent au signe près des fractiles « à droite », ici les deux types de fractiles doivent être calculés.

1.5.3

Loi de Student

Pour traiter des tests d’hypothèses, il sera fréquemment fait appel une opération de standardisation consistant à diviser une estimation d’une moyenne par une estimation d’une déviation standard. La quantité calculée, considérée comme une variable aléatoire suit une loi dite loi t de Student [15]. Celle-ci se définis par le rapport de deux variables aléatoires : au numérateur, la première suit une loi Normale Centré Réduite et au dénominateur se trouve la racine carré de la seconde variable suivant une loi du χ2 . Elle hérite donc d’un paramètre, ν le nombre de degrés de libertés. Sa forme exacte est relativement compliquée. Elle a l’allure d’une fonction Gaussienne dont les queues s’applatissent plus doucement (Figure ??). A mesure que le paramètre ν prend une valeur élevée, la loi de Student tend vers la loi Normale (Figure ??). Lorsque ν devient très grand (en pratique lorsque ν > 40) la loi de Student est quasiment équivalente à la loi de Gauss.

1.5. ETUDE DE QUELQUES LOIS DE PROBABILITÉS CONTINUES UTILES POUR L’INTERPRÉTATION D

Figure 1.11 – Illustration des fractiles d’une loi du χ2 de paramètre k = 3.

Figure 1.12 – Distribution t de Student de paramètre ν = 1. La distribution normale est figurée en pointillés pour comparaison.

26CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE

Figure 1.13 – Distribution t de Student par différentes valeurs du paramètre ν = 1. La distribution normale est figurée en pointillés pour comparaison. Paramètres statistiques Les moments de la loi t de Student ne sont définis que si leur ordre est inférieur strictement au nombre de degrés de libertés ν. Dans les formules qui suivent, il faut donc que ν > 4. E(X) = 0

(1.107)

ν V (X) = ν−2 r ν σ(X) = ν−2 M3 (X) = 0

(1.108) (1.109) (1.110)

κ3 (X) = 0

(1.111)

µ3 (X) = 0

(1.112) 2

3∗ν ((ν − 4) ∗ (ν − 2)) 6 ∗ ν2 κ4 (X) = ((ν − 4) ∗ (ν − 2)2 ) 3 ∗ ν2 µ4 (X) = ((ν − 4) ∗ (ν − 2)) β(X) = 0

M4 (X) =

γ(X) = Moyenne : 0 Mediane : 0.

3 ∗ (ν − 2) ν−4

(1.113) (1.114) (1.115) (1.116) (1.117)

1.5. ETUDE DE QUELQUES LOIS DE PROBABILITÉS CONTINUES UTILES POUR L’INTERPRÉTATION D

Figure 1.14 – Illustration des fractiles d’une loi t de Student de paramètre ν = 5. Déviation Standard :

q

ν ν−2 .

Coefficient d’applatissement : Kurtosis : 0

3∗(ν−2) ν−4 .

Fractiles de la loi de Student Les valeurs des fractiles t(ν, α) et t(ν, 1−α) de la loi de Student sont données dans les tables statistiques. Aujourd’hui, ces tables sont accessibles dans des logiciels spécialisés et les plus courantes sont intégrés dans les tableurs tels que Excel ou LibreOffice. Puisque la loi est symétrique t(ν, α) = −t(ν, 1 − α) (Figure ??). La valeur t(ν, 1 − α) à ν constant augmente lorsque α diminue, mais à α constant les valeurs de t(ν, 1 − α) augmentent sensiblement lorsque ν diminue (voir figures ??et ??). Ceci s’explique facilement par l’augmentation de l’aplatissement de la courbe. En effet, plus une courbe est aplatie, plus il faut prendre une abscisse t(1 − α) R t(1−α) élevée pour que l’intégrale −∞ Tν (u)du (où Tν désigne la distribution t de Student) ait une valeur donnée. Ce comportement peut se traduire comme l’évolution de l’incertitude en fonction des connaissances acquise sur un sujet. Le nombre de degrés de liberté représente alors la quantité d’information acquise et t(ν, 1 − α), l’incertitude. Quand il y a peu d’information, l’incertitude est grande, elle diminue quand l’information augmente, mais elle ne devient jamais nule.

1.5.4

Loi de Fisher-Snédecor

C’est la loi d’une variable aléatoire continue appelée F dont la densité de probabilité dépend de deux paramètres k1 et k2 (des degrés de liberté). Elle est

28CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE

Figure 1.15 – Evolution des distributions de probabilité d’une loi de Fisher Snedecor quand (a) ν1 = 5 et ν2 ∈ [2, 10] et (b) ν1 =∈ [2, 10] et ν2 = 5.

suivie par une variable aléatoire qui est le rapport de deux variables aléatoire suivant une loi du χ2 et pondérée par leurs degrés de libertés respectifs 1.118. La loi est aussi appelée loi F (ou en anglais F-ratio) [4].

X=

Y1 /k1 Y2 /k2

(1.118)

Le loi est définie sur les nombres réels positifs ou nuls. Quand le nombre de degrés de libertés du dénominateur k2 est fixé, le mode de la distribution augmente avec le nombre de degrés de libertés du numérateur k1 , tandis que la distribution est plus étalée (figure ??(a)). Quand le nombre de degrés de libertés du numérateur k1 est fixé, le mode de la distribution augmente avec le nombre de degrés de libertés du dénominateur k2 , tandis que la distribution est plus resserée (figure ??(b)). La moyenne ne dépend que des degrés de liberté du dénominateur k2 .

Paramètres statistiques La variance d’une loi de Fisher-Snedecor n’est définie que si k2 > 4 et k1 > 0. Les moments d’ordre supérieurs à 2 ont des expression bien trop compliquées pour être reproduites ici. Par conséquent, la Kurtosis et le coefficient d’assymétrie ne sont pas non plus reproduits.

1.6. CE QU’IL FAUT RETENIR

29

k2 k2 − 2 2 ∗ k22 ∗ (k1 + k2 − 2) V (X) = (k1 ∗ (−2 + k2 )2 ∗ (k2 − 4)) s 2 ∗ k22 ∗ (k1 + k2 − 2) σ(X) = (k1 ∗ (−2 + k2 )2 ∗ (k2 − 4)) E(X) =

(1.119) (1.120) (1.121) (1.122)

2 Moyenne : k2k−2 k2 Mode : k1k−2 k2 −2 . 1

Déviation Standard :

q

2∗k22 ∗(k1 +k2 −2) (k1 ∗(−2+k2 )2 ∗(k2 −4)) .

Fractiles de la loi de Fisher-Snedecor Les tables donnent les valeurs des fractiles supérieurs F (k1 , k2 , 1 − α) pour une valeur donnée de α. C’est à dire que les deux entrées de la table sont k1 et k2 . Il y a des tables pour différents risque α = 0, 05 ou α = 0, 01. Ces tables sont incluses dans les logiciels et les tableurs les plus répandus tels que Excel et LibreOffice. Il existe une relation entre les fractiles qui en simplifie le calcul. F (k1 , k2 , α) =

1.6 — — — — — — — —

1 F (k2 , k1 , 1 − α)

(1.123)

Ce qu’il faut retenir Calcul de l’Espérance mathématique Calcul de la variance Variable centrée réduite Proprités d’additivité des l’esprance et de la variance Loi de Probabilité Fonction de répartition Fractiles Lois de Bernouilli, Binomiale, Poisson, Normale, χ2 , Student, FisherSnedecor

30CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE

Bibliographie [1] Niklaus Bernoulli, Johann Konrad von I Mechel, and Johann Konrad von I Mechel. Dissertatio inauguralis mathematico-juridica de usu artis conjectandi in jure. Typis Johannis Conradi à Mechel, 1709. [2] Abraham De Moivre. Miscellanea analytica de seriebus et quadraturis. 1730. [3] Yves Derriennic. Pascal et les problemes du chevalier de méré. Gazette des mathématiciens, 97 :45–71, 2003. [4] Ronald Aylmer Fisher et al. On a distribution yielding the error functions of several well known statistics. In Proceedings of the international congress of mathematics, volume 2, pages 805–813, 1924. [5] Carl Friedrich Gauss. Theoria motus corporum coelestium in sectionibus conicis solem ambientium auctore Carolo Friderico Gauss. sumtibus Frid. Perthes et IH Besser, 1809. [6] Friedrich Robert Helmert. Über die wahrscheinlichkeit der potenzsummen der beobachtungsfehler. Z. Math. u. Phys, 21 :192–218, 1876. [7] Christiaan Huygens. De ratiociniis in ludo aleae. Ex officinia J. Elsevirii, 1657. [8] Statistics – Vocabulary and symbols – Part 1 : General statistical terms and terms used in probability, 2006. [9] Statistics – Vocabulary and symbols – Part 2 : Applied statistics, 2006. [10] Statistics – Vocabulary and symbols – Part 3 : Design of experiments, 1999. [11] Laplace, Pierre Simon, and de Marquis. Essai philosophique sur les probabilités, 1814. [12] Pierre Simon marquis de Laplace. Théorie analytique des probabilités. V. Courcier, 1820. [13] Norbert Meusnier. Argumentation et démonstration de la loi des grands nombres dans la démonstration mathématique dans l’histoire. In IREM, editor, Actes du colloque Inter-Irem de Besançon, La démonstration mathématique dans l’histoire, Besançon, pages 89–97. IREM, 1989. [14] Siméon Denis Poisson and Christian Heinrich Schnuse. Recherches sur la probabilité des jugements en matière criminelle et en matière civile. Meyer, 1841. [15] Student. The probable error of a mean. Biometrika, pages 1–25, 1908.

31

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF