Cours d`introduction aux Probabilités - IMJ-PRG

January 15, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Cours d`introduction aux Probabilités - IMJ-PRG...

Description

Cours d’introduction aux Probabilités C. Fiszka, Université Paris VII

Cette note résume le cours de Probabilités donné à Polytech’ en 2013 à la section ST.

Table des matières 1 Bases des probabilités 1.1 Intérêts des probabilités . . . . . . . . . . 1.2 Axiomatique de Kolmogorov . . . . . . . . 1.2.1 Vocabulaire . . . . . . . . . . . . . 1.2.2 Une mesure de probabilité . . . . . 1.3 Le cas d’équiprobabilité . . . . . . . . . . 1.4 Probabilités conditionnelles, indépendance 1.4.1 Probabilité conditionnelle . . . . . 1.4.2 Indépendance stochastique . . . . 1.4.3 Formule de Bayes . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

2 2 3 3 4 5 6 6 6 6

2 Variables aléatoires réelles 2.1 Loi de probabilité d’une v.a.r . . . . . . . . . 2.1.1 Définition d’une v.a.r . . . . . . . . . 2.1.2 Loi de probabilité . . . . . . . . . . . 2.2 Fonction de répartition . . . . . . . . . . . . . 2.3 Définition d’une variable aléatoire discrète . . 2.4 Définition d’une variable aléatoire continue . 2.5 Quantiles . . . . . . . . . . . . . . . . . . . . 2.6 V.a de loi ϕ(X) . . . . . . . . . . . . . . . . . 2.7 Indépendance de variable aléatoire . . . . . . 2.8 Espérance, moments . . . . . . . . . . . . . . 2.8.1 Définition et propriétés de l’espérance 2.8.2 Définition et propriétés des moments . 2.8.3 Inégalité de Bienaymé-Tchebyshev . . 2.9 Lois usuelles discrètes . . . . . . . . . . . . . 2.9.1 Loi uniforme U[[a,b]] . . . . . . . . . . . 2.9.2 Loi de Bernoulli B(1, p) . . . . . . . . 2.9.3 Loi Binomiale B(n, p) . . . . . . . . . 2.9.4 Loi de Poisson P(λ) . . . . . . . . . . 2.9.5 Loi géométrique . . . . . . . . . . . . 2.9.6 Loi hypergéométrique . . . . . . . . . 2.10 Lois usuelles continues . . . . . . . . . . . . . 2.10.1 Loi uniforme U[a,b] . . . . . . . . . . . 2.10.2 Loi exponentielle E(λ) . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

7 7 7 7 8 8 8 9 10 10 10 10 11 12 12 12 12 12 13 13 13 14 14 14

1

. . . . . . . . .

2.10.3 Loi normale N (µ, σ) . . . . . . . . . 2.11 Convolution, loi d’une somme . . . . . . . . 2.11.1 Qu’est ce qu’une convolution ? . . . 2.11.2 Propriétés du produit de convolution 2.11.3 Somme de v.a.r . . . . . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

14 15 15 15 15

3 Fonctions caractéristiques et convergences de variables aléatoires 3.1 Fonctions caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . 3.1.3 Exemples usuels et applications . . . . . . . . . . . . . . . . . . 3.2 Convergences de variable aléatoire . . . . . . . . . . . . . . . . . . . . 3.2.1 Convergence presque-sûrement, en probabilité et quadratique . 3.2.2 Convergence en Loi . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3 Liens entre ces différentes convergences . . . . . . . . . . . . . 3.3 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Loi faible des grands Nombres . . . . . . . . . . . . . . . . . . 3.3.2 Méthode de Monte-Carlo . . . . . . . . . . . . . . . . . . . . . 3.3.3 Loi forte des grands Nombres . . . . . . . . . . . . . . . . . . . 3.4 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 La Planche de Galton . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Le théorème de De Moivre-Laplace . . . . . . . . . . . . . . . . 3.4.3 Le théorème central limite . . . . . . . . . . . . . . . . . . . . . 3.5 Exemples d’intervalle de confiance . . . . . . . . . . . . . . . . . . . . 3.6 Autres théorèmes de convergence . . . . . . . . . . . . . . . . . . . . . 3.7 Complément : le lemme de Borel-Cantelli . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . .

16 16 16 16 17 17 17 18 18 19 19 19 19 20 20 20 21 21 23 23

réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24 24 25 26

4 Couples de variables aléatoires 4.1 Fonctions de répartition . . . 4.2 Lois conjointes et marginales 4.3 Covariance et correlation . . . 5 Compléments 5.1 Fonctions génératrices . . 5.2 Espérances conditionnelles 5.3 Chaînes de Markov . . . . 5.4 Entropie (de Shannon) . .

1

. . . . . . . . . et Martingales . . . . . . . . . . . . . . . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

Bases des probabilités

1.1

Intérêts des probabilités

Des applications nombreuses : – Vie quotidienne (temps d’attente à une caisse...) – Aux statistiques (sondages d’opinion...) – Théorie des jeux (estimation chances de gain...) – Économie/Finance (prévision de l’évolution du marché...) – Automatisme (dans la prise de décision...) – Physique (mécanique statistique)... – Biologie (mouvement brownien d’une particule de pollen...)

2

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

26 27 27 27 28

– Branche importante des Mathématiques (W.Werner médaille Fields 06, nouveaux types d’énoncés valables presque partout...) – etc... −•−

1.2

Axiomatique de Kolmogorov

Exemple historique : « le grand scandale » du Chevalier de Méré Le chevalier de Méré est un noble et écrivain français très amateur de jeu d’argent. Contemporain de Blaise Pascal, il s’opposa à ce dernier sur un problème de jeu de dés : Jeu 1 : Sur un lancer de 4 dés, le chevaliergagne si au moins un "6" apparaît. Jeu 2 : On lance 24 fois une paire de dés et il gagne si un "double 6" apparaît. A la grande surprise du chevalier, le second jeu n’est pas favorable alors que le premier l’est. Ce problème, et d’autres, seront résolus par Pascal et Fermat dans une série de 5 lettres de 1651 à 1654. Je n’ai pas eu le temps de vous envoyer la démonstration d’une difficulté qui étonnait fort M. de Méré, car il a très bon esprit, mais il n’est pas géomètre (c’est, comme vous savez, un grand défaut) (...) je n’ai jamais pu l’en tirer. Si vous pouviez le faire, on le rendrait parfait. Extrait de la lettre du 29 juillet 1654 de Pascal à Fermat mentionnant le problème du chevalier de Méré.

−•−

1.2.1

Vocabulaire

Andreï Kolmogorov (1903-1987) est un mathématicien soviétique et russe. Il est l’auteur de nombreux résultats dans des domaines très variés : probabilité, topologie, systèmes dynamiques (théorie K.A.M)... – En 1933 – Manuel des Fondements de la théorie des probabilités, en allemand Grundbegriffe der Wahrscheinlichkeitsrechnung. • Partons d’une « expérience aléatoire » : – L’ensemble des issues possibles sera appellé l’univers des possibles. On le note Ω. Attention : il existe plusieurs choix possibles de Ω. – Un évenement est une partie de Ω. −•−

3

Langage probabiliste Issue Événement A A est réalisé Événement contraire (non-A) A et B A ou B Événements incompatibles A implique l’événement B Événement impossible Événement certain Système complet d’événements An

Notation ω (ω ∈ Ω) A ⊂ Ω (A ⊂ Ω) ω∈A A=Ω\A A∩B A∪B A∩B =∅ A⊂B ∅ Ω S Ω = n An et Ai ∩ Aj = ∅

Langage ensembliste élément de Ω partie de Ω complémentaire intersection union inclusion ensemble vide espace entier partition

Dans le cas du premier jeu du chevalier de Méré, on a par exemple 4

Ω1 = {1, . . . , 6} ⊂ R4 ,

ω = (1, 2, 2, 6),

Ai : "le premier lancer est i"

−•−

– Une tribu (ou algèbre des événements) est la donnée de E ⊂ P(Ω) tels que : – Ω ∈ E. – Stabilité par le complémentaire. – Stabilité par union finie ou dénombrable. – Un espace probabilisable est la donnée d’un couple (Ω, E) avec : – Ω un univers des possibles. – E une tribu des événements sur Ω. Remarque : dans le cas où Ω est un ensemble fini, on choisira en général E = P(Ω)

−•−

1.2.2

Une mesure de probabilité

Soit (Ω, E) un espace probabilisable. • Une probabilité est une application P telle que – P : E → [0, 1] – P(Ω) = 1 – Pour toute suite finie ou dénombrable d’événements deux à deux incompatibles, on a : ! [ X P An = P(An ) n∈I

n∈I

• Un espace probabilisé est la donnée d’un triplet : (Ω, E, P) – espace probabilisable (Ω, E) – P une probabilité sur E. −•−

Deux cas particuliers vont concentrer notre attention :

4

– Le cas fini où la probabilité est une somme pondérée de Dirac  X 1 si x ∈ A P= pi δxi où δx (A) = 0 si x ∈ /A i∈I

– Le cas absolument continu par rapport à la mesure de Lebesgue. Z P(A) = f (x) dx A

Dans toute la suite, nous nous limiterons à l’étude de ces deux cas. Le cadre général suppose des notions de théorie de la mesure, une probabilité étant une mesure de masse totale 1 (µ(Ω) = 1). Remarque* : considérons le cas où Ω = [0, 1] muni de la mesure de Lebesgue, on ne peut choisir directement E = P(Ω) à l’instar du cas fini. En effet, même si elles sont "exeptionnelles", il existe des parties de [0, 1] qui ne sont pas mesurables (pour la mesure de Lebesgue). C’est une des raisons à l’introduction de la notion de tribu... Exemple : dans ce cas, tout singleton est de mesure nulle. Par suite, la propriété d’additivité permet d’affirmer que P(Q) = 0. Autrement dit, lorsqu’on l’on choisit au hasard (et uniformement) un nombre dans [0, 1], on a bien aucune chance de tomber sur un nombre rationnel. −•−

1.3

Le cas d’équiprobabilité

• Soit Ω de cardinal fini. On dira qu’il y a équiprobabilité dans le cas où tous les événements élémentaires ont même probabilité. Si Ω = {ω1 , ω2 , . . . , ωn } ⇒ P(ωj ) =

1 n

ou encore ∀A ∈ E : P(A) =

Card(A) nombre cas favorables = Card Ω nombre cas possibles −•−

Rappels en combinatoire : – Nombre de permutations d’un ensemble à n éléments : n! – Nombre de p-uplets d’un ensemble à n éléments : np – Nombre de p-arrangements d’un ensemble à n éléments : Apn :=

n! = n(n − 1) . . . (n − p + 1) (n − p)!

– Nombre de parties d’un ensemble à n éléments : 2n – Nombre de parties à k éléments d’un ensemble à n éléments :   n! n := k k!(n − k)! – Rappelons aussi la formule du binôme de Newton : n   X n k n−k n (a + b) = a b k k=0

−•−

5

1.4 1.4.1

Probabilités conditionnelles, indépendance Probabilité conditionnelle

Soit (Ω, E, P ) un espace probabilisé et A un événement possible (P(A) 6= 0). – L’application :   E → [0, 1] P(A ∩ B) PA :  B 7→ PA (B) = P(A) est une probabilité sur (Ω, E) appelée probabilité conditionnelle. – On note aussi PA (B) = P(B | A). – Si (An )n∈I définit un système complet alors : P(B) =

X

P(An )P(B | An )

n∈I

C’est la formule des probabilités totales. −•−

1.4.2

Indépendance stochastique

– Deux événements sont dits indépendants si : P(A ∩ B) = P(A)P(B) Ou encore PA (B) = P(B). – n événements sont dits mutuellement indépendants si pour toute partie non vide I de [[1, n]] : ! \ Y P Ai = P(Ai ) i∈I

i∈I

Conclusion sur le problème du chevalier de Méré : nous pouvons faire l’hypothèse de l’indépendance de chaque lancer de dés. Sachant que les probabilités d’un "6" sur le lancer d’un dé et d’un "double 6" sur une paire de dés sont respectivement 1/6 et 1/36. On trouve !4 !24 1 1 1 1 Jeu 1 : p1 = ' 0.52 > Jeu 2 : p2 = ' 0.49 < 6 2 36 2 Contrairement à l’intuition du Chevalier, le premier jeu est favorable alors que le second ne l’est pas. −•−

1.4.3

Formule de Bayes

Théorème 1.

– Pour tous événements possibles A, B :

P(A)P(B | A) P(B) – Si (Aj )j désigne un système complet d’événements possibles et B un événement possible, alors P(A | B) =

P(Ak )P(B | Ak ) P(Ak | B) = P j P(Aj )P(B | Aj ) Rappel : un événement A est possible si P(A) > 0. −•−

6

2

Variables aléatoires réelles

2.1

Loi de probabilité d’une v.a.r

Le paradoxe de Bertrand (1888) Soit C un cercle de rayon 1. Quelle est√ la probabilité qu’une corde du cercle, choisie au hasard, possède une longueur supérieure à 3 ?

Que vaut la probabilité ? 1 3

ou

1 4

Le côté d’un triangle équilatéral inscrit dans ce cercle a pour longueur



3.

C’est un exemple de problème mal-posé : la distribution du milieu de la corde est différente dans chacun des cas. Certes on choisit au hasard, mais suivant quelle loi ? −•−

2.1.1

Définition d’une v.a.r

Soit (Ω, E, P) un espace probabilisé, une variable aléatoire réelle est une application :  Ω → R X: ω 7→ X(ω) ayant la propriété suivante : l’image réciproque de tout intervalle de type ]a, b] est un élément de la tribu E. ∀a < b,

X −1 (]a, b]) ∈ E

Remarque : notons qu’une variable aléatoire n’a finalement rien d’aléatoire : c’est une application parfaitement déterminée ! C’est un abus de langage, ce qui est aléatoire c’est X(ω) et non X. −•−

2.1.2

Loi de probabilité

Soit (Ω, E, P) un espace probabilisé et X une variable aléatoire réelle. On appelle loi de probabilité de X la probabilité, notée PX , image de P par X :  PX (]a, b]) = P X −1 (]a, b]) Remarque : on utilisera les notations suivantes : P(X ∈ A) := P({ω ∈ Ω | X(ω) ∈ A}) P(X = k) := P({ω ∈ Ω | X(ω) = k}) −•−

7

2.2

Fonction de répartition

Soit (Ω, E, P) un espace probabilisé et X une variable aléatoire réelle. La fonction de répartition de X est la donnée de :  R → [0, 1] FX : y 7→ PX (] − ∞, y]) Quelques propriétés : – la fonction est croissante et continue à droite. – lim F = 1 et lim F = 0. +∞

−∞

– pour tout a < b PX (]a, b]) = FX (b) − FX (a) – Une fonction de répartition caractérise la loi. −•−

2.3

Définition d’une variable aléatoire discrète

Rappelons que X(Ω) := {X(ω) | ω ∈ Ω} Définition 1. On dit qu’une variable aléatoire est discrète lorsque X(Ω) est fini ou dénombrable. Remarques et exemple – Si Ω est fini ou dénombrable, X est une v.a discrète. – Pour connaitre la loi, il suffit de la connaître sur les singletons {x} car X P(X ∈ I) = P(X = x) x∈I

– La Loi de Bernoulli P(X = 1) = p

et P(X = 0) = 1 − p = q

– Loi uniforme discrète P(X = k) =

1 n

−•−

2.4

Définition d’une variable aléatoire continue

Définition 2. – Une densité de probabilité est une fonction positive d’intégrale 1. – Soit X une v.a.r et fX une densité de probabilité sur R. On dit que X est v.a continue de densité fX si pour tout intervalle [a, b] de R on a : Z b P(X ∈ [a, b]) = fX (t) dt a

La fonction de répartition d’une variable aléatoire continue est la primitive de la densité dont la limite en −∞ est nulle. Z t FX (t) = P(X 6 t) = fX (u) du −∞

C’est une fonction continue sur R. En tout point t où fX est continue, FX est dérivable et d FX (t) = fX (t) dt

8

Remarque. La formule précédente est encore vraie pour les variables aléatoires discrètes à la condition toutefois de considérer la dérivée au sens des distributions. Par exemple, pour la Loi de Bernoulli FX (t) = q H(t) + p H(t − 1) ⇒ [FX ]0 = q δ0 + p δ1 où H désigne la fonction de Heaviside.

Interprétation graphique :

−•−

Exemples de v.a continues : – Loi uniforme continue fX =

1 1[a,b] b−a

– Loi normale centrée réduite N (0, 1) : 1 2 fX (t) = √ e−t /2 2π −•−

2.5

Quantiles

Définition 3. On appelle p-quantiles pour p ∈ N∗ , les valeurs xk,p pour lesquelles F (xk,p ) =

k , p

k ∈ [[1, p[[

Remarques : – Pour p = 2, on parle de médiane ; – Les 3-quantiles sont appelés terciles ; – Les 10-quantiles sont appelés déciles... – Il n’y a pas unicité de xk,p . Pour avoir unicité, on peut poser :   k xk,p = g p où g est l’inverse généralisé de la fonction de répartition FX : g(u) := inf{x ∈ R | FX (x) > u} −•−

9

2.6

V.a de loi ϕ(X)

Supposons connue la loi de X (de densité fX ), on veut déterminer la loi de Y = ϕ(X). – Cas où ϕ est strictement croissante dérivable. FY (y) = P[Y 6 y] = P[ϕ(X) 6 y] = P[X 6 ϕ−1 (y)] = FX (ϕ−1 (y)) La densité correspondante est : fY (y) =

d 1 FY (y) = 0 −1 fX (ϕ−1 (y)) dy ϕ (ϕ (y))

– Dans le cas général, il faut étudier les ensembles ϕ−1 (] − ∞, y])... −•−

Exemples :Supposons que X ∼ N (0, 1) – ϕ une fonction affine ϕ(t) = σt + µ. ⇒

Y ∼ N (µ, σ)

– ϕ la fonction carrée ϕ(t) = t2 . ⇒

1 1 1 fY (y) = √ √ e− 2 y 1R+∗ (y) y 2π

est la loi du chi-deux à 1 degré de liberté X 2 (1). −•−

2.7

Indépendance de variable aléatoire

Définition 4. X et Y sont indépendantes si pour tout couple (I, J) d’intervalles de R, on a : P ( (X ∈ I) ∩ (Y ∈ J) ) = P(X ∈ I) × P(Y ∈ J) Exercice : Donner un exemple et un contre-exemple dans le cas d’un lancer d’une paire de dés. −•−

2.8 2.8.1

Espérance, moments Définition et propriétés de l’espérance

Soit X une variable aléatoire réelle, l’espérance mathématique de X est (si elle existe) définie par : – si X est une v.a.r discrète finie ou dénombrable X E(X) = x P(X = x) x∈X(Ω)

– si X est une v.a.r à densité fX : Z t fX (t) dt

E(X) = R

−•−

10

Soient X1 et X2 deux v.a.r et λ ∈ R, alors – (Linéarité) E(X1 + λX2 ) = E(X1 ) + λE(X2 ) – (Positivité) |E(X)| 6 E(|X|) – Si X1 et X2 sont indépendantes : E(X1 × X2 ) = E(X1 ) × E(X2 ) – Pour tout A ∈ E : P(X ∈ A) = PX (A) = E(1A (X)) – Pour une fonction h : R 7→ R E(h(X)) =

  

P

h(x) P(X = x)

en discret

x∈X(Ω)

R R

h(t)fX (t) dt

en continu

C’est la formule de transfert. −•−

2.8.2

Définition et propriétés des moments

Soit X une variable aléatoire réelle, – le moment d’ordre s de X est (s’il existe) défini par ms (X) := E(X s ) – si X est une v.a.r discrète finie ou dénombrable X ms (X) = xs P(X = x) x∈X(Ω)

– si X est une v.a.r à densité f : Z ms (X) :=

ts f (t) dt

R

– La variance est donnée par :  Var(X) = E (X − E(X))2 > 0 – L’écart type est donné par : σX =

p

Var(X)

−•−

Soient X1 et X2 deux v.a.r et a ∈ R, alors – Var(aX + b) = a2 Var(X) – Si X1 et X2 sont indépendantes : Var(X1 + X2 ) = Var(X1 ) + Var(X2 ) 2

– Var(X) = E(X 2 ) − E(X)2 = m2 (X) − m1 (X) . −•−

11

2.8.3

Inégalité de Bienaymé-Tchebyshev

Théorème 2 (Inégalité de Markov et de Bienaymé-Tchebyshev). alors : E(Z) ∀ε > 0, P(Z > ε) 6 ε

– Soit Z une v.a positive,

– Soit X une v.a.r admettant un moment d’ordre 2 (E(X 2 ) < +∞) alors : ∀ε > 0,

P(|X − E(X)| > ε) 6

2 σX ε2

Preuve : il faut remarquer que Z > ε1{Z>ε} , puis prendre Z = |X − E(X)|. −•−

2.9 2.9.1

Lois usuelles discrètes Loi uniforme U[[a,b]]

Définition :

 

X(Ω)

=

 P(X = k)

=

Caractéristiques : E(X) =

[[a, b]] 1 n

n+1 2



= b−a+1

n

V (X) =

n2 − 1 12

Modélisation : Tirage au hasard d’une boule numérotée dans une urne comptant n boules notées de 1 à n. −•−

2.9.2

Loi de Bernoulli B(1, p)

Définition :

  

X(Ω)

P(X = 1)   P(X = 0)

= {0, 1} = p = 1−p=q

Caractéristiques : E(X) = p

V (X) = pq

Modélisation : pour p = 1/2, lancer d’une pièce équilibrée. −•−

2.9.3

Loi Binomiale B(n, p)

( Définition :

X(Ω) P(X = k)

[[0, n]]  = nk pk (1 − p)n−k

=

Caractéristiques : E(X) = np

V (X) = npq

Modélisation : Expérience de n épreuves de Bernoulli indépendantes.

12

source : wiki −•−

2.9.4

Loi de Poisson P(λ)

Définition :

  

X(Ω)

= N

  P(X = k)

=

e−λ

Caractéristiques : E(X) = λ

λk k!

V (X) = λ

Modélisation : Événement rare, temps d’attente à une caisse, appel téléphonique etc...

source : wiki −•−

2.9.5

Loi géométrique (

Définition :

X(Ω) P(X = k)

= N =

(1 − p)k−1 p

1 p

V (X) =

Caractéristiques : E(X) =

q p2

Modélisation : Temps du premier échec. Modèle discret de la désintégration d’une particule radioactive (loi sans mémoire). −•−

2.9.6

Loi hypergéométrique

Soit p ∈ [0, 1], pA ∈ N et n 6 A.   X(Ω) = [[0, n]]    qA  pA Définition : k n−k     P(X = k) = A n

13

Caractéristiques : E(X) = npq

V (X) = npq

A−n A−1

Modélisation : Tirage simultané. −•−

2.10 2.10.1

Lois usuelles continues Loi uniforme U[a,b]

Définition :

   X(Ω)

= R

  f (x)

=

Caractéristiques : E(X) =

1 1[a,b] (x) b−a a+b 2

V (X) =

(b − a)2 12

Modélisation : Choix d’un point au hasard sur [a, b]. −•−

2.10.2

Loi exponentielle E(λ)

 Définition :

X(Ω) = R+ fλ (x) = λe−λx 1R+ (x) ∗

Caractéristiques : E(X) =

1 λ

V (X) =

1 λ2

Modélisation : Processus sans mémoire, désintégration atomique (datation au carbone 14). −•−

2.10.3

Loi normale N (µ, σ)

Définition :

  

X(Ω)

  fµ,σ (x)

= R =

1 − √ e σ 2π

(x − µ)2 2σ 2

V (X) = σ 2

Caractéristiques : E(X) = µ

Modélisation : Très importante en statistique (cf le théorème central limite). −•−

Remarque : comment lire une table de la loi normale ? u

0,00

0,01

0,02

...

0,0

0,500

0,504

0,508

...

0,1

0,539

0, 543

0,547

...

0,2 .. .

0,579

0,583

0,587

...

14

Exemple : pour u = 0, 11 = 0, 1 + 0, 01 ⇒ F (u) = P (X 6 u) ' 0, 543 Il n’existe pas de formule simple utilisant les fonctions usuelles (cos, exp, ln ...) pour calculer la fonction de répartion de la loi Normale. D’où le recours à ce genre de tables... −•−

2.11 2.11.1

Convolution, loi d’une somme Qu’est ce qu’une convolution ?

– Cas fonctionnel : soient deux fonctions g, f : R 7→ C. Le produit de convolution noté f ∗ g est défini (sous réserve de convergence) par : Z +∞ Z +∞ (f ∗ g)(x) = f (x − t) · g(t)dt = f (t) · g(x − t)dt −∞

−∞

– Cas discret : soient deux suites u, v : N 7→ C. Le produit de convolution noté u ∗ v est défini (sous réserve de convergence) par : (u ∗ v)(n) =

∞ X

u(n − m) · v(m) =

m=−∞

∞ X

u(m) · v(n − m)

m=−∞

Donnons deux cas de convergence : – les fonctions sont à supports compacts, – g bornée et f ∈ L1 (R). −•−

2.11.2

Propriétés du produit de convolution

Soient f, g et h trois fonctions et λ ∈ R : – (Linéarité) f ∗ (g + λh) = f ∗ g + λf ∗ h – (Commutativité) f ∗ g = g ∗ f – Lien avec les distributions : δ0 ∗ f = f avec δ0 la masse de Dirac en 0. – Lien avec la transformée de Fourier : F(f ∗ g) = F(f ) · F(g) −•−

2.11.3

Somme de v.a.r

Proposition 1. Soient X, Y deux variables aléatoires discrètes indépendantes, la loi de la somme X + Y est donnée pour tout z ∈ N par : P P(Z = z) = x P(X = x) × P(Y = z − x) P = y P(Y = y) × P(X = z − y) Exemples : – Donner la loi de la somme de deux v.a indépendantes suivant respectivement une loi P(λ) et P(µ). – Donner la loi de la somme de deux v.a indépendantes suivant respectivement une loi B(n, p) et B(m, p). −•−

15

Proposition 2. Soient X, Y deux variables aléatoires indépendantes à densité fX et fY , la somme X + Y est une v.a à densité donnée par : fX+Y = fX ∗ fY Exemple : – Donner la loi de la somme de deux v.a indépendantes suivant respectivement une loi N (µ, σ) et N (µ0 , σ 0 ). Indication : pour le calcul de la somme, on pourra passer par la transformée de Fourier de la Gaussienne (qui est encore une fonction de type Gaussien) et utiliser le fait qu’une convolution revient à un produit dans le domaine de Fourier... −•−

3

Fonctions caractéristiques et convergences de variables aléatoires

3.1 3.1.1

Fonctions caractéristiques Définition

La fonction caractéristique de la variable aléatoire X est : ρX (t) := E(eitX ) – pour X une v.a. discrète, on a : X

ρX (t) =

eitx P(X = x)

x∈X(Ω)

– pour X une v.a continue de densité fX , on a : Z ρX (t) = eitu fX (u) du R

Remarque : dans le second cas, on reconnait une transformée de Fourier inverse de la fonction densité fX . −•−

3.1.2

Premières propriétés

– ρX est continue sur R et majorée par ρX (0) = 1. – ρaX+b (t) = eibt ρX (at). – Si X et Y sont indépendants alors : ρX+Y = ρX ρY Lien avec les moments – Si E(X s ) < +∞ pour s ∈ N∗ alors : (s)

ρX (0) = is E(X s ) – En particulier : E(X) = −iρ0X (0),

00 V ar(X) = ρ02 X (0) − ρX (0)

−•−

16

3.1.3

Exemples usuels et applications

Soient X et Y deux v.a.r. ρX = ρY

si

alors

PX = PY

La fonction caractéristique caractérise la loi d’une v.a.r.

Exercice : Trouver la loi de X + Y − Z où X ∼ N (0, 1), Y ∼ N (0, 2) et Z ∼ N (1, 3) (les variables sont indépendantes). −•−

Pour a, b, n ∈ N, λ ∈ R+ ∗ et p ∈ [0, 1] – Si X ∼ U([[a, b]]), alors ρX (t) =

b−a eiat X eikt b−a+1 k=0

– Si X ∼ B(n, p), alors ρX (t) = (q + peit )n – Si X ∼ P(λ), alors ρX (t) = exp(λ(eit − 1)) – Si X ∼ G(p), alors peit 1 − q eit

ρX (t) = −•−

Pour a, b, µ ∈ R et λ, σ ∈ R+ ∗ – Si X ∼ U([a, b]), alors eitb − eita it(b − a)

ρX (t) = – Si X ∼ E(λ), alors

 1−

ρX (t) =

it λ

−1

– Si X ∼ N (µ, σ), alors σ 2 t2 ρX (t) = exp µit − 2 



−•−

3.2 3.2.1

Convergences de variable aléatoire Convergence presque-sûrement, en probabilité et quadratique

On dira que X et Y deux v.a sont égales presque-partout si P(ω t.q X(ω) 6= Y (ω)) = 0

17

Définition 5 (Les convergences).

– (Xn )n converge presque sûrement vers X si P(ω t.q lim Xn (ω) 6= X(ω)) = 0 n

– La suite (Xn )n converge en probabilité vers X si pour tout ε > 0, on a : lim P(|Xn − X| > ε) = 0

n→∞

– On a une convergence quadratique de (Xn )n vers X si : lim E((Xn − X)2 ) = 0

n→∞

−•−

3.2.2

Convergence en Loi

Définition 6. (Xn )n converge en loi vers X si les fonctions de répartition de Xn converge vers la fonction de répartition de X en tout point de continuité de cette dernière. – pour des v.a discrètes convergent vers une v.a discrète : ∀x ∈ R,

lim P(Xn = x) = P(X = x)

n→∞

– pour des v.a. à densité fXn vers une v.a à densité fX ∀t ∈ R,

fXn (t) −→ fX (t) n→∞

Théorème 3 (de Levy). Loi

Xn −→ X

si et seulement si

simpl.

ρXn −→ ρX

où ρn (t) = E[eitXn ] et ρ(t) = E[eitX ] simpl.

Le symbole −→ signifiant qu’il y a convergence simple ou encore point par point : ∀ t ∈ R,

ρXn (t) −→ ρX (t) n→+∞

−•−

3.2.3

Liens entre ces différentes convergences

Convergence presque sûrement P(ω t.q lim Xn (ω) 6= X(ω)) = 0 n

⇓ Convergence en probabilité ∀ε > 0,

lim P(|Xn − X| > ε) = 0

n→∞

⇓ Convergence en loi lim P (Xn ∈ A) = P (X ∈ A) 1

n→∞

−•− 1. Pour tout A ∈ E dont la frontière ∂A vérifie P (X ∈ ∂A) = 0.

18

3.3 3.3.1

Lois des grands nombres Loi faible des grands Nombres

Théorème 4 (Loi faible des grands Nombres). Soit Xi une suite v.a.r indépendantes et de même loi. Si de plus E(Xi2 ) < +∞, alors : n

Xn =

1X P roba. Xi −→ E(X1 ) n i=1

Remarque : preuve via Bienaymé-Tchebyshev. Application au Théorème de Bernoulli : Lorsque le nombre d’expériences aléatoires augmentent indéfiniment, la fréquence d’apparition Fn (A) de l’événement A converge en probabilité vers sa probabilité théorique p = P(A). ∀ε > 0,

lim P(|Fn (A) − p| > ε) = 0 n

−•−

3.3.2

Méthode de Monte-Carlo

Tirons des points uniformément dans un carré [0, 1]2 . Soit Xi une v.a valant 1 si le i-ème point tiré est dans le quart de disque et 0 sinon. On a P(Xi = 1) = π/4.

On s’attend à Fn =

Nombre de points dans le quart de disque Nombre de points tirés

'

π 4.

Plus généralement, on parle de Méthode de Monte-Carlo. Le véritable développement des méthodes de Monte-Carlo s’est effectué pendant le Projet Manhattan conduisant à la fabrication de la bombe atomique... −•−

3.3.3

Loi forte des grands Nombres

Théorème 5 (Loi forte des grands Nombres ). Soit Xi une suite v.a.r indépendantes et de même loi. Si de plus E(Xi2 ) < +∞. Alors : n

Xn =

1X p.s Xi −→ E(X1 ) n i=1 Principe Shadok : Plus ça rate, et plus on a de chances que ça marche. Exemple : Ils avaient calculé que leur fusée avait une chance sur un million de décoller, ils se sont donc dépêchés de rater les 999 999 premiers essais pour être sûrs que le millionième soit le bon.

19

−•−

3.4 3.4.1

Théorème central limite La Planche de Galton

La planche de Galton est un dispositif inventé par Francis Galton illustrant la convergence d’une loi Binomiale vers une loi Normale. On lance plusieurs billes sur une planche inclinée recouverte de clous. On constate alors que la repartition des billes prend l’allure d’une courbe en cloche : la Gaussienne.

Partons de X0 = 0. On définit Xi une v.a représentant la direction prise par la boule au i-ème étage (−1 pour gauche, +1 pour droite). La loi de X est P(Xi = −1) = P(Xi = 1) = 21 . La position n P de la bille à la fin est donnée par S = Xi . De plus les Xi sont indépendants. i=1

−•−

3.4.2

Le théorème de De Moivre-Laplace

Théorème 6 (de De Moivre-Laplace). Soit Sn une suite de v.a de loi Binomiale B(n, p), alors : Sn − np Loi −→ N (0, 1) √ npq – Principe de l’approximation, P

Sn − np 6t √ npq

! ' FN (0,1) (t)

avec F la fonction de répartition de la loi normale centrée réduite. – Meilleure approximation par « correction de continuité ». −•−

Mise en pratique : les sondages – Le modèle : on considère une population de N individus et on sonde n personnes avec n  N . Supposons que 45% des gens soient pour, le reste étant contre. On fait aussi l’hypothèse (peu réaliste) que le choix de chacun est indépendant des autres. – Questions : Q1 : Quelle est la probabilité pour que le sondage soit favorable ? Pour n = 10, n = 100 et n = 1000. Q2 : Combien de sondage faut-il faire pour en avoir au moins un favorable dans 95% des cas ?

20

Remarque. D’après le calcul précedent, il est très possible d’obtenir des sondages favorables en multipliant leurs nombres. Malheuresement ces derniers sont souvent surexposés et analysés comme un « changement de l’opinion public » alors qu’ils n’ont qu’une réalité statistique...

Solution. n

Loi Binomiale

Théorème De Moivre-Laplace

Correction de continuité

n = 10

n = 100

n = 1000

−•−

3.4.3

Le théorème central limite

Théorème 7 (central limite). Soit (Xn )n une suite de variables aléatoires indépendantes de même loi d’espérance µ et d’écart-type σ. Alors : n P i=1

Xn − nµ Loi √ −→ N (0, 1) σ n

– On peut traduire l’énoncé de la manière suivante   X1 + · · · + Xn Z b   −µ exp(−x2 /2)   n √ ∀a < b P a < < b −→ dx   n→+∞ a σ 2π √ n – – – –

Idées de la preuve. Une généralisation du théorème de De Moivre-Laplace. Principe de l’approximation. Le Théorème central limite est un théorème d’une très grande généralité : on ne suppose que très peu de chose sur la loi si ce n’est l’existence d’un moment d’ordre 2.

Application : La mesure d’un grandeur phsique est soumise à de nombreuses erreurs accidentelles. On fait l’hypothèse que l’erreur sur la mesure est la somme d’un très grand nombre de petites erreurs conséquence de différentes causes indépendantes. Chaque petite erreur se traduit par une variable aléatoire et par application du théorème central limite, l’erreur totale suit approximativement une distribution normale centrée en la mesure exacte. −•−

3.5

Exemples d’intervalle de confiance

L’idée de l’estimation par intervalle de confiance est de définir, autour de la moyenne empirique, un intervalle aléatoire (dépendant des n expériences) qui contienne l’espérance µ avec une forte probabilité. L’amplitude de l’intervalle mesure la précision de l’estimation.

21

Partons de la répétition d’une expérience conduisant à l’observation des valeurs numériques x1 , . . . xn . La moyenne empirique est µ ˆ=

x1 + . . . xn n

– Supposons la variance σ connue. Par application du théorème centrale limite, pour n suffisament grand ! √ n (Xn − µ) 6 0.95 ' FN (0,1) (0.95) P σ On obtient l’intervalle de confiance asymptotique suivant # " σ σ ˆ + 1.96 × √ I= µ ˆ − 1.96 × √ ; µ n n Avec 95% de chance, l’espérance appartient à I si n est « suffisament grand ». – Si la variance est inconnue. Considérons le cas d’une loi de Bernoulli. Nous savons que la variance est toujours inférieure à 1/2. On obtient l’intervalle (grossier) # " 1 1 p ∈ pˆ − √ ; pˆ + √ n n Valable pour n > 30, np > 5 et nq > 5.On peut aussiremplaçer σ par son approximation empirique σ ˆ " # σ ˆ σ ˆ I= µ ˆ − 1.96 × √ ; µ ˆ + 1.96 × √ n n Pour une justification théorique de cette type d’approximation, on pourra regarder p88-91 du polycopié et voir le lien avec la loi de Student... −•−

Exemple d’un sondage

Voici les résultats d’un sondage IPSOS réalisé avant l’élection présidentielle de 2002 pour Le Figaro et Europe 1, auprès de 989 personnes, constituant un échantillon national représentatif de la population française. Dans cet échantillon, les intentions de vote au premier tour pour les principaux candidats sont les suivantes : 20% pour J. Chirac, 18% pour L. Jospin et 14% pour J.-M Le Pen. Les médias se préparent donc, au vu de ce sondage, pour un second tour entre J. Chirac et L. Jospin... Le 21 avril 2002, les résultats du premier tour des élections sont les suivants : 19.88% pour J. Chirac, 16.18% pour L. Jospin et 16, 86% pour J.-M Le Pen. Q. Le sondage permet-il de donner la composition du second tour à 95% de chance ?

22

Certes le score de J.-M Le Pen est au-delà de son intervalle de confiance, mais il faut bien voir qu’au vu de ce sondage, on ne pouvait écarter (avec un niveau de confiance de 0.95) aucun des 3 candidats pour le second tour malgré les 4 points séparant L. Jospin et J.-Le Pen... Notons qu’on peut expliquer ces erreurs par la modélisation. Outre le faible nombre de sondés, on peut douter de l’hypothèse d’indépendance (notamment avec l’emploi de la méthode des quotas). De plus, il est bien connu des sondeurs que beaucoup de personnes ayant des convictions marquées à l’extrême droite ne se déclarent pas comme tel au sondeur. Conclusion. Les sondages sont un bel exemple où la théorie mathématique fournit un outil très efficace d’analyse et de prédiction (avec estimations des erreurs) mais où la difficulté réside dans le modèle et l’interprétation des résultats, source d’erreurs difficilement quantifiables. Le calcul des intervalles de confiance montre que des fluctuations aussi faibles doivent inciter à une grande prudence dans leur interprétation. Les nombreux commentaires portant sur des fluctuations d’un ou deux pour cent paraissent alors vides de sens. Terminons sur une citation d’Herbert George Wells tirées de Statistiques en action La pensée statistique sera un jour aussi nécessaire pour une participation citoyenne active que savoir lire et écrire. −•−

3.6

Autres théorèmes de convergence

Théorème 8 (Convergence de la loi de Binomiale vers la loi de Poisson). Soient Xn ∼ B(n, pn ) indépendantes tels que :  n → +∞ Loi ⇒ Xn −→ P(λ) npn → λ Théorème 9 (Convergence de la Loi Hypergéométrique vers la Binomiale). Soient Xn ∼ H(N, n, p) indépendantes tels que N → +∞. Alors Loi

Xn −→ B(n, p) N →+∞

−•−

Exercice partiel ELI 2012 :En France, il y a environ 1 punk pour 1000 personnes. Dans une salle de 3000 personnes choisies au hasard dans la population, quelle est la probabilité de tomber sur un groupe d’au moins 3 punks ? Indication : on pourra approximer le problème par une loi de Poisson. −•−

3.7

Complément : le lemme de Borel-Cantelli

Soit (An )n∈N une suite d’événements, on pose : \ [ lim sup An = ( Ak ) n∈N

Lemme 1 (De Borel-Cantelli).

n>0 k>n

P

P(An ) < +∞ alors P(lim supn∈N An ) = 0. P – Si les événements sont indépendants alors P(An ) < +∞ implique P(lim supn∈N An ) = 1. – Si

n∈N

n∈N

23

• Exemple : Le singe dactylographique. Supposons qu’un singe, placé devant une machine à écrire, tape au hasard sur toutes touches. Supposons que ce singe appuie sur chaque touche avec une fréquence égale. Alors, tôt ou tard, il tapera n’importe quel texte choisi à l’avance. −•− « Parce que le hasard, il a bon dos. Prenons un des singes, là. Objectivement, quelles sont ses chances de sortir un livre de 200 pages au hasard ? Mettons que ça fasse une combinaison de 400 000 signes. 100 caractères sur un clavier, en général. Donc ça fera 100 puissance 400 000 possibilités. Un « 1 » avec 800 000 zéros derrière. En gros, si un milliard d’ordinateurs essayaient chacun un milliard de combinaisons par seconde depuis le big bang, ils auraient à peine eu le temps de faire suffsamment d’essais pour tomber sur le titre. Tous ces efforts pour 200 pages. Le livre a intérêt à être bon. La haine si tu tombes sur du Dan Brown. » Boulet, Notes.

4

Couples de variables aléatoires réelles

Soient X et Y deux variables aléatoires définies sur un même espace probabilisé (Ω, E, P). Le couple (X, Y ) est définit par ω ∈ Ω 7→ (X(ω), Y (ω))

Deux exemples (discret et continu)

• On considére deux Tirages indépendants et uniformes dans [[1, 4]] X = T1

et Y = max(T1 , T2 )

La loi est donnée par : X \Y 1 2 3 4

1 1/16 0 0 0

2 1/16 1/8 0 0

3 1/16 1/16 3/16 0

4 1/16 1/16 1/16 1/16

• Les aiguilles de Buffon.On veut calculer la probabilité pour qu’une aiguille lancée de manière aléatoire coupe la ligne de séparation entre deux lames de parquet (supposées infinies en longueur).

– θ suit une loi uniforme continue sur [0; π/2] – x suit une loi uniforme continue sur [0; L/2] On modélise le problème en supposant x et θ indépendants. −•−

4.1

Fonctions de répartition

Définition 7. Soient X, Y deux v.a définies sur un espace probabilisé (Ω, E, P). On définit – La fonction de répartition conjointe de X et Y par : FXY (x, y) = P ((X 6 x) ∩ (Y 6 y))

24

– Les fonctions de répartition marginales de X et Y par : • FX (x) = FXY (x, +∞) = P(X 6 x) • FY (y) = FXY (+∞, y) = P(Y 6 y) X et Y sont indépendantes si et seulement si ∀(x, y),

FXY (x, y) = FX (x)FY (y) −•−

4.2

Lois conjointes et marginales

Cas discret Soient X, Y deux v.a discrètes définies sur un espace probabilisé (Ω, E, P). X(Ω) = {xn | n ∈ I},

Y (Ω) = {yn | n ∈ J}

La loi conjointe du couple (X, Y ) est donnée par : P (xi , yj ) = P ((X = xi ) ∩ (Yj = yj )) Les lois marginales désignent les lois de X et Y X • P(X = xi ) = P ((X = xi ) ∩ (Yj = yj )) j∈J

• P(Y = yj ) =

X

P ((X = xi ) ∩ (Yj = yj ))

i∈I

−•−

Cas continu Soient X, Y deux v.a continue définies sur un espace probabilisé (Ω, E, P). On dira que le couple (X, Y ) admet une densité notée fX,Y si : – FX,Y est deux fois dérivable par rapport à x et y ∂ 2 FX,Y – fX,Y = ∂x∂y On définit les densités marginales de probabilité de X et Y respectivement par : Z +∞ fX (x) = fX,Y (x, v) dv −∞

Z

+∞

fY (y) =

fX,Y (u, y) du −∞

−•−

Propositions : Rx Ry FX,Y (x, y) = −∞ −∞ fX,Y (u, v) du dv R x R +∞ – FX (x) = −∞ −∞ fX,Y (u, v) du dv – Si D est une partie « mesurable » de R2 : ZZ ZZ P ( (X, Y ) ∈ D ) = fX,Y (u, v) du dv =

1D fX,Y (u, v) du dv R2

D

25

– Si X et Y sont indépendantes : fX,Y (u, v) = fX (u)fY (v) Application : Il y a intersection entre l’aiguille et une des lignes si x6

L sin θ 2

P(« L’aiguille intersecte la ligne ») =

2L πl

−•−

4.3

Covariance et correlation

Définition 8. On définit la covariance d’un couple (X, Y ) par : cov(X, Y ) = E ( (X − E(X))(Y − E(Y )) ) RR ⇒ cov(X, Y ) = (u − E(X))(v − E(Y ))fX,Y (u, v) du dv R2 P cov(X, Y ) = i,j pi,j (xi − E(X))(yj − E(Y ))

continu discret

où pi,j = P ((X = xi ) ∩ (Yj = yj )). On a alors : V (X + Y ) = V (X) + V (Y ) + 2 cov(X, Y ) −•−

Définition 9. On définit le coefficient de correlation d’un couple (X, Y ) par : ρ(X, Y ) =

cov(X, Y ) σX σY

Remarque : Deux v.a indépendantes sont décorrélées : X, Y indépendantes ⇒ ρ(X, Y ) = 0 Mais l’inverse est faux. −•−

Lois conditionnelles pour des variables à densité Lorsque cela a un sens, on défnit la fonction de répartition conditionnelle de la variable aléatoire Y pour X = x par : Z y 1 fXY (x, v) dv F (y | x) = lim P (Y 6 y | a < x 6 b) = a,b→x fX (x) −∞ et la densité de probabilité conditionnelle de la variable aléatoire Y pour X = x par : f (y | x) =

∂F (y | x) ∂y

−•−

5

Compléments Cette partie donne quelques définitions et exemples d’outils importants en probabilités.

26

5.1

Fonctions génératrices

La fonction génératrice GX d’une variable aléatoire réelle discrète X est donnée par GX (t) = E(tX ) =

+∞ X

tk pk

k=0

G est bien définie pour tout t ∈ [−1; 1] et elle caractérise la loi de X. Si X et Y sont indépendantes alors GX+Y = GX GY

5.2

Espérances conditionnelles et Martingales

On se place dans le cas général d’un espace de probabilité (Ω, E, P). Soit F ⊂ E une sous-tribu, ainsi qu’une variable aléatoire intégrable X. Alors il existe une variable aléatoire Z, F -mesurable et Lebesgue-intégrable, telle que, pour toute variable aléatoire U bornée et F -mesurable, E(XU ) = E(ZU ) On note alors Z = E(X|F ) De plus, si Y est une seconde v.a engendrant la tribu σ(Y ), on note E (X|Y ) = E (X|σ(Y )) Définition 10. Soit (Ω, E, P) un espace probabilisé. Considérons (Xn )n une suite de v.a.r et (En )n une suite croissante de tribus inclus dans E (on parle de filtration). On dit que (Xn )n est une martingale si – E(Xn ) < +∞ et Xn est En -mesurable pour tout n . – On a pour tout n E(Xn+1 |En ) = Xn

5.3

Chaînes de Markov

Une chaîne de Markov est une suite X0 , X1 , ... de variables aléatoires à valeurs dans un ensemble E (dit ensemble des états) où l’avenir ne dépend que du présent. Autrement dit, pour tous états x0 , ..., xn+1 ∈ E, P(Xn+1 = xn+1 |Xn = xn , Xn−1 = xn−1 , ..., X0 = x0 ) = P(Xn+1 = xn+1 |Xn = xn ) On rajoute souvent l’hypothèse supplémentaire que la chaîne est indépendante du temps, c’est-àdire que les probabilités conditionnelles ne dépendent pas de n, P(Xn+1 = j|Xn = i) = pij On parle de chaînes de Markov homogènes. La matrice P = (pij )i,j∈E s’appelle la matrice de transition.

Exemples : – Un canal de transmission transmet des bits avec erreur selon le modèle suivant : il transmet fidèlement un bit avec probabilité p et de façon erronée avec probabilité 1 − p avec p ∈ [0, 1]. On considère n canaux en série, et que chaque canal fonctionne indépendamment des autres. On note Xk le bit reçu en sortie du k-ième canal et X0 le bit à l’entrée du premier canal. On désire calculer la probabilité qu’au bout des n canaux, le signal reste inchangé. Cette situation se modélise par une chaîne de Markov à 2 etats : P (Xk+1 = 1|Xk = 0) = 1 − p et P (Xk+1 = 1|Xk = 1) = p  p 1−p ∈ M2 (R). Il est commode de modéliser cela par un graphe 1−p p 1−p

 et P =

p

0

1 1−p

27

p

Le calcul des puissances de P donne la probabilité qu’un bit soit fidèlement transmis au bout de n canaux 1 + (2p − 1)n P(Xn = X0 ) = −→ 1/2 n→+∞ 2 A la limite, on ne transmet rien... – L’algorithme PageRank utilisé par Google donnant un indice de popularité d’une page Web. – L’exemple proposé par d’Andrei Andreevich Markov, en 1913. On considère une suite de 20 000 caractères pris dans Eugène Onegin d’Alexandre Pouchkine, et on regarde la succession entre les voyelles et les consonnes. En russe, ce dernier avait obtenu la matrice de transition suivante   12, 8 87, 2 P = 66, 3 33, 7 Par exemple, la probabilité qu’une voyelle soit suivie d’une consonne est de 87,2%.

5.4

Entropie (de Shannon)

Soient X et Y deux variables aléatoires discrètes finies. On définit – l’entropie de X par n X H(X) = − pi log2 pi i=1

– l’entropie conjointe des variables X et Y X H(X, Y ) = − P(X = xi , Y = yj ) log2 P(X = xi , Y = yj ) i,j

– l’entropie conditionnelle de Y relativement à X X H(Y | X) = − P(X = xi , Y = yj ) log2 P(Y = yj | X = xi ) i,j

On vérifie que si Xc et Xeq suivent respectivement une loi certaine et une loi équiprobable alors 0 = H(Xc ) 6 H(X) 6 H(Xeq )

Interprétation en théorie de l’information. Supposons qu’un recepteur ignore ce que l’emetteur va lui envoyé. Toutefois, le recepteur connaît la probablité de chaque message possible. Par exemple, le recepteur connaît chaque pi , la probabilité d’un mot xi pris dans un dictionnaire χ = {x1 , . . . , xn }. Alors H(p) mesure en un certain sens l’incertitude lors de l’envoi du message. La relation précédente confirme cette intuition, l’entropie est nulle pour un message certain alors qu’elle est maximale pour dans le cas d’équiprobabilité. On vérifie aussi que H(X, Y ) 6 H(X) + H(Y ) Si X et Y sont indépendants, on a égalité. Citons aussi une phrase de John von Neuman à Shannon en 1949 justifiant le terme d’entropie : « La théorie est excellente mais elle a besoin d’un bon nom pour « information perdue ». Pourquoi ne l’appelles-tu pas entropie ? Premièrement, un développement mathématique ressemblant fort au tien existe déjà dans la mécanique statistique de Boltzmann, et deuxièmement, personne ne comprend vraiment bien l’entropie, donc dans une discussion tu te trouverais dans une position avantageuse. »

Références – – – – –

Polycopié de cours, Claire LeGoff Probabilités, Analyse de Données statistiques, G.Saporta Probabilité pour non-probabilistes, W.Apfel Exercices de probabilité, Cotterel/Genon-Catalot/Duhamel/Meyre Statistiques en action, Rivoirard et Stoltz.

28

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF