Notions fondamentales de la Théorie des Probabilités

January 18, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Notions fondamentales de la Théorie des Probabilités...

Description

Université d’Artois Faculté des Sciences Jean Perrin Probabilités (Master 1 Mathématiques-Informatique) Daniel Li

Chapitre 1

Notions fondamentales de la Théorie des Probabilités

Dans ce chapitre, nous allons donner les définitions de base concernant la Théorie des Probabilités. Il faut plutôt voir ce cours plus comme un cours de techniques probabilistes que comme un cours de Probabilités : on ne cherchera pas à donner d’interprétation “concrète” des notions et des résultats présentés dans ce cours. C’est en quelque sorte le “minimum vital de Probabilités” que doit posséder tout mathématicien.

1

Espace de probabilité

Une probabilité (ou mesure de probabilité) est une mesure positive P sur un espace mesurable (Ω, A ) telle que P (Ω) = 1 . On dit aussi loi de probabilité. Le triplet (Ω, A , P ) est appelé espace de probabilité. La Théorie des Probabilités utilise la Théorie de la mesure, mais, pour des raisons historiques, a un langage qui lui est propre (ce qui est d’ailleurs peut-être à l’origine de la réticence, voire de l’ostracisme, dont la majorité des mathématiciens ont fait preuve par le passé, et encore parfois aujourd’hui, envers les Probabilités). On a le dictionnaire suivant : notation ω∈Ω A∈A ω∈A A⊆B ∅ Ω A∪B A∩B

point de vue ensembliste point de Ω partie mesurable ω est dans la partie A A est contenu dans B ensemble vide ensemble plein réunion de A et B intersection de A et B

1

point de vue probabiliste observation événement l’événement A est réalisé par ω A implique B événement impossible événement certain A ou B A et B

Si l’on considère qu’un espace de probabilité est la modélisation d’une expérience, un point ω de Ω peut aussi être vu comme le résultat, ou la réalisation, de l’expérience modélisée par (Ω, A , P ). On dit aussi que ω est une éventualité. Par rapport au point de vue ensembliste, dans lequel la notion de base est le point, qui peut ou non appartenir à une partie donnée, dans le point de vue probabiliste, il faut plutôt inverser les rôles : la notion de base est l’ensemble des événements, et chaque événement peut être réalisé ou non par une observation. Pour deux événements A et B, dire que ω ∈ A ∪ B s’exprime en disant que ω réalise l’événement A ou l’événement B, et ω ∈ A ∩ B en disant que ω réalise l’événement A et l’événement B. Comme A est une tribu, si l’on a une famille dénombrable d’événements An , n > 1, alors les ensembles suivants sont des événements : S S n>1 An : on a ω ∈ n>1 An si l’un au moins des événements An est réalisé par ω. T T n>1 An : on a ω ∈ n>1 An si tous les événements An sont réalisés par ω. T S lim An : on a ω ∈ lim An = n>1 k>n Ak si une infinité des événements n→∞ n→∞ An sont réalisés par ω. S T lim An : on a ω ∈ lim An = n>1 k>n Ak si tous les événements An , n→∞

n→∞

sauf un nombre fini, sont réalisés par ω. On a bien sûr lim An ⊆ lim An . n→∞

n→∞

Le résultat suivant, bien que très facile, est extrêmement utile.

Théorème 1.1 (Lemme de Borel-Cantelli) ∞  P Si P (An ) < +∞ , alors on a : P lim An = 0 . n→∞

n=1

Définition 1.2 Pour tout événement A, on dit que : • A est presque impossible si P (A) = 0 ; • A est presque sûr, ou presque certain, si P (A) = 1. La notion de “presque sûr” est la version probabiliste de la notion de “presque partout”. Lorsque l’événement A est l’ensemble des ω pour lesquels une certaine propriété est vraie, on dit que cette propriété est presque sûrement vraie si A est presque sûr. On notera en abrégé p.s. pour “presque sûrement”. lim An )c = lim (Acn ), le lemme de Borel-Cantelli dit que, sous n→∞ P l’hypothèse n>1 P (An ) < +∞, on a lim (Acn ) presque sûrement ; par conséComme

n→∞

n→∞

quent, le lemme de Borel-Cantelli s’exprime de la façon plus utile suivante : 2

P∞ Théorème 1.3 (Lemme de Borel-Cantelli) Si n=1 P (Bnc ) < +∞, alors presque sûrement, tous les événements Bn sont réalisés, à l’exception d’un nombre fini.  P S Preuve 1. Pour tout n > 1, on a P Ak 6 k>n P (Ak ) ; donc, puisque k>n  S la suite k>n Ak n>1 est décroissante :   [  X P lim An = lim ↓ P Ak 6 lim P (Ak ) = 0 , n→∞

n→∞

n→∞

k>n

k>n

puisque la série converge.  P P Preuve 2. La condition n>1 P (An ) < +∞ signifie que la fonction n>1 1IAn est P -intégrable ; elle est donc finie P -presque partout, ce qui est le résultat annoncé. 

2

Variables aléatoires

Définition 2.1 On appelle variable aléatoire, en abrégé v.a. (vectorielle,  à valeurs dans Rd ), toute application mesurable X : (Ω, A ) → Rd , Bor (Rd ) . Pour d = 1, on autorise X à prendre ses valeurs dans R ; elle doit donc être mesurable pour Bor (R). On dit que c’est une variable aléatoire réelle ; en abrégé v.a.r. . On conviendra par la suite que R1 = R. Si d > 1, on dira aussi vecteur aléatoire. Si X = (X1 , . . . , Xd ) est un vecteur aléatoire, alors les Xk sont des v.a.r. ; réciproquement, si X1 , . . . , Xd sont des v.a.r., à valeurs dans R, alors (X1 , . . . , Xd ) est un vecteur aléatoire. Remarque. Il faut noter que, contrairement à ce que peux laisser croire le nom, une variable aléatoire est une fonction, et non pas une variable. Cette terminologie trompeuse est, là encore, due à des raisons historiques, datant de l’époque où l’on avait pas conscience de la distinction entre une fonction et sa valeur en un point. Terminologie. On dit que la v.a.r. X a un moment d’ordre p, 1 6 p < ∞, si X ∈ Lp (Ω, A , P ). Lorsque X est intégrable (on utilisera plutôt ce terme que celui de moment d’ordre 1), son intégrale est appelée espérance (mathématique) de X ; on dit aussi que c’est la moyenne de X. On la note : Z E (X) = X dP . Ω

3

On dit que la variable aléatoire X est centrée lorsque E (X) = 0. La v.a.r. X − E (X) (mis pour X − E (X)1I) est appelée la v.a. centrée associée à X ; elle est évidemment centrée. Lorsque X ∈ L2 (Ω, A , P ), on définit la variance de X par : Var (X) = E [X − E (X)]2



.

Ce nombre (qui est positif) mesure les variations de X autour de sa moyenne. On la calcule habituellement par la formule suivante : Proposition 2.2 Var (X) = E (X 2 ) − [E (X)]2 . Preuve. Il suffit de développer :   E [X − E (X)]2 = E X 2 − 2E (X)X + [E (X)]2  = E (X 2 ) − 2E (X)E (X) + [E (X)]2 , car E (1I) = 1.



Notons que l’on a Var (aX) = a2 Var (X) pour tout a ∈ R. Pour revenir à l’ordre de grandeur initial, on utilise l’écart-type : σX =

p Var (X) .

Autrement dit : σX = kX − E (X)kL2 (Ω,A ,P ) . Le nombre kXkL2 (P ) = [E (X 2 )]1/2 est appelé moyenne quadratique de X. Lorsque l’on mesure les résultats d’une expérience aléatoire par une variable aléatoire X, l’espace de probabilité (Ω, A , P ) est une modélisation de la situation liée à cette expérience. Cette modélisation peut être faite de diverses façons, ce qui veut dire que l’espace (Ω, A , P ), et en particulier la probabilité P , n’a pas de sens intrinsèque. Ce qui est important, c’est la répartition des valeurs que peut prendre X, et leur fréquence. C’est pourquoi le concept suivant, qui précise ces fréquences d’apparitions, est fondamental ; d’ailleurs avant l’axiomatisation de la Théorie des Probabilités par Kolmogorov en 1933, les Probabilistes ne voyaient les variables aléatoires qu’à travers leur loi.

Définition 2.3 On appelle loi de la variable aléatoire X la mesure-image de la probabilité P par X. On la note PX . On dit aussi loi de probabilité de X. On l’appelle encore la distribution de la variable aléatoire X. Cela signifie que pour tout borélien B de Rd , on a : PX (B) = P (X ∈ B) , 4

P (X ∈ B) étant la notation usuelle pour :  P ({ω ∈ Ω ; X(ω) ∈ B}) = P X −1 (B) . PX est donc une mesure de probabilité sur Rd . Si Q est une mesure de probabilité sur Rd , on note X ∼ Q pour exprimer que X a la loi Q, c’est-à-dire que Q = PX ; on a donc X ∼ PX . Si la loi de X a une densité fX par rapport à la mesure de Lebesgue, on dit que X possède la densité fX . Rappelons que pour toute fonction f : Rd → R borélienne positive ou PX intégrable, on a : Z

Z f [X(ω)] dP (ω) ,

f (x) dPX (x) = Rd



soit : Z

 f (x) dPX (x) = E f (X) ,

Rd

où f (X) est la notation habituelle pour la composée f ◦ X. Ainsi, lorsque X est une v.a.r., X est intégrable si et seulement si P ({X = −∞}) = P ({X = +∞}) = 0 et : Z |x| dPX (x) < +∞ ; R

et alors : Z E (X) =

x dPX (x) . R

On notera que, X étant intégrable, elle est presque sûrement finie, c’est-à-dire presque sûrement à valeurs dans R (soit PX ({−∞, +∞}) = 0) ; on peut donc intégrer sur R au lieu d’intégrer sur R. Pour une expérience mesurée par une v.a. X, il est important de savoir quels sont les événements liés à cette expérience.

Définition 2.4 On appelle tribu engendrée par la variable aléatoire X la plus petite sous-tribu AX de A pour laquelle X reste mesurable. On la note aussi σ(X) (à ne pas confondre avec l’écart-type !). Proposition 2.5 On a : AX = {X −1 (B) ; B ∈ Bor(Rd )}. 5

Preuve. L’ensemble écrit à droite doit évidemment être contenu dans AX ; c’est d’autre part une tribu, et X est mesurable pour cette tribu.  0

Théorème 2.6 (Doob) Une fonction Y : Ω → Rd est une variable aléatoire 0 AX -mesurable si et seulement s’il existe une fonction borélienne f : Rd → Rd telle que Y = f (X). Preuve. La condition suffisante est évidente. Pour la condition nécessaire, en regardant coordonnée par coordonnée, on peut supposer Y réelle ; et en écrivant Y = Y + − Y − , la supposer positive. Mais alors, comme elle est AX -mesurable, elle est limite d’une suite croissante de fonctions Yn AX -étagées. D’après la proposition précédente, ces fonctions AX -étagées peuvent s’écrire : Yn =

kn X

nak,n 1IX −1 (Bk,n ) =

k=1

kn X

nak,n (1IBk,n ◦ X) =

kn X

k=1

 ak,n 1IBk,n ◦ X ,

k=1

avec ak,n > 0 et les Bk,n boréliens de Rd . Posons : kn X fn = ak,n 1IBk,n et f = lim fn . n→∞

k=1

On a bien Y = lim ↑ Yn = lim ↑ fn (X) = lim fn (X) = f (X). n→∞

n→∞

n→∞



Lorsque X est une v.a.r., à valeurs dans R, on utilise souvent la notion suivante. Définition 2.7 La fonction de répartition de X est définie, pour tout x ∈ R, par : FX (x) = P (X 6 x) = PX (] − ∞, x]) . On dit aussi que FX est la fonction de répartition de PX . C’est une fonction FX : R → [0, 1], qui est croissante, continue à droite, et telle que limx→−∞ FX (x) = 0 et limx→+∞ FX (x) = 1. Le Théorème d’unicité des mesures dit qu’il n’y a qu’une seule mesure de probabilité sur R dont FX soit la fonction de répartition : FX détermine PX .

3

Exemples usuels de lois de probabilité sur R

Dans ce cours, on n’utilisera essentiellement que deux lois de probabilité : la loi de Bernoulli et la loi gaussienne, avec en plus, la loi uniforme. On se contentera donc de parler de celles-ci, renvoyant, pour les autres lois usuelles, aux exercices.

6

3.1

Loi de Bernoulli

C’est la loi d’une v.a.r. qui ne prend (presque sûrement) que les deux valeurs 0 et 1. Si X est une telle v.a.r., sa loi est déterminée par le nombre p = P (X = 1) ; on a 0 < p < 1, et p est appelé le paramètre de la loi. On a : P (X = 1) = p

et P (X = 0) = 1 − p = q ,

ou PX ({1}) = p , PX ({0}) = 1 − p ; la loi de X est donc PX = p δ1 + (1 − p)δ0 , où δ1 et δ0 sont les mesures de Dirac en 1 et en 0. C’est la loi du “pile ou face” : on a la probabilité p de réussir. On a E (X) = p et Var (X) = pq = p(1 − p) ; en effet, E (X) = 0.(1 − p) + 1.p = p et E (X 2 ) = 02 .(1 − p) + 12 .p = p, donc Var (X) = p − p2 .

3.2

Loi de Gauss

On dit aussi que c’est la loi de Laplace ou la loi normale. Elle est caractérisée par deux paramètres m ∈ R et σ > 0. On la note : N (m, σ 2 ) . C’est la loi de probabilité sur R qui a pour densité (par rapport à la mesure de Lebesgue) :   1 1  x − m 2 γm,σ2 = √ exp − . 2 σ σ 2π √ R 2 Rappelons que R e−u /2 du = 2π, et donc γm,σ2 est bien la densité d’une loi de probabilité Si X ∼ N (m, σ 2 ), on dit que X est une variable aléatoire gaussienne. On a donc, pour tout borélien B de R :   Z 1 1  x − m 2 P (X ∈ B) = √ exp − dx . 2 σ σ 2π B En particulier, sa fonction de répartition est : Z x FX (x) = P (X 6 x) = γm,σ2 (x) dx . −∞

On a : E (X) = m

Var (X) = σ 2 .

et

En effet :   Z 1 1  x − m 2 √ x exp − dx 2 σ σ 2π R  Z  Z 2 2 1 σ u e−u /2 du + m e−u /2 du =√ 2π R R = m,

E (X) =

7

et :   Z 1 1  x − m 2 2 Var (X) = √ (x − m) exp − dx 2 σ σ 2π R Z 2 σ2 =√ u2 e−u /2 du = σ 2 , 2π R 2

2

en écrivant u2 e−u /2 = u.u2e−u /2 et en intégrant par parties. Ainsi donc la loi d’une gaussienne est déterminée par sa moyenne m et sa variance σ 2 . La loi N (0, 1) est appelée loi normale centrée réduite ; elle a pour densité : 2 1 γ(x) = γ0,1 (x) = √ e−x /2 ; 2π son espérance est nulle et sa variance est 1. On a : X −m X ∼ N (m, σ 2 ) ⇐⇒ Z = ∼ N (0, 1) ; σ ou, inversement : Z ∼ N (0, 1)

⇐⇒

X = σZ + m ∼ N (m, σ 2 ) .

Cette loi est centrale en Probabilités, car on verra que, en un certain sens, toutes les lois tendent vers la loi de Gauss.

3.3

Loi uniforme

La loi uniforme sur le segment [a, b] est la loi ayant pour densité la fonction : 1 1I(a,b] b−a par rapport à la mesure de Lebesgue sur R. Pour tout intervalle I ⊆ R, on a, pour une v.ar. ayant cette loi : Z 1 λ(I ∩ [a, b]] PX (I) = P (X ∈ I) = 1I(a,b] dλ = · b − a b−a I

4

Indépendance

C’est avec la notion d’indépendance que la Théorie des Probabilités prend son autonomie par rapport à la Théorie de la mesure. Définition 4.1 Deux événements A et B sont dits indépendants si : P (A ∩ B) = P (A) P (B) . On note A ⊥ ⊥ B. 8

L’exemple suivant est fondamental, car, comme nous le verrons, l’indépendance peut toujours se ramener, en un certain sens, à une mesure de probabilité qui est une mesure-produit (voir Théorème 4.7). Exemple fondamental. Prenons Ω = [0, 1] × [0, 1], muni de sa tribu borélienne, et prenons pour probabilité P = λ2 = λ ⊗ λ, la mesure de Lebesgue 2-dimensionnelle, qui est aussi le produit de la mesure de Lebesgue 1-dimensionnelle par elle-même. Soit :

A = [0, a] × [0, 1] et B = [0, 1] × [0, b]. On a P (A) = a et P (B) = b ; et, comme (A ∩ B = [0, a] × [0, b] : P (A ∩ B) = ab = P (A) P (B).

Autrement dit, l’événement “0 6 x 6 a” est indépendant de l’événement “0 6 y 6 b”, ou : choisir au hasard un x dans [0, a] est indépendant du choix au hasard d’un y dans [0, b]. Définition 4.2 Soit A1 , . . . , An n événements ; on dit qu’ils sont indépendants si : P (Ai1 ∩ · · · ∩ Aik ) = P (Ai1 ) × · · · × P (Aik ) pour toute partie {i1 , . . . , ik } ⊆ {1, . . . , n}. Cela entraîne bien sûr que A1 , . . . , An n sont deux-à-deux indépendants. Définition 4.3 Si A1 , . . . , An sont n sous-tribus de A , on dit qu’elles sont indépendantes si les événements A1 , . . . , An sont indépendants, pour tout choix de A1 ∈ A1 , . . . , An ∈ An . Cela revient à dire que : P (A1 ∩ · · · ∩ An ) = P (A1 ) × · · · × P (An ) ,

∀A1 ∈ A1 , . . . , ∀An ∈ An ;

en effet, il est clair que c’est entraîné par l’indépendance ; réciproquement, si l’on a cette propriété, prenons J ⊆ {1, . . . , n} et Aj ∈ AjTarbitraire pour T j∈J; n alors, en prenant Aj = Ω ∈ Aj pour tout j ∈ / J, on a j=1 Aj = j∈J Aj et  Q T l’on obtient P j∈J Aj = j∈J P (Aj ), puisque P (Ω) = 1.

9

Notons que, étant donnés n événements A1 , . . . , An , ils sont indépendants si et seulement si les tribus Ak = {∅, Ak , Ack , Ω} que chacun engendre sont indépendantes.

Définition 4.4 Etant données n variables aléatoires Xk : Ω → Rdk , 1 6 k 6 n, on dit qu’elles sont indépendantes si les tribus AX1 , . . . , AXn qu’elles engendrent sont indépendantes. On notera X ⊥⊥ Y lorsque les v.a. X et Y sont indépendantes. Comme : AXk = {Xk−1 (B) ; B ∈ Bor(Rdk )} , cela revient à dire que, pour tous Bk ∈ Bor(Rdk ), 1 6 k 6 n : P (Xk ∈ Bk , ∀k 6 n) = P (X1 ∈ B1 ) × · · · × P (Xn ∈ Bn ) On notera que n événements A1 , . . . , An sont indépendants si et seulement si les v.a.r. 1IA1 , . . . , 1IAn le sont, car A1IAk = {∅, Ak , Ack , Ω}. Remarque. Une v.a. est indépendante d’elle-même si et seulement si elle est constante (presque sûrement), et toute v.a. p.s. constante est indépendante de toutes les autres v.a., comme on pourra le vérifier à titre d’exercice. Proposition 4.5 Si les v.a. Xk : Ω → Rdk , 1 6 k 6 n, sont indépendantes, 0 alors, pour toutes fonctions boréliennes fk : Rdk → Rdk , les v.a. fk (Xk ), 1 6 k 6 n, sont encore indépendantes. En effet, fk (Xk ) est AXk -mesurable ; donc σ[fk (Xk )] ⊆ σ(Xk ).



Définition 4.6 Soit X1 , . . . , Xn : Ω → R des v.a.r.. La loi du n-uplet X = (X1 , . . . , Xn ), définissant un vecteur aléatoire X : Ω → Rn , est appelée la loi conjointe des v.a.r. X1 , . . . , Xn . Les lois de X1 , . . . , Xn s’appellent les lois marginales du v.a. X. Le théorème suivant est essentiel, car c’est la plupart du temps en l’utilisant que l’on démontre l’indépendance de v.a.r. car il est très facile d’utilisation. Théorème 4.7 Les v.a.r. X1 , . . . , Xn : Ω → R sont indépendantes si et seulement si leur loi conjointe P(X1 ,...,Xn ) est égale au produit des lois marginales PXk : P(X1 ,...,Xn ) = PX1 ⊗ · · · ⊗ PX1 .

Bien sûr, on aura de même : 10

Théorème 4.8 Les v.a. Xk : Ω → Rdk , 1 6 k 6 n, sont indépendantes si et seulement si P(X1 ,...,Xn ) = PX1 ⊗ · · · ⊗ PXn . Preuve. Pour tous boréliens B1 , . . . , Bn , on a : P (Xk ∈ Bk , ∀k 6 n) = P (X1 , . . . , Xn ) ∈ B1 × · · · × Bn = P(X1 ,...,Xn ) (B1 × · · · × Bn ) .



Les v.a. X1 , . . . , Xn sont donc indépendantes si et seulement si, pour tous boréliens B1 , . . . , Bn , on a : P(X1 ,...,Xn ) (B1 × · · · × Bn ) = PX1 (B1 ) × · · · × PXn (Bn ) . Par définition (et l’unicité) de la mesure-produit, cela signifie que P(X1 ,...,Xn ) est égale à PX1 ⊗ · · · ⊗ PXn .  Corollaire 4.9 Si les variables aléatoires réelles X1 . . . , Xn sont intégrables et indépendantes, leur produit est intégrable et l’espérance de leur produit est égal au produit de leurs espérances : E (X1 · · · Xn ) = E (X1 ) · · · E (Xn ) .

Bien sûr, cette égalité est loin de suffire pour avoir l’indépendance. Preuve. On a : Z Z |X1 · · · Xn | dP = |x1 · · · xn | dP(X1 ,...,Xn ) (x1 , . . . , xn ) Ω Rn Z = |x1 · · · xn | d(PX1 ⊗ · · · ⊗ PXn )((x1 , . . . , xn ) n RZ  Z  = |x1 | dPX1 (x1 ) · · · |xn | dPXn (xn ) R

R

par le Théorème de Fubini = E (|X1 |) · · · E (|Xn |) < +∞ , ce qui donne l’intégrabilité du produit. Ensuite, le même calcul que ci-dessus, mais sans les valeurs abolues, et en utilisant cette fois-ci le Théorème de Fubini, donne l’égalité E (X1 · · · Xn ) = E (X1 ) · · · E (Xn ).  Corollaire 4.10 Si les v.a.r. X1 , . . . , Xn sont de carré intégrable et sont indépendantes, alors : Var (X1 + · · · + Xn ) = Var (X1 ) + · · · + Var (Xn ) .

11

Bien sûr, là aussi, cette égalité est loin de suffire pour avoir indépendance. Preuve. Il suffit de le montrer pour deux v.a.r. indépendantes X et Y . On peut de plus supposer que E (X) = E (Y ) = 0, puisque la variance est la même pour une v.a.r. et sa v.a.r. centrée. Or, dans ce cas, en utilisant le Corollaire 4.9 :   Var (X + Y ) = E (X + Y )2 = E (X 2 ) + 2 E (X) E (Y ) + E (Y 2 ) = Var (X) + Var (Y ) , puisque E (X) = E (Y ) = 0.

 kXk2L2 (P )

Remarque. Comme Var (X) = lorsque X est centrée, le Corollaire 4.10 dit que si X et Y sont centrées et indépendantes, alors elles sont orthogonales dans l’espace de Hilbert L2 (P ) ; ainsi, pour des v.a.r. centrées : X ⊥⊥ Y =⇒ X ⊥ Y . Corollaire 4.11 Si les v.a. X1 , . . . , Xn sont indépendantes et ont des densités fX1 , . . . , fXn , alors X = (X1 , . . . , Xn ) a une densité, définie, pour tout (x1 , . . . , xn ), par : fX (x1 , . . . , xn ) = fX1 (x1 ) · · · fXn (xn ). Autrement dit, fX = fX1 ⊗ · · · ⊗ fXn . Il est pratique de pouvoir tester l’indépendance sur une classe plus petite que la tribu entière. Proposition 4.12 Si, pour 1 6 k 6 n, on a une famille d’événements Ck ⊆ Ak , qui est stable par intersection finie, contient une suite croissante dont la réunion est Ω, engendrant la tribu Ak : σ(Ck ) = Ak , et si l’on a : P

n \ k=1

n  Y Ck = P (Ck ) ,

∀Ck ∈ Ck , 1 6 k 6 n ,

k=1

alors les tribus A1 , . . . , An sont indépendantes. Preuve. Par itération : fixons C2 ∈ C2 , . . . , Cn ∈ Cn . Les applications : A1 −→ [0, 1] T  n A 7−→ P A ∩ k=2 Ck

et

A1 −→ A 7−→

[0, 1] Q n k=2

 P (Ck ) P (A)

sont des mesures positives bornées qui sont égales sur C1 . Par le Théorème d’unicité des mesures, elles sont égales sur A1 . On recommence ensuite, en fixant A1 ∈ A1 , et C3 ∈ C3 , . . . , Cn ∈ Cn , et ainsi de suite.  Corollaire 4.13 Les v.a. Xk : Ω → Rdk , 1 6 k 6 n, sont indépendantes dès que : P (Xk ∈ Dk , ∀k 6 n) =

n Y

P (Xk ∈ Dk ) ,

k=1

12

∀Dk ∈ Dk , 1 6 k 6 n ,

où chaque Dk ⊆ Bor(Rdk ) est stable par intersection finie, contient une suite croissante dont la réunion est Rdk et qui engendre Bor(Rdk ). Preuve. Il suffit de prendre Ck = {Xk−1 (Dk ) ; Dk ∈ Dk } = Xk−1 (Dk ), et d’utiliser la formule de transfert :     σ Xk−1 (Dk ) = Xk−1 σ(Dk ) ; on a donc σ(Ck ) = AXk .



Corollaire 4.14 Les v.a.r. X1 , . . . , Xn : Ω → R sont indépendantes si et seulement si : n Y

P (Xk 6 xk , ∀k 6 n) =

FXk (xk ) ,

∀x1 , . . . , xn ∈ R .

k=1

On a une variante de la Proposition 4.12 : Proposition 4.15 Soit, pour 1 6 k 6 n, Ck ⊆ Ak stable par intersection finie et engendrant Ak . Si C1 , . . . , Cn sont indépendants pour tous les choix de C1 ∈ C1 , . . . , Cn ∈ Cn , alors les tribus A1 , . . . , An sont indépendantes. Preuve. Si l’on pose Ck0 = Ck ∪ {Ω}, alors Ck0 vérifie les conditions de la Proposition 4.12, puisque, si Ck ∈ Ck0 et si J est l’ensemble des k 6 n pour lesquels Ck = Ω, on a, grâce à l’indépendance des Ck pour k ∈ /J : P

n \

n  \  Y Y Ck = P Ck = P (Ck ) = P (Ck ) .

k=1

5

k∈J /

k∈J /



k=1

Fonction caractéristique

5.1

Généralités

Définition 5.1 La fonction caractéristique (en abrégé f.c.) d’une v.a.r. X : Ω → R est définie par : ΦX (t) = E eitX



,

∀t ∈ R.

En d’autres termes : Z

eitx dPX (x) .

ΦX (t) = R

Remarquons que lorsque X a une densité fX , cela s’écrit : Z ΦX (t) = eitx fX (x) dx ; R

13

on reconnaît la définition de la transformée de Fourier de fX :  t  · ΦX (t) = F fX − 2π Plus généralement, on peut définir la transformée de Fourier d’une mesure. Définition 5.2 Soit m une mesure complexe sur R muni de sa tribu borélienne. La transformée de Fourier de m est définie par : Z  F m (t) = m(t) ˆ = e−2πitx dm(x) , ∀x ∈ R . R

Cela s’applique en particulier lorsque m est une mesure positive bornée, donc lorsque m est une probabilité. Pour toute v.a.r. X, on a donc :  t  ΦX (t) = F PX − · 2π Le Théorème de convergence dominée donne immédiatement : Proposition 5.3 F m = m ˆ est une fonction continue bornée sur R (c’est-àc dire que F : M (R) → Cb (R)) et |m(t)| ˆ 6 |m|(R) = |m|(0). Corollaire 5.4 Pour toute v.a.r. X, on a ΦX ∈ Cb (R) ; de plus ΦX (0) = 1 et |ΦX (t)| 6 1 pour tout t ∈ R. Théorème 5.5 F est injective sur M (R).

Corollaire 5.6 Si deux v.a.r. ont la même fonction caractéristique, alors ces deux v.a.r. ont la même loi. Autrement dit : si ΦX = ΦY , alors PX = PY détermine la loi.

: la fonction caracéristique

L

Notation. On écrira X = Y lorsque X et Y ont la même loi. Bien sûr, on ne peut rien dire des v.a.r. elle-mêmes ; elles pourraient d’ailleurs ne même pas être définies sur le même espace de probabilité. Preuve. Soit m ∈ M (R), et soit m = h.|m| sa décomposition polaire (on a

14

|h| = 1 |m|-p.p.). Pour toute f ∈ L1 (R), on a, par le Théorème de Fubini :  Z Z Z fˆ(y) dm(y) = f (x) e−2πixy dx dm(y) R R R  Z Z −2πixy = f (x) e dx h(y) d|m|(y) R R   Z Z −2πixy = f (x) e h(y) d|m|(y) dx R R   Z Z −2πixy = f (x) e dm(y) dx R ZR = f (x) m(x) ˆ dx . R 1 1 Donc, si m ˆ = 0, on a R fˆ(y) dm(y) R = 0 pour toute f ∈ L (R). Comme F L (R) est dense dans C0 (R), on a aussi R g(y) dm(y) = 0 pour toute g ∈ C0 (R) ; donc m = 0 (car, par exemple, on aura m([a, b]) = 0 pour tout intervalle [a, b] de R, en approchant 1I[a,b] par une suite de fonctions de C0 (R)). 

R

5.2

Fonction caractéristique de la loi normale

Théorème 5.7 Si X ∼ N (m, σ 2 ), alors :  σ 2 t2  ΦX (t) = exp imt − . 2 2

En particulier, si Z ∼ N (0, 1) est centrée réduite, alors ΦZ (t) = e−t

/2

.

Le calcul, dans le cas centrée réduite a été fait dans le cours d’Analyse Fonctionnelle. Dans le cas général, il suffit d’utiliser le résultat immédiat suivant, puisque si X ∼ N (m, σ 2 ), alors X = σZ + m avec Z ∼ N (0, 1). Lemme 5.8 Pour toute v.a.r. Y , on a ΦaY +b (t) = eibt ΦY (at) , pour tous a, b ∈ R. Une des propriétés importantes des f.c. est la suivante. Théorème 5.9 Si X et Y sont deux v.a.r. indépendantes, alors : ΦX+Y (t) = ΦX (t) ΦY (t) ,

∀t ∈ R.

Preuve.   ΦX+Y (t) = E eit(X+Y ) = E eitX eitY   = E eitX E eitY (Proposition 4.9 et Proposition 4.5) = ΦX (t) ΦY (t) . 15



On en déduit l’important résultat suivant. Corollaire 5.10 Si X1 ∼ N (m1 , σ12 ) et X2 ∼ N (m2 , σ22 ) sont deux v..a.r. gaussiennes indépendantes, alors leur somme X1 + X2 est encore gaussienne, et suit la loi N (m1 + m2 , σ12 + σ22 ). Notons que, de toute façon, dès que l’on sait que X1 + X2 est gaussienne N (m, σ 2 ), on sait que m = E (X1 + X2 ) = E (X1 ) + E (X2 ) = m1 + m1 et que, grâce à l’indépendance (Proposition 4.10), σ 2 = Var (X1 + X2 ) = Var (X1 ) + Var (X2 ) = σ12 + σ22 ; mais on va tout obtenir d’un coup. Preuve. Il suffit d’appliquer le Théorème 5.9 :   σ 2 t2  σ 2 t2  exp im2 t − 2 ΦX1 +X2 (t) = ΦX1 (t) ΦX2 (t) = exp im1 t − 1 2 2  (σ12 + σ22 )t2  = exp i(m1 + m2 )t − , 2 et d’utiliser le Théorème 5.7 et le Théorème 5.6.

5.3



Dérivabilité

Pour terminer, signalons juste le résultat suivant, conséquence immédiate du Théorème de dérivation sous les intégrales, qui permet de calculer les moments d’une v.a.r. lorsque l’on connaît sa f.c.. Proposition 5.11 Soit r un entier > 1. Si X a un moment d’ordre r, alors (r) ΦX est r fois continûment dérivable et ΦX (0) = ir E (X r ).

16

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF