Bases de la Théorie des Probabilités Presses Universitaires de

January 18, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Bases de la Théorie des Probabilités Presses Universitaires de...

Description

Pr Gane Samb LO

Bases de la Théorie des Probabilités

Presses Universitaires de Saint-Louis 1ère Edition 2007 1

ABSTRACT

Ce cours est la suite du texte Mesure et Intégration. Il en constitue un cas particlulier avec des mesures de poids unité. Selon Mark Kac, la théorie des probabilités est l’âme de la théorie de la mesure.Les notions qui sont abordées ici sont indispensables à tout scientifique et futur chercheur. Elles préparent d’importantes appications à l’économie, à la physique, à la psychologie, à la génétique, à la finance, etc. Ce cours prépare immédiatement à l’étude des processus stochastiques : chaînes de Markov, martingales, mouvements browniens, etc. Il aborde déjà l’étude asymptotique des échantillons indépendants et préparent à l’études des processus dépendants. Dans un proche avenir, une série d’exercices théoriques et appliqués seront inclus dans le texte.

Saint-Louis (Sénégal), Bamako (Mali), Mars 2008.

2

Table des matières Chapitre 1. INTRODUCTION : ESPACE PROBABILISE 1. Introduction 2. Terminologie probabiliste 3. Indépendance Chapitre 2. VARIABLES ALEATOIRES REELLES 1. Inégalités remarquables 2. Moments 3. Variables aléatoires discrètes et absolûment continues. 4. Fonctions de répartition 5. Fonctions caractéristiques 6. Changement de variables. Chapitre 3. LOIS DE PROBABILITE USUELLES 1. Lois discrètes 2. Lois absolument continues. Chapitre 4. CONVERGENCE DE VARIABLES ALEATOIRES 1. Convergence en probabilité. 2. Convergence dans Lp 3. Equi-intégrabilité. 4. Comparaison des types de convergence Chapitre 5. CONVERGE EN LOIS DANS RK 1. Rappels de résultats élémentaires. 2. Apperçu de la théorie de la convergence vague 3. Tansformations continues. 4. Applications

5

5 5 8

15 15

18 20 23 25

30 33 33

36 43 43 44 45

48 51 52 52

54 59

Chapitre 6. LES GRANDS THEOREMES DE L’ECHANTILLON 1. Loi faible des grands nombres. 2. Loi forte des grands nombres 3. Théorème central limite sur Rk 4. Convergence de la loi multimoniale

65 65 65

Chapitre 7. ANNEXES 1. Preuve du Théorème Portmanteau

75

68

70 75

3

2. 3. 4. 5. 6. 7. 8. 9. 10.

La convergence des f.r entraine la convergence en loi La f.c caractérise la loi dans Rk . La convergence des f.c entraîne la convergence en loi Théorème de Scheffé Fonctions semi-continues Un principe utile Divers Mesurabilité de l’ensemble des points de discontinuité. Théorème de Stone-Weieirstrass.

Bibliographie

79 81 84 85

86 87 88 88 90 91

4

CHAPITRE 1

INTRODUCTION : ESPACE PROBABILISE 1. Introduction

Ce cours de probabilité est la suite du cours de mesure et d’intégration. Il constitue la base minimale pour aborder un cours fondamental de probabilités, comme les processus stochastiques, le calcul stochastique ou, un cours fondamental de statistiques mathématiques dignes de ce nom. Notre ouvrage Probabilités Elémentaires était consacré aux probabilités discrètes en mettant l’accent sur les éxpériences aléatoires, telles que les modèles de l’urne, sur la génération des variables aléatoire et les calculs associés. Le lecteur ne trouvera pas dans le présent exposé, les résultats de cette nature. Nous lui recommandons de retourner à cette référence ou à des documents semblables pour se mettre à jour, au besoin, en ce qui concerne les probabilités discrètes directement obtenues des expériences aléatoires. Ce cours commence par une nouvelle expression des résultats de la mesure et de l’intégration, au niveau de la terminologie et de l’orientation. Ensuite, des besoins spécifiques à la théorie des probabilités sont abordés et développés. 2. Terminologie probabiliste

2.1. Probabilité. Un espace probabilisé est un espace mesurable (Ω, A, m) où la mesure affecte l’unité à l’espace Ω, c’est-à-dire m(Ω) = 1. Une mesure vérifiant cette propriété s’appelle une probabilité. Les probabilités sont notées en général par les lettres capitales creuses : P,Q, etc. Nous avons donc cette définition : Définition 1. Soit (Ω, A) un espace mesurable. L’application

P: A → R A ,→ P(A) est une probabilité ssi P est une mesure avec P(Ω) = 1, c’est-à-dire – 0≤ P ≤ P(Ω) = 1 – Pour toute suite de parties {An , n ≥ 0} ⊂ A, deux-à-deux disjointes, alors X X P( An ) = P(An ) n≥0

n≥0 5

De même, l’espace Ω s’appelle univers, ou simplement ensemble des aléas. Toute partie mesurable A∈ A devient un évènement. Si le singleton {ω} est mesurable, il s’appelle un évènement élémentaire. A titre d’exemple, considérons l’expérence consistant à lancer deux dés, dont les faces sont numérotés de 1 à 6. Tout couple (i, j), avec 1 ≤ i ≤ 6 et 1 ≤ j ≤ 6, donne un évènement élémentaire {(i, j)}. L’ensemble des aléas possibles est Ω = {1, 2, 3, 4, 5, 6}2 . Ainsi A = {(1, 1), (1, 2), (2, 1)} est l’évènement : la somme des deux faces apparues ne dépasse pas 3. Du fait que P(Ω) = 1, le complémentaire d’un évènement A, dit évènement contraire de A et noté souvent A, s’évalue par P(A) = 1 − P(A). Du coup, une probabilité hérite de toutes les propriétés de la mesure. En particulier, la continuité ne demande plus de conditions supplémentaires puisqu’une probabilité est finie. On a donc Proposition 1. Soit une suite de parties mesurables (An )n≥0 croissant (resp. décroissant) vers A, alors P(An ) croît (resp. décroît) vers P(A).

2.2. Variable aléatoire. Il en est de même pour les applications mesurables. Une application (2.1)

X : (Ω, A) → (E, B)

mesurable est appelée variable (ou élément) aléatoire. La mesure image d’une probabilité P, définie sur A, sur l’espace (E, B) notée PX , est une probabilité définie sur B. Elle est par définition la loi de la variable aléatoire. Nous verrons plus loin la classification des variables aléatoires grâce au Théorème de Radon Nikodym. Pour l’instant, notons qu’on étudie le plus souvent les variables aléatoires quand l’espace d’arrivée est, souvent : – R : on parle alors de variables aléatoires réelles. – Rd (d ∈ N∗ ) : on parle dans ce cas de vecteurs aléatoires t X = (X1 ; X2 , ..., Xd ) – ou un espace métrique (S, d) munie de σ-algèbre borélienne. 2.3. Espérance mathématique. Pour une variable aléatoire, définie par (2.1) , et pour toute applicaction (2.2)

h : (E, B) → R ,

h(X) = h ◦ X : (Ω, A,P) → R est une variable aléatoire réelle. On peut donc s’intéresser à son intégrale par P Z (2.3) h(X) dP Ω 6

Cette intégrale, si elle existe, s’appelle en langage probabiliste, son espérance mathématique, symbolisée par E : Z h(X) dP. E(h(X)) = Ω

Grâce à la formule de l’intégration par le mesure transfert, on a Z Z E(h(X)) = h(X) dP = E(h(X)) = h(x) dPX (x). Ω

E

Si X est elle même une variable aléatoire réelle P-intégrable, on note bien sûr Z E(X) = X dP. Ω

L’espérance mathématique vérifie alors toutes les proprités de l’intégrale déjà vue. Une propriété simple et importante est à retenir tout de suite. Proposition 2. Les variables aléatoires réelles constantes et finies sont intégrables et toute variable aléatoire réelle X bornée est intégrable. Autrement dit : – Pour toute constante M ∈ R, E(M ) = M . – Si X est une variable aléatoire bornée par M ∈ R, alors X est intégrable et |E(X)| ≤ M.

2.4. Evènement presque-sûr. En général, on parle en théorie de la mesure et de l’intégration d’ensembles négligeables. Dans notre contexte, si un ensemble N est négligeable, son contraire vérifie P(N ) = 1 − P(N ) = 1. On dit alors que N est un évènement certain, sûr. Il s’en suit que si une propriété P est dite vraie presque partout, i.e. P({ω ∈ Ω, P(ω) fausse}) = 0, alors P({ω ∈ Ω, P(ω) vraie}) = 1. Une propriété vraie presque partout est alors dite vraie presque sûrement, noté p.s. En conséquence, la convergence presque partout est la convergence presque sûre. La convergence en mesure pour la probabilité P est rebaptisée convergence en probabilité et notée P

Xn → X ou Xn →P X. Rappelons le résultat comparatif entre ces convergences. Proposition 3. Soit X, Xn , n ≥ 1, des variables aléatoires réelles finies p.s. définies sur (Ω, A, P). Alors P – Si Xn → X, p.s., alors Xn → X. 7

P

– Si Xn → X, alors il existe une sous-suite (Xnk )k≥1 de (Xn )n≥1 telle que Xnk →

X, p.s.

Nous compléterons plus tard ce théorème par la convergence dans l’espace R , E |X|p < ∞}, p ≥ 1.

Lp = { X : (Ω, A) →

3. Indépendance

3.1. Indépendances de variables aléatoires. Soit n variables aléatoires X1 , ..., Xn définies sur le même espace Xi (Ω, A,P) 7→ (Ei , Bi ). Soit le n-uplet (X1 , ..., Xn ) défini par (X1 , ..., Xn ) (Ω, A) 7→ (E, B) où E = Π1≤i≤n Ei est l’espace produit de Ei muni de la σ-algèbre produit B =⊗1≤i≤n Bi . On peut définir sur chaque (Ei , Bi ) la loi de probabilité PXi de Xi . Sur l’espace produit (E, B), on peut donc définir la mesure produit PX1 ⊗ ... ⊗ PXn , déterminée par ses valeurs sur la semie-algèbre S={Π1≤i≤n Ai , Ai ∈ Bi } des pavés mesurables : Y Y (3.1) PX1 ⊗ ... ⊗ PXn ( Ai ) = PXi (Ai ). 1≤i≤n

1≤i≤n

Nous voilà avec une première probabilité PX1 ⊗ ... ⊗ PXn , qui la probabilité produit des lois de probabilités marginales. Nous avons aussi sur (E, B) la mesure image de P par (X1 , ..., Xn ) sur (E, B), P(X1 ,...,Xn ) , définie par, pour tout B∈ B, P(X1 ,...,Xn ) (B) = P((X1 , ..., Xn ) ∈ B). Pour A = Π1≤i≤n Ai ∈ S, nous avons P(X1 ,...,Xn ) (Π1≤i≤n Ai ) = P((X1 , ..., Xn ) ∈ Π1≤i≤n Ai ) = P(X1 ∈ A1 , X2 ∈ A2 , ..., Xn ∈ An ), plus simplement (3.2)

P(X1 ,...,Xn ) (Π1≤i≤n Ai ) = P(X1 ∈ A1 , X2 ∈ A2 , ..., Xn ∈ An )

Les probabilités P(X1 ,...,Xn ) et PX1 ⊗ ... ⊗ PXn sont égales dès qu’elles coincident sur la semie-algèbre S. Nous pouvons donner la définition. 8

Définition 2. Les variables aléatoires X1 , ..., et Xn sont indépendantes ssi la loi

conjointe P(X1 ,...,Xn ) du vecteur (X1 , ..., Xn ) est le produit des lois marginales PXi , c’est-à-dire , pour tout Ai ∈ Bi , 1 ≤ i ≤ n, Y (3.3) P(X1 ∈ A1 , X2 ∈ A2 , ..., Xn ∈ An ) = PXi (Ai ). 1≤i≤n

Ramenée en dimension deux, les deux variables X (Ω, A) 7→ (E, B) et Y (Ω, A) 7→ (F, G) sont indépendantes ssi pour toutes parties mesurables A∈ B et B∈ G, P(X ∈ B, Y ∈ G) = P(X ∈ A) × P(Y ∈ B). Retenons donc que lorsqu’on parle d’indépendance entre éléments aléatoires, cellesci sont définies sur un même univers muni d’une même probabilité. Par contre, les espaces d’arrivées peuvent être différentes. La formule (3.3) peut être ré-exprimée au moyen des fonctions mesurables réelles. Nous avons Théorème 1. Les variables aléatoires X1 , ..., et Xn sont indépendantes ssi pour toutes fonctions hi : (Ei , Bi ) 7→ R, mesurables positives Y Y (3.4) E( hi (Xi )) = E(hi (Xi )) 1≤i≤n

1≤i≤n

Démonstration. Il nous faut montrer l’équivalence entre (3.3) et (3.4). Commençons par supposer que (3.4) est vraie. Considérons Ai ∈ B et posons hi = 1Ai . Chaque hi est positive et mesurable. De plus

hi (Xi ) = 1Ai (X) = 1(Xi ∈Ai ) . et donc E(hi (Xi )) = E(1(Xi ∈Ai ) ) = P(Xi ∈ Ai ).

(3.5) De même

Y

hi (Xi ) =

1≤i≤n

Y

1(Xi ∈Ai ) = 1(X1 ∈A1 ,...,Xn ∈An )

1≤i≤n

et donc (3.6)

E(

Y

hi (Xi )) = E(1(X1 ∈A1 ,...,Xn ∈An ) ) = P(X1 ∈ A1 , ..., Xn ∈ An ).

1≤i≤n

En mettant ensemble (3.5) et (3.6), on obtient (3.3). Suppons l’inverse, donc (3.3). Considérons les n applications numériques mesurables hi : (Ei , Bi ) 7→ R. Notons Y E( hi (Xi )) = E(h(X1 , ..., Xn )) 1≤i≤n 9

avec h(x1 , ..., xn ) = h1 (x1 )h2 (x2 )...hn (xn ). L’égalité de la loi conjointe et du produit tensoriel des lois marginales donne. Z E(h(X1 , ..., Xn )) = h(x1 , ..., xn ) dP(X1 ,...,Xn ) (h(x1 , ..., xn ) Z = h(x1 , ..., xn ) d {PX1 ⊗ ... ⊗ PXn } (x1 , ..., xn ). De là, on applique le théorème de Fubini, E(h(X1 , ..., Xn )) = Z Z dPX1 (x1 ) dPX2 (x2 ) ...dPXn−1 (xn−1 ) h(x1 , ..., xn ) dPXn (x1 ) Ω1 Ω2 Z Z Z Z = dPX1 (x1 ) dPX2 (x2 ) ...dPXn−1 (xn−1 ) h1 (x1 )h2 (x2 )...hn (xn ) dPXn (x1 ) Ω1 Ω2 Z Z Z = h1 (x1 ) dPX1 (x1 ) h2 (x2 ) dPX2 (x2 )... .hn (xn ) dPXn (x1 ) Ω1 Ω2 Ωn Y Z Y Z = hi (xi ) dPXi (xi ) = hi (Xi ) dP Z

Z

1≤i≤n

Ωi

1≤i≤n

=

Y

Ωi

E(hi (Xi )).

1≤i≤n



La démontration montre en fait qu’il y a indépendance ssi (3.4) est vraie pour toutes fonctions mesurables hi : (Ei , Bi ) 7→ R, PXi -intégrables, ou simplemenent toutes fonctions hi : (Ei , Bi ) 7→ R mesurables bornées. 3.2. Indépendance d’évènements. L’indépendance d’évènements est obtenue de celles des variables aléatoires. Nous dirons que deux évènements A ∈ A et B ∈ A sont indépendantes ssi les variables aléatoires 1A et 1B sont indépendantes, c’est-à-dire que pour hi : R → R mesurables (i=1,2) (3.7)

Eh1 (1A )h2 (1B ) = Eh1 (1A )Eh2 (1B )

Pour hi (x) = x, cette égalité devient E(1A 1B ) = E(1AB ) = E(1A )E(1B ) c’est-à-dire (3.8)

P(AB) = P(A) × P(B).

Nous devons montrer qu’à son tour (3.8) entraîne (3.7). Pour y arriver, montrons d’abord que (3.8) entraîne que (3.9)

P(Ac B) = P(Ac ) × P(B), 10

P(AB c ) = P(A) × P(B c )

(3.10) et

P(Ac B c ) = P(Ac ) × P(B c ).

(3.11) Supposons (3.8). Puisque

B = AB + Ac B, on a P(B) = P(AB) + P(Ac B) = P(A)P(B) + P(Ac B). D’où P(Ac B) = P(B) − P(A)P(B) = P(B)(1 − P(A)) = P(Ac )P(B). D’où (3.9). Et (3.10) s’obtient de la même manière par échange des rôles de A et B. Pour prouver (3.11), remarquons que Ac B c = (A ∪ B)c = (AB c + Ac B + AB)c . Donc P(Ac B c ) = 1 − P(AB c ) − P(Ac B) − P(AB). = 1 − P(A)P(B c ) − P(Ac )P(B) − P(A)P(B) = 1 − P(A) − P(Ac )P(B) = 1 − P(A) − P(Ac )(1 − P(B c )) = 1 − P(A) − P(Ac ) + P(Ac )P(B c ) = P(Ac )P(B c ). D’où (3.11). Montrons enfin que (3.8) entraîne (3.7). Considérons hi : R → R mesurables (i=1,2). On a h1 (1A ) = h1 (1)1A + h1 (0)1Ac et h2 (1B ) = h2 (1)1B + h2 (0)1B c . Aussi h1 (1A )h2 (1B ) = h1 (1)h2 (1)1AB + h1 (1)h2 (0)1AB c + h1 (0)h2 (1)1Ac B + h1 (0)h2 (0)1Ac B c . D’où E(h1 (1A )) = h1 (1)P(A) + h1 (0)P(Ac ) et E(h2 (1B )) = h2 (1)P(B) + h2 (0)P(B c ). Nous avons aussi Eh1 (1A )h2 (1B ) = h1 (1)h2 (1)P(A)P(B) + h1 (1)h2 (0)P(A)P(B c )

+h1 (0)h2 (1)P(Ac )P(B) + h1 (0)h2 (0)P(Ac )P(B c ). 11

En comparant les trois dernières formules, nous avons bien que Eh1 (1A )h2 (1B ) = Eh1 (1A )Eh2 (1B ). Ceci nous donne la définition (et théorème) Définition 3. (Théorème). Les parties A et B sont indépendantes ssi 1A et 1B

sont indépendantes ssi P(AB) = P(A) × P(B).

(3.12)

Nous devons étendre cette définition à l’ordre k. Soit Ai , 1≤ i ≤ k, des parties mésurables et hi : R → R mesurables (i=1,...,k) des applications mesurables. Les parties Ai sont indépendantes ssi les applications 1Ai sont indépendantes, donc Y Y (3.13) E( hi (1Ai )) = E(hi (1Ai )). 1≤i≤k

1≤i≤k

Pour tout s-uplets d’entiers 1 ≤ i1 ≤ i2 ≤ ... ≤ is ≤ k, on pose hij (x) = x, j = 1, ..., s et hi (x) = 1 pour i ∈ / {i1 , i2 , ..., is }. Avec ce choix des hi , (3.13) devient \ Y (3.14) P( Aij ) = P(Aij ). 1≤j≤s

1≤j≤s

Cette formule est l’équivalent de (3.8) pour deux ensembles. On montre par un fastidieux calcul, qu’elle est équivalente à (3.13). Cela nous donne la définition. Définition 4. (Théorème) Les parties mesurables Ai , 1≤ i ≤ k, sont indépendantes ssi les applications 1Ai sont indépendantes ssi pour tous s-uplet 1 ≤ i1 ≤ i2 ≤ ... ≤ is ≤ k, d’entiers, \ Y (3.15) P( Aij ) = P(Aij ). 1≤j≤s

1≤j≤s

3.3. Transformations d’applications indépendantes. Soit des variables aléatoires Xi : (Ω, A,P) 7→ (Ei , Bi ) , i = 1, ..., n, indépendantes et des fonctions mesurables gi : (Ei , Bi ) 7→ (Fi , Fi ). On démontre aisément que les applications gi (Xi ) sont aussi indépendantes. En effet si hi : Fi → R sont des fonctions bornées mesurables, alors hi (gi ) sont aussi des applications numériques mesurables bornées. Il s’en suit que les applications hi (gi (Xi )) sont PXi -intégrables. Par l’indépendance des Xi , on aura Y Y E( hi ◦ gi (Xi )) = E(hi ◦ gi (Xi )), 1≤i≤n

1≤i≤n

ce qui prouve l’indépendance des hi ◦ gi (Xi ). D’où la proposition. 12

Proposition 4. Les transformations mesurables de variables aléatoires indépendantes sont indépendantes.

3.4. Familles d’applications indépendantes. Soit une famille d’applications mesurables Xt (Ω, A,P) 7→ (Et , Bt ) , t ∈ T. La famille {Xt , t ∈ T } peut être finie, infini dénombrable ou non dénombrable. On dira qu’on a une famille d’applications indépendantes ssi toutes les applications de toute sous-famille finie de cette famille sont indépendantes, c’est-à-dire, pour toute famille finie d’indices {t1 , t2 , ..., tp } ⊂ T, les applications Xt1 , Xt2 , ..., Xtp sont indépendantes.

13

CHAPITRE 2

VARIABLES ALEATOIRES REELLES 1. Inégalités remarquables

Rappelons les inégalités déjà vues en Théorie de la mesure. – Inégalité de Holder. Soit p > 0 et q > 0 deux entiers conjugués, c’est-à-dire vérifiant 1/p + 1/q = 1 et soit X, Y : (Ω, A,P) 7→ R , deux variables aléatoires réelles telles que X est p intégrable et Y q intégrable. Alors |E(XY )| ≤ kXkp × kY kq . – Inégalité de Cauchy-Scharwz. Pour p=q=2, l’inégalité de Holder devient

celle de Schwarz |E(XY )| ≤ kXk2 × kY k2 . – Inégalité de Minskowski. Soit p ≥ 1. Si X et Y sont p intégrables,

kX + Y kp ≤ kXkp + kY kp . Une inégalité fort utile est la cp -inégalité. Elle repose sur cette inégalité relative aux nombres réels, facile à prouver : pour tous réels a et b, |a + b|p ≤ cp |a|p + cp |b|p avec cp = 1 pour p=1 et cp = 2p−1 . On en déduit pour deux variables aléatoires réelles X et Y : pour p ≥ 1, E |X + Y |p ≤ cp E |X|p + cp E |Y |p . Démontrons deux nouvelles inégalités spécifiques pour la probabilité. Proposition 5. (Croissance des espaces Lp ). Soit 0 < p < q. Alors L∞ ⊂

Lq ⊂ L p .

15

Démonstration. Il suffit d’appliquer cette inégalité simple de réels positifs : Pour

tout x∈ R, pour 0 < p < q, |x|p ≤ 1 + |x|q . Cela donne Z Z p |X| dP = 1 + |X|q dP < ∞.

La première inégalité (L∞ ⊂ Lq ) est déjà obtenue pour toute mesure, démontrée dans notre ouvrage de mesure et intégration.  Proposition 6. Inégalité de Jensen. Si φ est une fonction définie sur un intervalle de I dans R convexe et continue. Soit X une variable aléatoire à valeurs dans I telle que E(X) existe. Alors E(X) ∈ I et

φ(E(X)) ≤ E(φ(X)). Remarque 1. Cette propriété est vraie pour un vecteur aléatoire à valeurs dans Rk . Vous pourrez le démontrer sans problème en généralisant la preuve ci-dessous. Démonstration. Supposons vraies les hypothèses. La propriété E(X) ∈ I évidente. Supposons d’abord que I est un compact de la forme I=[a,b]. Donc φ est uniformément continue sur I. Pour ε > 0, il existe δ > 0 tel que

|x − y| ≤ δ ⇒ |φ(x) − φ(y)| ≤ ε.

(1.1)

On peut aussi recouvrir I par des intervalles disjoints, Ej (1≤ j ≤ k), de diamètres au plus égaux à δ. Choisissons un point xj dans chaque Ej . Soit µ une probabilité sur I. Nous aurons Z X φ(xj ) µ(Ej ) φ(x) dµ − I 1≤j≤k X Z X Z X Z X φ(xj ) dµ φ(x) dµ − φ(xj ) µ(Ej ) = = φ(x) dµ − 1≤j≤k Ej 1≤j≤k Ej 1≤j≤k 1≤j≤k Ej X X Z (1.2) ≤ |φ(x) − φ(xj )| dµ ≤ ε µ(Ej ) ≤ ε. 1≤j≤k

Ej

1≤j≤k

De même

Z X xj µ(Ej ) x dµ − I 1≤j≤k Z X Z X Z X X = x dµ − xj µ(Ej ) = x dµ − xj dµ 1≤j≤k Ej 1≤j≤k 1≤j≤k Ej 1≤j≤k Ej Z X X ≤ |x − xj | dµ ≤ δ µ(Ej ) ≤ δ. 1≤j≤k

Ej

1≤j≤k 16

Dès lors par uniforme continuité, Z X (1.3) xj µ(Ej )) ≤ ε. φ( xdµ) − φ( I 1≤j≤k

En appliquant la convexité de φ, on a Z X X φ( x dµ) ≤ ε + φ( xj µ(Ej )) ≤ ε + φ(xj ) µ(Ej ). I

1≤j≤k

1≤j≤k

En appliquant (1.2) au membre d’extrême gauche, on a Z Z φ( x dµ) ≤ 2ε + φ(x) dµ, I

I

pour tout ε > 0. Cela implique alors Z Z (1.4) φ( x dµ) ≤ φ(x) dµ. I

I

Soit I quelquonque et µ une probabilité sur R. On pose In = [an , bn ], avec (an , bn ) → (−∞, +∞) quand n→ ∞ et µ(In ) > 0 pour de grandes valeurs de n. On considère les probablités µn sur In définies par µn (A) = µ(A)/µ(In ), A ⊂ In . On peut donc appliquer l’inégalité (1.4) : Z Z φ( x dµn ) ≤ φ(x) dµn . In

In

Mais, par le théorème de convergence monotone, Z Z Z x dµ = lim x dµ = lim µ(In ) x dµn n↑∞

et

n↑∞

In

Z lim µ(In )

n↑∞

In

Z φ(x) dµn =

φ(x) dµ.

In

Nous concluonsRpar continuité de φ et par le théorème de convergence monotone, en supposant que xdµ existe : Z Z φ( xdµ) = lim φ( xdµ) n→∞

I

In

Z = lim φ(µ(In ) x dµn ) n→∞ In Z ≤ lim µ(In ) φ( x dµn ) + (1 − µ(In )) φ(0) n→∞

In 17

Z Z ≤ lim µ(In ) φ( xdµn ) ≤ lim µ(In ) φ( xdµn ) n→∞

n→∞

In

Z (1.5)

≤ lim µ(In ) n→∞

In

Z φ(x) dµn =

φ(x) dµ.

In

Conclusion de la preuve à partir de (1.5). Appliquons cette formule à µ = PX . On a Z Z φ(EX) = φ( x dPX ) ≤ φ(x) dPX = Eφ(X). 

Proposition 7. (Comparaison des normes Lp ). Soit X ∈ Lq , kXkp ≤ kXkq . Démonstration. 0 < p < q. Soit g1 (x) = xp , g2 (x) = xq . Alors la fonction

g2 ◦ g1−1 (x) = xq/p est convexe sur (0, +∞). Soit X = g1−1 (Y ). On a g2 ◦ g1−1 (E(Y )) ≤ E(g2 ◦ g1−1 (Y )). Donc g1−1 (E(Y )) ≤ g2−1 (E(g2 ◦ g1−1 (Y )), c’est-à-dire g1−1 (E(g1 (X)) ≤ g2−1 (E(g2 (X)). Ce qui donne kXkp ≤ kXkq

 2. Moments

Les moments jouent un rôle important en probabilités. Pour deux variables aléatoires réelles, on peut définir k – Le moment non centrée d’ordre k ≥ 1, s’il existe noté, mk (X) = E |X| k – Le moment centrée d’ordre k ≥ 1, s’il existe noté, µk (X) = E |X − m1 | – Le moment centré d’ordre 2, µ2 (X) = E(X − E(X))2 , est appelé variance de X et noté 2 = E(X − E(X))2 . var(X) = σX Le nombre σX s’appelle écart-type de X. – La quantité cov(X, Y ) = E(X − E(X)(Y − E(Y )) est la covariance entre X et Y. 18

Un développement de la variance donne cette autre forme de calcul : var(X) = E(X 2 ) − E(X)2 Autrement dit, la variance est la différence entre le moment d’ordre deux et le carré de l’espérance. De même que la variance est la covariance entre X et elle-même. La covariance se calcule aussi par cov(X, Y ) = E(XY ) − E(X)E(Y ). On a les résultats suivants Proposition 8. Les assertions suivantes sont vraies (A) var(X) = 0 ssi X = 0 p.s. 2 (B) var(λX) P = λ var(X) P P (C) var( 1≤i≤k Xi ) = 1≤i≤k var(Xi ) + 2 i 0,

P(|X| > λ) ≤

E |X| . λ

– (Inégalité de Tchebychev). Si X est de carré intégrable

P(|X − E(X)| > λ) ≤

var(X) . λ2

Démonstration. Prouvons d’abord l’inégalité de Markov. On a

Z E |X| =

Z |X| dP =

Z

Z

|X| P + (|X|≤λ)

|X| P ≥ (|X|>λ) 19

|X| P ≥ λP(|X| > λ). (|X|>λ)

D’où l’ingégalité. Pour démontrer l’inégalité de Tchebychev, il suffit de ramarquer que (|X − E(X)| > λ) ⇔ (|X − E(X)|2 > λ2 ) et d’appliquer l’inégalité de Markov.



Exemple 1. Donnons une première application. Soit (Xn )≥n une suite de variables aléatoires indépendantes de même espérance mathématique µ et de même variance σ 2 . Soit 1 X Xn = Xi , n 1≤i≤n

la moyenne empirique à l’ordre n. On a E(X n ) = µ. et var(X n ) =

σ2 . n

En appliquant l’inégalité de Tchebychev, on a σ2 P( X n − µ > ε) ≤ 2 → 0 quand n → ∞. nε Cela veut dire que la moyenne empirique converge en probabilité vers µ. En langage statistique, on dira que X n est une estimation de la moyenne inconnue. 3. Variables aléatoires discrètes et absolûment continues.

Soit une variable aléatoire t X = (X1 , ..., Xk ) de (Ω, A) dans Rk . Parmi tous les types de loi de probabilité, on peut en distinguer deux. 3.1. Variables discrètes. Il en est ainsi si X prend des valeurs énumérables sous forme de suites ou d’ensemble fini : VX = {xj , j ∈ J} où I ⊂ N. Notons  P (X = xj ) si x = xj ∈ VX fX (x) = . 0 sinon Nous dirons que la fonction fX qui vérifie (1)

fX ≥ 0 20

(2)

X

fX (xj )

j∈J

est une densité de probabilité discrète portée par VX . Toute intégration par rapport à la loi PX se fera par elle. Car en effet, pour tout application h : Rk 7→ R mesurable, on a X h(X) = h(xj )1(X=xj ) , j

j∈J j

puisque sur h(x) = x sur (X = x ) et les ensembles (X = xj ) partitionnent Ω. Donc Z Z X h dPX = h(X) dP = E(h(X)) = h(xj ) P(X = xj ). j∈J

Ce qui donne bien (FID)

E(h(X)) =

X

h(xj ) fX (xj ).

j∈J

Cette formule est d’une importance cruciale en probabilité, bien que d’une grande simplicité. L’appelation densité de probablité vient du fait de la formule évidente dPX = fX dν, où ν=

X

δxj .

j∈J

Ce qui veut dire que PX admet une densité au sens de Radon-Nikodym par rapport à la mesure de comptage ν. Nous allons voir dans ce qui suit le cas de densités par rapport à la mesure de Lebesgues. 3.2. Variables aléatoires absolûment continues. Beaucoup de phénomènes naturels sont modélisés par des variables aléatoires vectoriels X : (Ω, A, P) 7→ Rk admettant une densité de probabilité par rapport à la mesure de lebesgues λk sur Rk , c’est-à-dire (3.1)

dPX = fX dλk .

Ce qui implique, pour toute variable h : Rk 7→ R, dont l’intégrable par rapport à PX est définie, on a Z Z E(h(X)) = h dPX = fX (x) dλk (x). Nous obtenons la formule d’intégration suivante Z (FIC) E(h(X)) = fX (x) dλk (x). 21

Ce type de variable est dit absolûment continu, de densité de probabilité absolûment continue fX . Puisque PX est une probabilité, fX est forcément positif. De plus, en appliquant (3.1) à Ω, on aura Z fX (x) dλk (x) = 1. Les deux conditions – (1) fX ≥ 0 et – (2)

Z fX dλk = 1, définissent, comme dans le cas discret, la densité de probabilité. Les deux formules d’intégration discrète (FID) et d’intégration continues (FIC) constituent le point de départ de tout calcul en probabilités. A ce niveau de la théorie, nous avez eu l’opportunité de comprendre leur origine. A un niveau inférieur, on peut tout aussi bien les supposer et de faire la théorie subséquente. Le signe intégral de la formule (FIC) remplace le signe somme de la formule (FID). 3.3. Cas général. Bien qu’on travaille souvent avec des variables discrètes ou absolûment continues, il ne s’agit que de cas simples. Il existe d’innombrables possibilités, en dehors de ces cas. Par exemple, soit une probabilité de densité de probabilité discrète f1 dν, où la mesure de compage ν est supporté par V = {xi , i ∈ I} et une autre de densité de probabilité absolûment continue f2 dλk , et soit un nombre 0 < p < 1. Alors PX = p f1 dν + (1 − p) f2 dλk est aussi une probabilité, ni discrète, ni absolûment continue. Ceci est un exemple simple de mélanges de lois.

22

4. Fonctions de répartition

Dans cette partie, nous traitons des variables aléatoires multidimensionelles, qui s’appliquent bien sûr au cas particulier de R. 4.1. Définition et caractérisation. Jusqu’à présent, une variable aléatoire n’est déterminée que par sa loi de probabilité PX . Nous verrons de plus en plus des caractéristiques de cette loi. La première que nous voyons ici est la fonction de répartition. Définition 5. Pour tout vecteur aléatoire X : (Ω, A, P) 7→ Rk , la fonction

x 7→ FX (x) = P(X ≤ x), s’appelle fonction de répartition de la variable aléatoire X. Nous avons déjà vu que FX (x) = PX (] − ∞, x])

(4.1)

est une fonction de distribution, c’est-à-dire, (2) FX est continue à droite (3) Pour tout a ≤ b, ∆(a,b) FX ≥ 0. Pour la notation et le sens de ∆(a,b) FX , il faut se référer au cours de mesure et intégration. De plus, (4.1) entraîne (1)

lim

∀1≤i≤k,xi ↑∞

FX (x) = 1

et lim

∃(1≤i≤k),xi ↑−∞

FX (x) = 0.

Les points (2) et (3) ci-dessus, permettent de définir, au moyen du théorème de Carathéodory, une et seule mesure σ-sigma finie PX définie par (4.1). Le point (1) garantit que PX est une probabilité. Nous en déduisons Proposition 10. La fonction de répartition FX caractérise la loi de X, autrement dit, une fonction de répartition FX est associée à une seule loi de probabilité PX .

4.2. Densité absolûment continue. Supposons que la fonction de répartition admette une dérivée partielle ∂ k FX (x1 , x2 , ..., xk ) ∂x1 ∂x2 ...∂xx Riemann intégrable. On peut retrouver la primitive sur [−∞, x], x = (x1 , ..., xn ) : Z x1 Z x2 Z xk Z (4.2) FX (x) = dx1 dx2 ...dxk−1 fX (x1 , ..., xk ) dxk = fX dλk . fX (x1 , x2 , ..., xk ) =

−∞

−∞

−∞ 23

(−∞,x)

Ainsi, on peut retrouver la densité de probabilité absolûment continue si la fonction fX est sufisamment régulière. En effet si la dérivée partielle est Riemann intégrable par exemple sur des compacts [a, b], (4.2) devient une intégrale de Lebesgues. Dans la pratique, c’est ce type d’opération qu’on fera pour avoir la densité. Nous allons utiliser ce résultat pour faire la revue des lois de probabilité usuelles. 4.3. Produit de convolution de densités de probabilité. Soit X et Y deux variables aléatoires réelles définies sur le même espace probabilisé (Ω, A, P) et indépendantes et soit Z=X+Y. Supposons que X et Y admettent des densités de probabilités par rapport à la mesure de Lebesgues fX et fY . Z admet une densité dite produit de convolution des densités de X et de Y notées fX+Y = fX ∗ fY . Proposition 11. On a

Z fX (z − x) fY (x) dx.

fX ∗ fY (z) = R

Prouvons cela. Nous avons Z FZ (z) = P(X + Y ≤ x) =

dP(X,Y ) (x, y). (x+y≤z)

Puisque X et Y sont indépendants, nous avons P(X,Y ) = PX ∗ PY . Appliquons le théorème de Fubini. Z Z Z FZ (z) = (x + y)dP(X,Y ) (x, y) = dPX (x)

dPY (y)

y≤z−x

Z =

Z fX (x)dx(

fY (y)dy).

y≤z−x

Posons le changement de variables u=y+x, on a Z Z Z Z FZ (z) = fX (x) dx( fY (u − x) du = fX (x) dx (

fY (u − x) du).

−∞

u≤z

Ré-appliquons le théorème de Fubini pour avoir Z Z Z z FZ (z) = fY (u − x) fX (x) dx dy =

z

Z ( fY (u − x) fX (x) dx) du.

−∞

−∞

En dérivant en z, nous aurons Z fZ (z) =

z

fY (z − x) fX (x) dx 24

5. Fonctions caractéristiques

Introduisons un autre outil de caractérisation de lois de probabilités. 5.1. Définitions et premières propriétés. Définition 6. Pour tout vecteur aléatoire X : (Ω, A, P) 7→ Rk , la fonction

u 7→ φX (u) = E(ei ) s’appelle fonction caractéristique de la variable aléatoire X. Cette fonction existe toujours puisque E(ei ) = E(cos < X, u >) + i E(sin < X, u >). On définit aussi, si elle existe, la fonction génératrice des moments de X par u 7→ ϕX (u) = E(e ). Cette fonction n’existe pas toujours mais elle s’avère très utile pour traiter les vecteurs gaussiens. Elle a l’avantage d’éviter les nombres complexes pour les non mathématiciens. Si elle existe, elle permet d’exprimer la fonction caractéristique par : φ(u) = ϕ(iu). La fonction caractéristique possède deux propriétés immédiates : Proposition 12. Pour tout u∈ Rk , kφX (u)k ≤ 1 = kφX (0)k . De plus la fonction

φX (u) est uniformément continue en tout u. Cette proposition n’appelle pas de preuve. La deuxième propriété est une conséquence simple du théorème de convergence dominée (TCD). D’autres propriétés sont moins évidentes. En voici un échantillon. Théorème 2. Nous avons : – Soit X un vecteur aléatoire de Rk , A une matrice m × n, B un vecteur de Rm ,

alors le vecteur Y=AX+B de Rm aura pour fonction caractéristique : Rm 3 u 7→ φY (u) = e φX (t Au) – Soit X et Y deux vecteurs aléatoires indépendants de Rk , alors pour tout u∈ Rk ,

φX+Y (u) = φX (u) × φY (u). – Soit X et Y deux vecteurs aléatoires respectifs de Rk et de Rm . Alors X et Y

sont indépendants ssi pour tout u∈ Rk et pour tout v∈ Rm , (5.1)

φ(X,Y ) (u, v) = φX (u) × φY (v)

Etablissons la preuve. 25

Démonstration. Point (1). Par définition < AX + B, u >= t (AX + B)u = t

X(t Au)+ t Bu. D’où t

t

t

t

φAX+B (u) = E(e X( Au)+ Bu ) = e × E(e . Y v D’où  φ(X,Y ) (u, v) = E(exp <

X Y

   u , >) v

= E(e+ ) = E(e )E(e ) = φX (u) × φY (v). Soit maintenant (5.1) vraie. Mais le membre de gauche est la fonction caractéristique associée au produit tensoriel PX ⊗ PY . Pour le voir, utilisons le théorème de Fubini Z Z Z ux+vy dPX (x) e dPX ⊗ PY (x, y) = Rk

Z

ux

Z

e dPX (x) Rk

eux evy dPY (y)

Rm

evy dPY (y) = φX (u) × φY (v).

Rm

D’où, par la caractérisation de la section à venir. P(X,Y ) = PX ⊗ PY . D’où l’indépendance.



Abordons maintenant l’aspect caractérisation. 26

5.2. Caractérisation des lois de probabilités. Nous allons montrer que les fonctions caractéristiques sont aussi déterminantes des lois de probabilités. Théorème 3. Soit X et Y deux vecteurs aléatoires de même dimension. Leurs deux fonctions caractéristiques coincident ssi elles ont la même la même loi. Autrement dit φX = φY ⇔ PX = PY . Démonstration. Nous proposons la démonstration complète en annexe de l’ou-

vrage. Le lecteur intéressé peut s’y rapporter. NOus nous contentons dans le texte de l’ouvrage pour une preuve en dimension une. Nous allons montrer simplement que la fonction de répartition FX s’obtient à partir de la fonction caractéristique. La caractérsisation s’en suivra. Partons de la formule de Dirichlet Z +∞ Z b sin x sin x dx = lim dx = π. a→−∞,b→+∞ a x x −∞ Rb Nous en déduisons que les nombres a sinx x dx sont uniformément bornés en a et b. Posons Z U −iau 1 e − e−ibu JU (a, b) = JU = φX (u) du, a < b. 2π −U iu On a par le théorème de Fubini  Z Z U −iau 1 e − e−ibu iux JU = e dPX (x) du 2π −U iu Z U −i(a−x)u Z Z e − e−i(b−x)u 1 du = J(U, x)dPX (x), = dPX (dx) × 2π −U iu avec Z U −i(a−x)u 1 e − e−i(b−x)u J(U, x) = du 2π −U iu Z U cos(u(a − x)) − cos(u(b − x)) 1 du = 2πi −U u Z U 1 sin(u(b − x)) − sin(u(a − x)) + du. 2π −U u Mais Z U cos(u(a − x)) − cos(u(b − x)) du = 0 u −U car les fonctions intégrées sont impaires sur le domaine d’intégration symétrique par rapport à zéro. Il reste Z U 1 sin(u(b − x)) − sin(u(a − x)) J(U, x) = du 2π −U u 27

1 = 2π

Z

U (b−x)

−U (b−x)

sin v 1 dv − v 2π

Z

U (a−x)

−U (a−x)

sin v dv. v

On voit déjà que J(U,x) est uniformément borné par la formule de Dirichlet. De plus en tenant compte du signe de (b − x) et de (a − x) selon la position de x par rapport à l’intervalle (a, b), on constate aisément que (x < a ou x > b) ⇒ J(U, x) → 0 quand U → +∞, (x = a ou x = b) ⇒ J(U, x) → 1/2 quand U → +∞ et (a < x < b) ⇒ J(U, x) → 1 quand U → +∞. Donc 1 1 J(U, x) → 1]a,b[ + 1{a} + 1{b} . 2 2 On peut appliquer le théorème de convergence dominée. Ce donnera  Z  1 1 JU → 1]a,b[ + 1{a} + 1{b} dPX (x) 2 2 1 = FX (b−) − FX (a) + (FX (a) − FX (a+) + FX (b) − FX (b−)). 2 Si a et b sont deux points de continuité, on a bien : pour a < b, Z U −iau e − e−ibu 1 φX (u) du. FX (b) − FX (a) = JU (a, b) = lim U →∞ 2π −U iu Il s’en suit que si deux variables aléatoires réelles ont la même fonction caractéristique, alors pour a < b points de continuité de FX et FY , on a FX (b) − FX (a) = FY (b) − FY (a). On pourra trouver une suite de points an de continuité de FX et FY tendant vers -∞. On déduit que pour tout point de continuité x de FX et de FY FX (x) = FY (x). Or l’ensemble des points de discontinuité de FX et de FY est au plus dénombrable. Pour chacun de ces points x, on peut trouver une suite xn de points de continuité x de FX et de FY telle que xn ↓ x. Par continuité à droite, FX et FY coincident aussi sur les points de discontinuité et coincident partout.  28

5.3. Fonctions caractéristiques et moments. On peut retrouver les moments à partir de la fonction caractéristique de la manière suivante. Ecrivons Z φX (u) = eiux dPX (x). La fonction g(u, x) = cos(ux) + i sin(ux) = eiux est dérivable par rapport à u et sa dérivée est g 0 (u, x) = ix(cos(ux) + i sin ux)) = ixeiux . Elle est bornée par la fonction Y (x) = |x| dont l’intégrale est l’espérance mathématique de X : Z Z Y (x)dPX (x) = |x| dPX (X) = E |X| . Autrement dit, on peut intervertir les signes dérivée et intégrale. On obtient Proposition 13. Si E(X) existe, alors la fonction est u 7→ φX (u) est déribale et

on a φ0X (u)

Z =

ixeiux dPX (x).

On en déduit : i × E(X) = φ0X (0). D’une manière générale, si E |X|k existe pour k≥ 1. Alors u 7→ φX (u) est k-fois dérivable et Z (k) k φX (u) = i xk eiux dPX (x) et E |X|k = −ik

(k)

φX (0).

La deuxième partie s’obtient simplement par induction. 5.4. Résumé. Nous avons les moyens à présent de déterminer les distributions usuelles, que nous déterminerons soit par une fonction de répartition, soit par la fonction caractéristique. Il est aussi impotant de connaitre les paramètres des lois usuelles. Dans le chapitre qui suit, nous ferons le tour des lois usuelles. Cependant l’application des lois de probabilité sur des phénomènes réels est du ressort des statistiques. Vous aurez à trouver la loi de variables aléatoires. Les pistes suivantes sont possibles (A) En cas de somme de deux variables indépendantes, on peut utiliser le produit de convolution ou le produit des fonctions caractéristiques. (B) On peut d’une manière générale calculer la fonction de répartition et de dériver si possible pour identifier une densité connue. (C) On peut aussi déterminer directement la fonction caractéristique. 29

Nous allons donner une autre méthode basée sur le changement de variables. 6. Changement de variables.

Rappelons la formule de changement de variables d’une intégrale de Riemann dans Rk . 6.1. Formule de changement de variable d’intégration. Soit l’intégrale de Riemann de Rk , Z f (x) dx I= D

où D est une partie ouverte de Rk . Supposons qu’elle soit difféomorphe à un autre domaine ouvert ∆ de Rk , c’est-à-dire qu’il existe une bijection h : ∆ 7→ D telle que h et sa réciporque sont toutes deux de classe C1 , c’est à dire admettant des dérivées partielles continues. On peut donc noter D 3 x = h(y) ←→ y ∈ ∆. Notons par hi les composantes h : xi = hi (y) = hi (y1 , ..., yk ). On forme la matrice formée par les éléments ∂xi hi (y1 , ..., yk ) = ∂yj ∂yj notée " M (h) =

∂xi ∂yj

 # . ij

Le déterminant de M(h) s’appelle Jacocien de la transformation noté "  #! ∂xi J(h, y) = det . ∂yj ij Alors l’intégrale I se transforme ainsi Z I= f (h(y)) |J(h, y)| dy ∆

Prenons un exemple. Calculons Z I=

2 +y 2 )

e−(x

[0,+∞[×[0,+∞[ 30

dx dy.

Effectuons le changement de variables polaires   x = r cos θ y = r sin θ avec (x, y) ∈ D = [0, +∞[×[0, +∞[←→ (r, θ) ∈ [0, +∞[×[0, π/2]. Donc ∂x ∂x cos θ −r sin θ ∂r ∂θ = r cos2 θ + r sin2 θ = r. J(r, θ) = ∂y ∂y = sin θ r cos θ ∂r ∂θ D’où

Z I=

re

−r 2

Z

Z

dr dθ =

[0,+∞[×[0,π/2]

[0,π/2]

Mais, par le théorème de Fubini, Z Z −x2 e dx I= [0,+∞[

−y 2

e

Z

+∞

[0,+∞[

Z

+∞

dy = (

π . 4

2

e−u du)2 .

0

[0,+∞[

D’où

2

re−r dr =





π . 2 0 Par un chagement de variable simple et en tenant compte de la parité de exp(−u2 /2), on aboutit à Z +∞ 1 2 √ e−u /2 du = 1. 2π −∞ Ce qui donne une densité de probabilité. Appliquons maintenant cela pour le changement de densité. −u2

e

du =

6.2. Changement de variable pour une densité. Soit un vecteur aléatoire X densité de probabilité fX par rapport à la mesure de Lebesgues dans Rk notée encore dx. Supposons que X doit dans le domaine D. Soit h : ∆ 7→ D un difféomorphisme et Y = h−1 (X) un autre vecteur aléatoire. Alors Y admet la densité de probabilité suivante : fY (y) = fX (h(y)) |J(h)| 1∆ (y). Pour le voir, il faut évaluer, pour un borélien B de Rk , Z =

P(Y ∈ B) = P(X ∈ h(B)) Z fX (x) dx = fX (x) dx. h−1 (x)∈B

x∈h(B) 31

On applique la formule du changement de variable : Z P(Y ∈ B) = fX (h(y)) 1∆ (y) |J(h, y)| dy y∈B

Z {fX (h(y)) 1∆ (y) |J(h, y)|} dy.

= B

On en déduit que fY (y) = fX (h(y)) 1∆ (y) |J(h, y)| est bien la densité de Y. Gradez bien à l’esprit cette tranformation qui servira à trouver les lois des statistiques des classiques de l’échantillon gaussien.

32

CHAPITRE 3

LOIS DE PROBABILITE USUELLES Les lois discrètes ont été passées en revue en probabilités usuelles. Nous y reviendrons brièvement, en ajoutant la fonction caractéristique. 1. Lois discrètes

1.1. Loi constante. X prend une seule valeur a. – Loi de Probabilité : P(X = a) = 1. – Fonction de répartition :

FX (x) = 1[a,+∞[ . – Fonction caratéristique :

φX (u) = eiau – Moments :

EX k = ak , V ar(X) = 0.

1.2. Loi uniforme : X ∼ U(1,2,...,n) prend n valeurs 1, 2, ..., n avec la même probabilité. – Loi de probabilité : P(X = k) = 1/n, k ∈ {1, ..., n} – Fonction de répartition :

F (x) =

i i i+1 , pour ≤ x ≤ n n n

F (x) = 0 pour x < 1 et F (x) = 1 pour x ≥ n. 33

– Fonction caractéristique n

1 X iju φX (u) = e . n j=1 – Moments n

EX k =

1X k j n j=1

1.3. Loi de Bernouilli. X ∼ B(p), 0 < p < 1, prend deux valeurs 1 et 0. – Loi de probabilité : P(X = 1) = p = 1 − P(X = 0). – Fonction de répartition

F (x) = 0 × 1]−∞,0[ + p × 1[0,1[ + 1[1,+∞[ . – Fonction caractéristique

φX (u) = q + peiu . – Moments

EX k = p. 1.4. Loi binomiale. X ∼ B(n, p), 0 < p < 1 and n ≥ 1, prend les valeurs 0, 1, ..., n – Loi de probabilité : P(X = k) = Cnk pk (1 − p)n−k , k = 0, ..., n. – Fonction caractéristique : X est la somme de n variables aléatoires indépen-

dantes suvant toute une loi de Bernouilli. Donc φX (u) = (q + peiu )n . – Moments :

E(X) = np, V ar(X) = np(1 − p). 34

1.5. Loi géométrique. X ∼ G(p), 0 < p < 1, prend les valeurs de N. – Loi de probabilité : P(X = k) = p(1 − p)k , k ∈ N. – Fonction caractéristique.

φX (u) = p/(1 − qeiu ). – Moments.

E(X) = q/p, V ar(X) = q/p2 . 1.6. Loi binomiale négative. X ∼ BN (r, p), r ≥ 1 et 0 < p < 1, prend les valeurs r, r + 1, ... – Loi de probabilité : r−1 k P(X = k) = Ck−1 p (1 − p)r−k , k ≥ r.

– Fonction caractéristique

 r φX (u) = peiu /(1 − qeiu . – Remarque : X-k est la somme de r variables aléatoires indépendantes suivant

toute la loi géométrique de paramètre p. 1.7. Loi de Poisson. X ∼ P(λ), λ > 0, prend les valeurs de N. – Loi de Probabilité : λk P(X = k) = e−λ , k ≥ 0. k! – Fonction caractéristique

φX (u) = exp(λ(eiu − 1)). – Moments :

E(X) = V ar(X) = λ. 1.8. Loi hypergémétrique. X ∼ H(N, θ, n) ou H(N, M, n), 1 ≤ n ≤ N, 0 < θ < 1, θ = M/N, prend les valeurs 0, 1, ..., min(n, M ). – Loi de probabilité : (X = k) =

k CM × CNn−k −M , k = 0, ..., min(n, M ). CNn

– Fonction caractéristique : non usitée. 35

– Moments

E(X) = rM/n, V (X) = rM (n − M )(n − r)/{n2 (n − 1)}. 1.9. Loi logarithmique. X ∼ Log(p) prend les valeurs 1,2, ... – Loi de probabilité : P(X = k) = −qk/(kLogp), k ≥ 1. – Fonction caractéristique

φX (u) = log(1 − qeiu )/ log(p). – Moments :

E(X) = −q/(p log(p)), V (X) = −q(q + log(p))/(p log(p)). 2. Lois absolument continues.

Nous donnerons la densité et la fonction de répartition. Il vous est conseillé de faire les culculs des fonctions caractéristiques et des moments. Dans la section 3, nous reviendrons sur certains calculs. Remarquons d’une manière générale, une variable aléaroire X à valeur absolûment continue, de fonction de répartition, est définie sur un intervalle fermé D(F ) = [x0 (F ), x1 (F )]. D(F) est le plus petit intervalle fermé I de R tel P (X ∈ I) = 1. On peut aussi définir x0 (F ) = inf{x, F (x) > 0} et x1 (F ) = sup{x, F (x) < 1}. 2.1. Loi uniforme. X ∼ U (a, b), avec a < b, est définie sur [a, b]. – Densité de probabilité 1 fX (x) = 1[a,b] (x) b−a – Fonction de répartition.

FX (x) =

 

1 pour x ≥ b (x − a)/(b − a) pour a ≤ x ≤ b  x pour x ≤ a. 36

– Fonction caractéristique :

eibu − eiau φX (u) = . iu(b − a) – Paramètres

E(X) = (a + b)/2, et V ar(X) = (b − a)2 /12. 2.2. Loi exponentielle. X ∼ E(λ), avec λ > 0, est définie sur R+ . – Densité : fX (x) = λe−λx 1(x≥0) . – Fonction de répartition :

FX (x) = (1 − e−λx )1(x≥0) . – Fonction caractéristique :

φX (u) = (1 − iu/λ)−1 . – Moments :

E(X) = 1/λ, V ar(X) = 1/λ2 . 2.3. Loi gamma. – X ∼ γ(a, b), avec λ > 0, est définie sur R+ . – Densité :

fX (x) =

ba a−1 −bx x e 1(x≥0) Γ(a)

et Z Γ(a) =



xa−1 e−x dx.

0

– Fonction caractéristique :

φX (u) = (1 − iu/a)−b . – Moments :

E(X) = a/b, V ar(X) = a/b2 . – Remarque première : Une loi exponentielle E(λ) est une loi gamma γ(1, λ). – Remarque deuxième : Une loi gamma γ(1/2, n/2) s’appelle loi du khi-deux à

n degrés de libertés. 37

2.4. Loi Béta. X ∼ B(a, b), avec a < b, est définie sur (0, 1) – Densité de probabilité : fX (x) =

1 xa−1 (1 − x)b−1 1(0,1) (x) B(a, b)

avec Z B(a, b) =

1

xa−1 (1 − x)b−1 dx.

0

– Moments :

E(X) = a/(a + b); V ar(X) = ab/[(a + b)2 (a + b + 1)]. 2.5. Loi de Paréto. X ∼ P ar(k, α), avec α > 0 et k ≥ 0. – Densité : fX (x) = ak a x−a−1 1(x>k) . – Moments :

E(X) = ak/(a − 1) si a > 1; V ar(X) = ak 2 / {(a − 2)(a − 1)} , si a > 2. 2.6. Loi de Cauchy. X ∼ C(λ, a), avec λ > 0 et a ∈ R, est définie sur R. – Densité : 1 fX (x) = −2 λπ(1 + λ (x − a)2 ) – Fonction caractéristique non usitée. Les moments n’existent pas.

2.7. Loi logistique. X ∼ l(a, b) avec a ∈ R et b > 0, est définie sur R. – Densité de probabilité. fX (x) = b−1 e−(x−a)/b /(1 + e−(x−a)/b ), x ∈ R. – Fonction de répartition :

φX (u) = eiau πb cosec(iπbu). – Moments :

E(X) = a; V (X) = b2π 38

2 /3

.

2.8. Loi de Weibull. X ∼ W (a, b), avec a > 0 et b > 0, est définie sur R+ . – Densité : fX (x) = ab xb−1 exp(−ax−b )1(x>0) – Fonction caractéristique :

φX (u) = a−iu/b Γ(1 + iu/b) – Moments :

E(X) = (1/a)1/b Γ(1 + 1/b); V (X) = a−2/b (Γ(1 + 2/b) − Γ(1 + 1/b)) Loi de Gumbel X ∼ Gu(a, b), avec a ∈ R, b > 0, est définie sur R. – Densité de probabilité : fX (x) = (u/b)e−u , avec u = e−(x−a)/b . – Fonction caractéristique :

φX (u) = eiua Γ(1 − ibu). – Moments

E(X) = a + γb (γ = 0.5772 est la constante d’Euler). V ar(X) = π 2 b2 /2. 2.9. Loi doubel exponentielle. X ∼ DE(λ), avec λ > 0, est définie sur R. – Densité : λ fX (x) = exp(−λ |x|), x ∈ R. 2 – Fonction caractéristique :

φX (u) = (1 + (u/λ)2 )−1 . – Moments :

E(X) = 0, V ar(X) = 2λ−2 . 39

2.10. Loi normale. X ∼ N (m, σ 2 ), avec m ∈ R et σ > 0, est définie sur R. – Densité : 1 fX (x) = √ exp(−(x − m)2 /σ 2 ), x ∈ R. 2π – Fonction caractéristique :

φX (u) = e−um exp(−σ 2 u2 /2). – Moments :

E(X) = m, V ar(X) = σ 2 .

40

Exercice 1. Soit X et Y deux variables aléatoires de variances non nulles. – Montrer que var(λX + Y ) = λ2 var(X) + 2λcov(X, Y ) + var(Y ). – En analysant le signe du trinôme, déduire du discrimant que |ρXY | ≤ 1. – En déduire que si |ρXY | = 1, alors Y est une fonction linéaire de X :

Y =b aX + bb avec les coefficients 2 b a = −σX,Y /σX et bb = E(Y ) − b aE(X).

. Cela explique la dénomination de coefficient linéaire.

41

CHAPITRE 4

CONVERGENCE DE VARIABLES ALEATOIRES Considérons une suite de variables aléatoires réelles (Xn ) et une autre variable aléatoire réelle X toutes définies sur le même espace de probabilité (Ω, A, P ). Ce chapitre s’intéresse aux différents types de convergence de Xn vers X faisant intervenir l’aléa ω. Nous en étudierons trois. (A) La convergence en probabilité (B) La convergence presque sûre (C) La convergence dans Lp . Nous verrons les rapports entre eux. Dans ce chapitre, la notion d’équi-intégration apparaîtra et constitueara une nouveauté par rapport à ce qui a été vu jusqu’à présent. 1. Convergence en probabilité.

Elle correspond à ce que nous avons déjà vu sous le mon de convergence en mesure. Définition 7. Xn vers X en probabilité et notée

Xn →P X ssi pour tout ε > 0, P(|Xn − X| > ε) → 0 quand n → ∞. Nous pouvons rappeler les propriétés déjà obtenue en mesure. – Xn = a →P a. – La limite en probabilité, si elle existe, est unique p.s. – Si Xn →P X et Yn →P Y, si a et b sont deux nombres réelles aXn + bYn →P aX + bY, Xn Yn → XY et, si P(Xn 6= 0) = 1, 1/Xn → 1/X. – Xn converge en probabilité ssi elle est une suite de Cauchy en probabilité,

c’est-à-dire, pour tout ε > 0, lim

n→∞,m→∞

P(|Xn − Xm | > ε) = 0. 43

Convergence presque sûre. Elle correspond à ce que nous avons déjà vu sous le nom de convergence presque partout. Définition 8. Xn vers X presque sûrement et notée

Xn → X, p.s. ssi P(Xn → X) = 1 quand n → ∞. Nous pouvons rappeler les propriétés déjà obtenue en mesure. – La limite presque sûre, si elle existe, est unique p.s. – Si Xn → X p.s et Yn → Y p.s, si a et b sont deux nombres réelles aXn + bYn → aX + bY p.s, Xn Yn → XY p.s et, si P(Xn 6= 0) = 1, 1/Xn → 1/X p.s.. – Xn converge en probabilité ssi elle est une suite de Cauchy en probabilité,

c’est-à-dire, pour tout ε > 0, lim

n→∞,m→∞

P(|Xn − Xm | → 0) = 1.

2. Convergence dans Lp

Nous nous plaçons ici dans l’espace Z

p

L = {X : (Ω, A, P) → R mesurable et

|X|p dP < ∞},

pour 0 < p ≤ ∞, muni de sa norme kXkp = (E |X|p )1/p Nous savons que pour p ≥ 1, Lp est un espace normé complet, espace de Banach. De plus L2 est un espace de Hilbert. De plus nous avons (A) 0 < p < q ⇒ Lq ⊂ Lp (B) 0 < p < q ⇒ k·kq ≤ k·kp (C) limr↑∞ kXkr = kXk∞ dès que kXk∞ est fini. Les points (A) et (B) ont déjà été vus. Montrons le point (C). D’abord rappelons que kXk∞ = inf{C, |X| ≤ C p.s}. 44

Posons s = kXk∞ . Alors |X| ≤ s p.s et pour tout r ≥ 1 et 0 < c < s. Z Z Z r 1/r r r 1/r s ≥ (E |X| ) = ( |X| dP + |X| dP ) ≥ ( |X|r dP )1/r ≥ c×P (|X| ≥ c)1/r . |X|≥c

|X| 0 sinon c serait une majoration presque sûre de |X| plus petite de kXk∞ et on aurait une absurdité. Donc 1 P (|X| ≥ c)1/r = exp( log P (|X| ≥ c) → 1 r quand r→ ∞. Maintenant si c ↑ s, on obtient s = lim kXkr = kXk∞ . r↑∞

Définition 9. On dira que Xn converge X dans Lp ssi

{Xn , n ≥ n, X} ⊂ Lp et kXn − Xkp → 0. Les propriétés de cette convergence sont celles de la convergence dans un espace normé complet. Ses rapports avec les autres types de convergence sont importants. Pour cela, introduisons la notion d’équi-intégrabilité. 3. Equi-intégrabilité.

Pour commencer, considérons une variable aléatoire X. Elle est dite P-absolument continue ssi Z |X| dP → 0 quand P (A) → 0. A

Elle est dite équi-intégrable ssi Z |X| dP → 0 quand c → ∞. |X|>c

On a déjà montré en théorie de la mesure qu’une application mesurable intégrable est P-absolument continue. Il est aussi évident la P-absolue continuité entraîne l’équi-continuité puisque P(|X| > c) → 0 quand c → ∞. Supposons que X soit P-absolument continue. Soit B=(|X| > c). Donc P (B) → 0 quand c → ∞.On a pour toute partie mesurable A, Z Z Z Z (3.1) |X| dP ≤ |X| dP + |X| dP ≤ |X| dP + cP (A). A

AB c

AB

Pour ε > 0, on a pour c suffisamment grand, Z (3.2) |X| dP ≤ ε + cP (A). A 45

B

D’où pour A=Ω, Z |X| dP ≤ ε + c. A

En résumé, une variable aléatoire réelle est P-absolument continue ssi elle est intégrable. De plus (3.2) montre que que si P(A)→ 0, on obtient Z lim sup |X| dP ≤ ε, A

pour tout ε > 0 et donc Z |X| dP = 0.

lim P (A)→0

A

Cette formule montre aussi que l’équi-intégration entraine la P-absolûment continuité. Etendons maintenant la définition à une famille de variables aléatoires F = {Xt , t ∈ T }. Cette famille est dite uniformément P-absolument contunue ssi Z sup |Xt | dP → 0 quand P (A) → 0. t∈T

A

Elle est dite uniformément equi-continue ssi Z sup |Xt | dP → 0 quand c → ∞. t∈T

|Xt |>c

Donnons un exemple où la famille est uniformément équi-intégrable. 1+r

Exemple 2. Soit M = supt∈T E |Xt |

< ∞ pour r > 0. Alors la famille est

uniformément equi-intégrable. En effet Z Z Z Z 1 1+r 1+r −r −r |Xt | dP ≤ c dP ≤ c |Xt |1+r dP ≤ M c−r. |Xt | dP = r |Xt | |X | t |Xt |>c |Xt |>c |Xt |>c D’où, quand c → ∞, Z sup t∈T

|Xt | dP ≤ M c−r → 0.

|Xt |>c

Voilà la résultat qu’on peut énoncer : Proposition 14. La famille F est uniformément P-absolûment continue ssi elle est uniformément équi-intégrable et les intégrales de ses membres sont uniformément bornées. Démonstration. Soit F uniformément P-absolûment continue et que les inétégrales de F soient uniformément bornées, disons par M, 0 < M < ∞. L’uniforme continuité veut dire, Z ∀(ε > 0), (∃η > 0), P (A) < η ⇒ |Xt | dP ≤ ε. A 46

Mais l’inégalité de Markov donne P (B(t)) = P (|Xt | > c) ≤ E |Xt | /c = M/c → 0 uniformément en t ∈ T, quand c → ∞. Donc pour M/c < η, on a sup P (B(t)) < η t∈T

et donc Z |Xt | dP < ε.

sup t∈T

B(t)

D’où Z |Xt | dP = 0.

lim sup

c→∞ t∈T

B(t)

D’où l’uniforme équi-continuité. Supposons que F uniformément équi-intégrable et que les intégrales de ses membres sont uniformément bornées disons par M (0 < M < ∞). Utilisons (3.1) pour avoir pour tout t ∈ T, Z Z |Xt | dP + cP (A). |Xt | dP ≤ B(t)

A

Ceci implique d’une part que Z Z |Xt | dP ≤ sup t∈T

|Xt | dP + c.

B(t)

Donc pour c suffisament grand, Z |Xt | dP ≤ ε + c. Et donc les éléments sont uniformément intégrables. D’autre part, P (A) → 0 implique que Z Z lim sup |Xt | dP < |Xt | dP → 0 quand c → ∞. P (A)→0

A

B(t)

D’où Z |Xt | dP = 0.

lim sup P (A)→0

A

Donc F est uniformément P-absolûment continue.



Nous sommes maintenant en mesure de donner la comparaison des types de convergence. 47

4. Comparaison des types de convergence

Nous aurons besoin d’une forme du Théorème de Fatou-Lebesgues, due à Young, que nous vous proposons en exercice. Exercice 2. Soit (Xn ) une suite de variables aléatoires réelles définies sur (Ω, A, P), pour laquelle il existe deuxR autres suites R de variables aléatoires (Un ) et (Vn ) vérifiant (1) Un → U p.s et R Un dP → R U dP ∈ R. (2) Vn → V p.s et Vn dP → V dP ∈ R. – et telles que (3) Pour tout n ≥ 1, Un ≤ Xn ≤ Vn . – Soit maintenant (4) Xn → X p.s ou en probabilité. – En déduire Z Z Xn dP → X dP.

La preuve s’obtient en reprenant celle de Faton-Lebesgues dans ses grandes lignes. Enonçons le théorème de comparaison : Théorème 4. Soit une suite de variables aléatoires p-intégrables. Alors

Xn → X dans Lp

(1) ssi

(2) Xn →P X et une des conditions suivantes a lien (3) Z Z p |Xn | dP → |X|p dP < ∞. p

(4) la suite {|Xn | } est uniformément intégrable. p (5) la suite {|Xn | } est équi-intégrable. p (6) la suite {|Xn − X| } est équi-intégrable.

Prouvons le théorème. Démonstration. (1)⇒ (2). L’inégalité de Markov donne, pour tout ε > 0,

P(|Xn − X| > ε) = P(|Xn − X|p > εr ) ≤ ε−p E |Xn − X|p → 0 quand n → ∞. (1) ⇒ (3). Ceci est évident car, par l’inégalité triangulaire bis, kX k − kXk n p p ≤ kXn − Xkp . 48

(2) et (3) ⇒ (1). En utilisant la cp -inégalité, on a |Xn − X|p ≤ cp |Xn |p + cp |X|p = Un → U = 2cp |X|p et Z

Z Un →

U ∈ R.

D’après la version de Fatou-Lebesgues de Young, et puisque |Xn − X|p →P 0, Z |Xn − X|p dP → 0. (1)⇒ (4). On a Z

Z

p

|Xn | ≤ cp A

Z

p

|Xn − X|p .

|X| + cp A

A

Pour tout ε > 0, il existe N > 0 tel que Z |Xn − X|p < ε. Posons An (a) = (|Xn | > a), a > 0. On a E |Xn |p P(An (a)) ≤ . ap Puisque E |Xn |p → E |X|p , sup P(An (a)) → 0 quand a → ∞. n

Donc pour a assez grand, Z

|X|p < ε.

sup n

An

De plus, Z

Z

p

|Xn − X| ≤ cp An

An

An

Z

p

|Xn | + cp

An

An

An

1≤n≤N

≤ 2ε, 49

|X|p → 0

An

quand a → ∞. Il s’en suit que, Z Z Z p p sup |Xn | ≤ cp |X| + cp max( max n

|X|p .

|Xn | + cp

Pour tout 1 ≤ n ≤ N fixé, Z Z p |Xn − X| ≤ cp An

Z

p

An

Z

p

|Xn − X| , sup n>N

An

|Xn − X|p )

quand a→ ∞, pour tout ε > 0. D’où Z sup n

|Xn |p → 0

An

quand a→ ∞. Ce qui prouve l’uniforme équi-continuité des {Xn }. Sous l’hypothèse que X est p-intégrable, alors (5) et (6) sont équivalentes. Montrons enfin que (2) et (5) impliquent (1). Par la continuité uniforme des intégrales de Xn , pour tout ε > 0, il existe ε0 tel que Z P (A) ≤ ε0 ⇒ sup |Xn |p ≤ ε. n

A

Soit Anm = (|Xn − Xm | > ε). (2) implique {Xn } est une suite de Cauchy en probabilité et donc P(Anm ) → 0 quand n → ∞, m → ∞. Donc il existe N > 0 tel que pour min(n, m) > N, P(Anm ) < ε0 . On a, pour min(n, m) > N, p

Z

p

|Xn − Xm | +

E |Xn − Xm | = ≤ cp Anm

|Xn |p + cp

|Xn − Xm |p

Acnm

Anm

Z

Z

Z

|Xm |p + εp ≤ 2cp ε + εr .

Anm p

D’où la suite {Xn } est de Cauchy dans L , donc y converge vers X 0 egale p.s à X. Nous nous arrétons là. Les points qui restent sont aisés à trouver. 

50

CHAPITRE 5

CONVERGE EN LOIS DANS RK Nous allons étudier un outil puissant d’approximation de lois de probabilité. Nous en avons eu un apperçu dans le cours de probabilité élémentaires. Il s’agit surtout de pouvoir avoir l’approximation d’une fonction de répartition par une autre plus facile à calculer. En gros, on dira qu’une suite de variables aléatoires Xn converge vers X ssi la suite des fonctions de répartition FXn (x) = P(Xn ≤ x) tends vers celle de X, i.e., FX (x) = P(X ≤ x), pour les points x de continuité de FX . Dans un cas élémentaire, on peut préciser cette défintion dans les deux cas suivants. (A) Les variables Xn , n ≥ 1, et X sont discrètes. On dira que Xn converge en loi

vers X ssi, pour tout k ∈ V(X), P(Xn = k) → P(X = k). Bien sûr, cela implique (et est équivalent à) X Fn (x) = P(Xn = k) → F (x) = k≤x,k∈V(X)

X

P(X = k).

k≤x,k∈V(X)

(B) La fonction FX (x)=P(X ≤ x) est continue. Alors Xn converge en loi vers X

ssi, pour tout x∈ R, Fn (x) = P(Xn ≤ x) → F (x) = P(X ≤ x).

A quoi sert cette notion ? On peut avoir besoin de calculer Fn (x) = P(Xn ≤ x) et que le calcul soit fastidieux au contraire du calcul de F (x) = P(X ≤ x). S’il y a convergence en loi, on peut utiliser l’approximation P(Xn ≤ x) ∼ = P(X ≤ x).

51

1. Rappels de résultats élémentaires. Théorème 5. Soit XN suivant une loi hypergéométrique H(N,M,n) avec M/N→ p, N→ ∞, n restant fixe. Alors XN tend en loi vers une variable aléatoire X suivant une loi binomiale B(n,p). Théorème 6. Soit Xn suivant une loi B(n,p) p=pn → 0 et npn → λ, 0 < λ, quand n→ ∞. Alors Xn tend en loi vers une variable aléatoire X suivant une loi exponentielle de paramètre λ. √ Théorème 7. Soit Xn suit une loi binomiale B(n, p). Alors Yn = (Xn − np)/ npq converge en loi vers une loi normale standard. On peut utiliser l’approximation, √ P(Xn ≤ x) ' φ((x − np)/ npq). P Cette approximation est très pratique car le calcul de P (Xn ≤ x) = x≤k Cnk pk q n−k n’est pas aisé. Au contraire la fonction φ est tabulée et incluse dans beaucoup de logiciels. Théorème 8. Soit Zλ une variable aléatoire suivant la loi de Poisson de parametre

λ. Alors la variable Zλ − λ √ λ suit approximativement une loi normale standard lorsque λ est grand. Ce résultat permet l’approximation, pour x positif √ P (Zλ ≤ x) ' φ((x − λ)/ λ). Tous ces résultats ont été vu au paravent. Nous avons maintenant besoin d’une théorie plus complète à la hauteur des besoins. Cela exige une définition plus large. 2. Apperçu de la théorie de la convergence vague Définition 10. La suite de variables aléatoires Xn :(Ωn , zn , Pn ) 7→ (Rk , B(Rk ))

converge vaguement vers la variable aléatoire X : (Ω, z, P) 7→ (Rk , B(Rk )) ssi pour toute fonction f : S 7→ R, continue et bornée ( noté f ∈ Cb (Rk ), Ef (Xn )) → Ef (X)

(2.1)

Nous remarquons que les espaces de départ n’on aucune importance dans cette théorie, d’où le nom de convergence vague. Notons par L=PX = P ◦ X −1 , la loi de X définie par ∀ B ∈ B(S), L(B) = P(X −1 (B)) = P(X ∈ B). Nous avons Z E(f (X)) =

Z f (x) dL(x) =

S 52

f (X(ω)) dP(ω).

On pourrait ainsi remplacer (2.1) par Z (2.2)

Ef (Xn )) →

f dL. Rk

et dire que la suite (Xn ) converge vaguement vers une probabilité L. Dans la suite, nous utiliserons les deux terminologies. Nous avons maintenant besoin de la caractérisation de cette convergence. Selon les besoins, on peut avoir besoin d’autres angles attaque, pour l’établir. Théorème 9. Xn :(Ωn , zn , Pn ) 7→ (Rk , B(Rk )) converge vaguement vers une pro-

babilité L ssi (ii)Pour tout ouvert de Rk ,

lim inf P(Xn ∈ G) ≥ L(G). (iii) Pour tout fermé de Rk , lim sup P(Xn ∈ F ) ≤ L(F ). (iv) Pour toute fonction inférieurement semi-continue et nimorée, Z lim inf Ef (Xn ) ≥ f dL. (v) Pour toute fonction supérieurement semi-continue et majorée, Z lim sup Ef (X) ≤ f dL. (vi) Pour tout borélien de Rk tel que L(∂B) = 0, lim P(Xn ∈ B) = L(B). (vii) Pour toute fonction positive, bornée et lipschitzienne. Z lim inf Ef (Xn ) ≥ f dL. Avant de commencer la preuve, rappelons que ∂B est la frontière de B. Si L(∂B) = 0, on dit que B est L-continue. A ce niveau, nous pouvons ne pas nous attarder sur la preuve que nous donnons en annexe de cet ouvrage. Le lecteur intéressé peut la lire. Mais il est plus sage de se concentrer d’abord aux applications en attendant la fin de l’ouvrage pour y revenir. Voici une première application du Théorème Portmanteau. 53

3. Tansformations continues.

Soit une suite de v.a (Xn ), à valeurs dans Rk qui converge vaguement vers X et soit une application g de Rk dans Rm . Alors g(Xn ) converge-t-il g(X) ? Soit g continue. Alors, il est évident que si f ∈ Cb (Rm ), alors f ◦ g ∈ Cb (Rk ). Donc ∀ f ∈ Cb (Rm ), Ef (Xn )) → Ef (X) implique, puisque f ∈ Cb (Rm ) ⇒ f ◦ g ∈ Cb (Rk ), ∀ f ∈ Cb (Rm ), Ef ◦ g(Xn )) → Ef ◦ g(X) D’où la proposition Proposition 15. Soit une suite de variables aléatoires Xn :(Ωn , zn , Pn ) 7→ (Rk , B(Rk ))

convergeant vaguement vers la variable aléatoire X : (Ω, z, P) 7→ (Rk , B(Rk )) et : Rk 7→ Rm une application continue. Alors g(Xn ) →w g(X) ou par une autre écriture, g(Xn ) →w L ◦ g −1

Cette proposition est très importante. Mais, on a plus que cela. En effet, on n’a pas besoin de la continuité sur tout l’ensemble Rk . Il suffira que l’ensemble des points de discontinuité de g soit de mesure nulle par rapport à L=PX . Soit discont(g) l’ensemble des points de discontinuité de g (voir 9.1). Nous avons Proposition 16. Soit une une suite de variables aléatoires Xn :(Ωn , zn , Pn ) 7→ (R , B(Rk ))) convergeant vaguement vers la variable aléatoire X : (Ω, z, P ) 7→ (Rk , B(Rk )) (ou vers la probabilité L sur Rk ), et g : Rk 7→ Rm une application telle que L(discont(g)) = k

P (X ∈ discont(g)) = 0. Alors g(Xn ) →w g(X) ou par une autre écriture, g(Xn ) →w L ◦ g −1 Démonstration. Soit Xn →w L avec L(discont(g))=0. Soit F une partie fermée

de Rk . Montrons que (3.1)

g −1 (F )) ⊆ g −1 (F ) ∪ discont(g)

En effet soit x∈ g −1 (F ). Donc il existe une suite (yn )n≥1 ∈ g −1 (F ) telle que yn → x et pour tout n≥ 1, g(yn ) ∈ F. Alors ou bien x ∈ discont(g) ou bien x est un point de continuité et alors (yn → x, g(yn ) ∈ F ) ⇒ g(yn ) → g(x) ∈ F puisque F est fermé et donc x ∈ g −1 (F ). 54

D’où (3.1). Combinons cette formule avec le point (iii) du théorème Portmanteau. Nous avons lim sup P(g(Xn ) ∈ F ) = lim sup P(Xn ∈ g −1 (F )) ≤ lim sup P(Xn ∈ g −1 (F )) ) et lim sup P(Xα ∈ g −1 (F )) ) ≤ L(g −1 (F )) ) ≤ L(g −1 (F )) + L(discont(g)) Ce qui donne lim sup P(g(Xα ) ∈ F ) ≤ L ◦ g −1 (F ). D’où le résultat cherché.



Le théorème Portmenteau donne certes une grande panoplie de résultats dérivés pour la convergence vague. Mais, en pratique, les résultats ci-dessous sont les principaux outils utilisés pour prouver la convergence vague. En résumé, la convergence vague est équivalente à la convergence des fonctions de répartitions ou des fonctions caractéristiques. Proposition 17. La suite de v.a. Xn : (Ωn , zn , Pn ) 7→ (Rk , B(Rk )) converge vague-

ment vers la variable aléatoire X : (Ω, z, P ) 7→ (Rk , B(Rk )) (ou vers la probabilité L sur Rk ), ssi point t = (t1 , t2 , ..., tk ) de continuité de FX ou de L, (3.2)

FXn (t1 , t2 , ..., tk ) → FX (t1 , t2 , ..., tk ).

Etablissons a titre d’illustration le sens direct. Le sens indirect est renvoyé à l’annexe en deuxième lecture. Démonstration. Sens direct : soit la fonction de répartition de X

FX (t1 , t2 , ..., tk ) = P(X1 ≤ t1 , X2 ≤ t2 , ..., Xk ≤ tk ) = P(X ∈

k Y

]−∞, ti ]).

i=1

Notons t = (t1 , ..., tk ) et t(n) = (t1 (n), t2 (n), ..., tk (n)). On dira que t(n) ↑ t (resp t(n) ↓ t) ssi ∀(1 ≤ i ≤ k), ti (n) ↑ ti (resp. ti (n) ↓ ti ) Qk Posons A(t)= i=1 ]−∞, ti ] . Nous avons quand n↑ ∞, A(t(n)) ↓ A(t) et donc, par la limite monotone des probabilités FX (t) = P(X ∈ A(t(n)) ↓ P(X ∈ A(t)) = FX (t) 55

Par suite, FX est continue à droite en tout t. Mais +

A(t(n)) ↑ A (t) =

k Y

]−∞, ti [

i=1

et par suite FX (t) = P(X ∈ A(t(n)) ↑ P(X ∈ A+ (t)) Mais nous avons D(t) = A(t) \ A+ (t) = {x = (x1 , ..., xk ) ∈ A(t), ∃1 ≤ i ≤ k, xi = ti }

(3.3)

Pour mieux comprendre cette formule, regardez la pour k=1 ] − ∞, a] \ ] − ∞, a[= {a} et pour k=2, ] − ∞, a] × ] − ∞, b] \ ] − ∞, a[ × ] − ∞, b[ = {(x, y) ∈] − ∞, a] × ] − ∞, b], x = a ou y = b}. D’où, si P(X ∈ D(t)) = L(D(t)) = 0

(3.4) alors, quand n→ ∞,

FX (t) = P(X ∈ A(t(n)) ↑ P(X ∈ A+ (t)) = P(X ∈ A(t)) − P(X ∈ D(t)) = FX (t).

Donc (3.4) est la condition de continuité de FX en t. Mais la frontière de A(t) est exactement D(t). ∂A(t) = D(t) Car l’intérieur de A(t) est sûrement A+ (t). Donc d’après le point (vi) du théorème Portmanteau, nous avons la partie directe de la proposition. (X α →w X) =⇒ (P(X α ∈]− ∈, t]) → F X (t) pour FX continue en t) Ce qui finit la preuve du sens direct. La preuve du sens indirect, dans le cas général, est aussi renvoyée à l’annexe. Nous vous proposons une preuve simple ici pour k=1. A cet effet, soit G un ouvert de R. Montrons que G est une union dénombrable d’élements de U , c’est-à-dire des intervalles de type ]a,b], où a et b sont des points de continuité de FX . Soit x∈ G. Alors, il existe a < b tel que x ∈]a, b[⊆ G. Il est evident qu’on peut choisir A et B points de continuité de FX tels que x ∈]A, B] ⊂]a, b[⊂ G. Ce vient du fait que parmi les points en nombre non dénombrable entre a et x, on peut bien en choisir un qui soit un point de continuité de FX , que nous nommons A. 56

On trouve B de la même façon. En résumé, Pour tout x∈ G, on peut bien trouver ]ax , bx ] ∈U telle que x ∈]ax , bx ] ⊆ G. Nous aurons [ G= ]ax , bx [. x∈G

Puisque R est séparable, cette réunion se réduit à une sous-union dénombrable [ G= ]ax(j) , bx(j) [ j≥1

avec, pour tout j ≥ 1, ]ax(j) , bx(j) [⊆]ax(j) , bx(j) ] ⊆ G D’où G=

[

]ax(j) , bx(j) ]

j≥1

noté plus simplement G=

[

]aj , bj ]

j≥1 j

j

avec ]a , b ] ∈ U. Appliquons cela, pour conclure notre démonstration. Grâce à la continuité de la probabilité L=PX , on peut trouver pour tout η > 0, un rang m tel que m [ (3.5) L(G) − η ≤ L( ]aj , bj ]). j=1

Mais U est stable par intersection finie. D’abord parce que l’intersection de deux intervalles ]a0, b0] et ]a00 , b00 ] est du type ]a, b]. De là, nous appliquons la formule de Poincaré en notant Aj =]aj , bj ] m [ X X X L( Aj ) = L(Aj ) − L(Ai Aj ) + L(Ai Aj Ak ) + ... + (−1)n+1 L(A1 A2 ...An ) j=1

Puisque U est stable par intersection finie, toutes les intersections finies Ai1 Ai2 ...Aik sont de type ]a,b]∈U et donc par hypothèse m m [ [ Pn (Xn ∈ ]aj , bj ]) → L( ]aj , bj ]) j=1

j=1

et donc, en tenant compte de (2.3), lim inf Pn (Xn ∈ G) = lim inf Pn (Xn ∈ n

[

j

j

]a , b ]) ≥ lim Pn (Xn ∈ n

j≥1 57

m [ j=1

]aj , bj ]) ≥ L(G)−η

pour tout η > 0. D’où lim inf Pn (Xn ∈ G) ≥ L(G) pour tout G ouvert. Il s’en suit que Xn →d L. Ce qui finit la preuve du sens indirect. Le cas général se prouve de la même manière mais les propriétés de U sont moins évidentes à décrire. 

Proposition 18. La suite de v.a. Xn : (Ωn , zn , Pn ) 7→ (Rk , B(Rk )) converge vague-

ment vers la variable aléatoire X : (Ω, z, P ) 7→ (Rk , B(Rk )) (ou vers la probabilité L sur Rk ), ssi pour tout point t (u1 , u2 , ..., uk ) ∈ Rk , ΦXα (u1 , u2 , ..., uk ) 7→ ΦX (u1 , u2 , ..., uk ). Là aussi, nous établissons le sens direct. La preuve du sens indirect peut être visitée à l’annexe concernée. Démonstration. Rappelons t

(u1 , u2 , ..., uk ) 7→ ΦX (u1 , u2 , ..., uk ) = E( exp (

k X

i uj Xj )).

j

Mais t

k k k X X X (u1 , u2 , ..., uk ) 7→ exp( i uj Xj ) = cos( i uj Xj ) + i sin( uj Xj ). j

j

j

Cette fonction une fonction complexe dont les composantes sont des fonctions de X, continues et bornées et par définition k k k X X X E exp( i uj Xj ) = E cos( i uj Xj ) + i E sin( uj Xj ). j

j

j

Donc par définition même de la convergence vague, pour tout t (u1 , u2 , ..., uk ) ∈ Rk , (3.6)

ΦXα (u1 , u2 , ..., uk ) 7→ ΦX (u1 , u2 , ..., uk ).

Ce qui prouve le sens direct.



Enfin le Théorème de Scheffé (voir annexe) peut alors s’appliquer aux densités de probabilité dans Rk en particulier. Nous aurons 58

Proposition 19. Soit une suite de v.a. Xn : (Ωn , zn , Pn ) 7→ (Rk , B(Rk )) et une va.

X : (Ω, z, P ) 7→ (Rk , B(Rk )) admettant toutes une densité de probabilité par rapport à la mesure de Lebesgues sur Rk tels que pour tout point t (u1 , u2 , ..., uk ) ∈ Rk , fXn (u1 , u2 , ..., uk ) 7→ fX (u1 , u2 , ..., uk ). Alors Xn converge vaguement vers X. Voila les trois grands outils que nous allons utiliser dans pour étudier les théorèmes classiques des probabilités. Il est aussi utile d’avoir ce critère dit de CramerWold.

Critère 1. Soit une suite de v.a. Xn : (Ωn , zn , Pn ) 7→ (Rk , B(Rk )) et une va. X

: (Ω, z, P ) 7→ (Rk , B(Rk )). Alors

Xn →d X

(1) ssi pour tout a∈ Rk ,

< X, a >→d < X, a > .

(2)

Démonstration. L’implication (1)⇒ (2) résulte du théorème de la transformation continue. Inversement, soit (2) vraie. On peut alors utiliser les fonctions caractéristique : Pour t=1 et pour tout a∈ Rk ,

ϕ (1) = E(exp < Xn , a >) = ϕXn (a) → ϕ (1) = E(exp < X, a >) = ϕX (a) D’où, ϕXn → ϕX et donc (1) a lieu.

 4. Applications

4.1. Convergence de la loi binomiale vers la loi normale. Utilisons la fonction des moments. SoitX ∼ B(n, p). On a ϕX (u) = (q + peu )n . D’où (4.1)

ϕ(X−np)/√npq (u) = e−

√ np/q

√ × ϕX (u/ npq)

avec

√ √ ϕX (u/ npq) = (q + peu/ npq )n . Or, quand n→ ∞ et u fixé,

eu/



npq

=1+ √

u u2 + + O(n−3/2 ). npq 2npq 59

D’où (q + peu/



npq

)=1+u

p u2 + O(n−3/2 ) = 1 + vn p/nq + 2nq

avec vn = u

p

p/nq +

u2 + O(n−3/2 ) → 0. 2nq

Si bien que u2 + O(n−3/2 )) = log(1 + vn ) 2nq 1 = vn − vn2 + O(vn3 ) 2 2 p pu2 u = u p/nq + − + O(n−3/2 ). 2nq 2nq

log(1 + u

p

p/nq +

Alors

√ √ √ ϕX (u/ npq) = (q + peu/ npq )n = exp(n log(q + peu/ npq )) p u2 pu2 − + O(n−3/2 ))) exp(n(u p/nq + 2nq 2nq p u2 pu2 − + O(n−1/2 ))) = exp(u np/q + 2q 2q √ u np/q u2 /2+O(n−1/2 ) =e e . En retournant à (4.1), on arrive à

ϕ(X−np)/√npq (u) → exp(u2 /2). D’où l’approximation √ (β(n, p) − np)/ npq → N (0, 1) 4.2. Convergence de la loi de Poisson vers la loi normale. Soit Z = Z(λ) ∼ P (λ).

On a ϕZ (t) = exp(λ(et − 1)). Soit Z −λ Z − E(X) Y (λ) = √ = . σZ λ Nous avons ϕY (λ) (u) = e−



λ

√ √ √ × ϕZ (u/ λ) = e− λ × exp(λ(eu/ λ − 1)). 60

Quand λ → ∞, nous pouvons développer λ(eu/



λ

u2 u + O(λ−3/2 ) − 1 = − 1) = λ(1 + √ + λ 2λ √ u2 =u λ+ + O(λ−1/2 ). 2

Donc

u2 ϕY (λ) (u) = exp( + O(λ−1/2 )) → exp(u2 /2). 2 On conclut aussi que Z −λ √ → N (0, 1) λ quand λ → ∞. Les deux cas déjà vus sont des cas spéciaux d’un cas général. En effet, si (Xn )n≥1 est une suive de variables aléatoires réelles ayant des moments de second ordre finis, on peut s’attendre à ce que Xn − E(Xn ) σXn converge en loi vers la loi normale centrée réduite. Ceci n’est pas toujours vraie. Mais si cela est, nous dirons qu’on a un théorème central limite (Central limite théorème, CLT). Cela est vrai pour l’échantillon dans le cas suivant. 4.3. Thèorème central limite dans R. Soit X1 , X2 , ... une suite de variables alétoires indépendantes, identiquement distribuées selon la fonction de répartition F avec Z Z 2 2 E(Xi ) = µ = xdF (x) = 0, σXi = σ = (x − µ)2 dF (x). Posons, pour n ≥ 1, Sn = X1 + ... + Xn . Alors quand n→ ∞, S √n → N (0, 1). n Preuve. Soit ψXi (u) = E(euXi ) = ψ(u). Par l’existence des moments à l’ordre 2, on a le développement limité à l’ordre 2, 1 ψ(u) = 1 + uψ 0 (0) + u2 ψ 00 (0) + O(u3 ) 2 1 2 1 + − u + O(u2 ) 2 puisque ψ 0 (0) = i E(X) = 0, ψ 00 (0) = −E(X 2 ) = −1. 61

Dès lors

√ ψSn /√n (u) = (ψ(u/ n))n .

Pour u fixé et n → ∞, √ u2 + O(n−3/2 )). ψSn /√n (u) = (ψ(u/ n))n = exp(n log(1 − 2n u2 = exp(n(− + O(n−3/2 )) = exp(−u2 /2 + O(n−1/2 )) → exp(−u2 /2). n Nous venons d’établir que S √n → N (0, 1). n Dans le cas général, nous avons le Théorème central limite √ n Sn ( − µ) → N (0, 1). σ n 4.4. Théorème de Kintchine. Soit X1 , X2 , ... une suite de variables alétoires indépendantes, identiquement distribuées selon la fonction de répartition F avec Z E(Xi ) = µ = xdF (x) alors, quand n→ ∞, Sn /n →p µ. Preuve. Utilisons la même technique avec une developpement limité à un ordre avec, pour simplifier, µ = 0 : ψ(u) = 1 + uψ 0 (0) + O(u2 ) = 1 + O(u2 ). Dès lors ψSn /n (u) = (ψ(u/n))n . Pour u fixé et n → ∞, ψSn /n (u) = (ψ(u/n))n = exp(n log(1 + O(n−3/2 )). = exp(n × O(n−3/2 ) = exp(O(n−1/2 )) → 1 = ψ0 (u). Nous venons d’établir que Sn →d 0. n et par la transformation continue, Sn →d 0. n 62

Notons que le seul point de discontinuité de la fonction de répartition de X=0, égale à F0 (x) = 1[0,+∞[ , est le point zéro. Donc pour tout ε > 0, Sn P( > ε) = 1 − F|Sn /n| (ε) → 1 − P(0 ≤ ε) = 0. n On conlut que et par suite, dans le cas général,

√ S n / n →p 0 √ Sn / n →p µ.

63

CHAPITRE 6

LES GRANDS THEOREMES DE L’ECHANTILLON On considère une suite de vecteurs aléatoires X1 , X2 , ... à valeurs dans Rk , indépendantes. Nous allons nous interesser au comportement des sommes partielles S0 = 0, Sn = X1 + ... + Xn , pour n ≥ 1. Il s’agit d’un champ assez vaste avec des formes très sofistiquées lorsqu’on remplace Rk par un espace plus général. Pour l’instant, nous nous contenterons de cas relativement simples. 1. Loi faible des grands nombres.

On a vu dans le chapitre précédent le théorème de Kintchine qui est justement une forme de la loi faible des grands. Théorème 10. (Weak Law of Large Number, WLLN). Soit X1 , X2 , ... une suite de vecteurs aléatoires indépendantes à valeurs dans Rk , telle que la suite de chaque

composante ait la même loi avec une moyenne finie µi . Alors Sn /n →p µ = t (µ1 , ..., µk ). Démonstration. La preuve s’appuie sur celle du théorème de Kintchine pour chaque composante. La convergence à prouver se faisant pour par composante, la preuve devient évidente. 

2. Loi forte des grands nombres Théorème 11. (Strong Law of Large Number, SLLN). Soit X1 , X2 , ..., Xn = t (Xn1 , ..., Xnk ), ..

une suite de vecteurs aléatoires indépendantes à valeurs dans Rk telle que, pour tout n ≥ 1, ∀(1 ≤ i ≤ k), E(Xni ) = µi ∈ R, V ar(Xni ) = σi2 < ∞. Alors, quand n → ∞, Sn /n → µ = t (µ1 , ..., µk ) p.s. Pour faire cette preuve, nous aurons besoin du lemme de Borel-Cantelli suivant.

Lemme 1. Soit (An )n≥0 une suite d’évenements définis sur un même espace de

probabilité (Ω, A, P). Nous avons : 65

– Si

∞ X

P(An ) < ∞,

n=0

alors P(lim sup A) = 0. n

– Si les An sont indépendants et si

X

P(An ) = ∞,

n

alors P(lim sup An ) = 1. n

Démonstration. (Lemme de Borel-Cantelli). Soit ∞ X

P(An ) < ∞.

n=0

Alors le reste de la série tend verz zéro et donc : [ X P( Am ) ≤ P(Am ) → 0 quand n → 0. m≥n

m≥n

Mais lim sup An = n

\ [

[

Am = lim ↓ n

n≥0 m≥n

Am.

m≥n

D’où P(

[

Am ) ↓ P(lim sup An ) = 0. n

m≥n

Supposons maintenant que les évènements sont indépendants et que ∞ X P(An ). n=0

Rappelons que lim inf Acn = n

[ \

Acn = lim ↑ n

n≥0 m≥n

\

Acn .

m≥n

De plus \

Acn . = lim ↓

m≥n

r

\

Acn .

n≤m≤r

En utilisant l’inégalité 1 − x ≤ exp(−x) pour 0 ≤ x < 1, on aura, quand r → ∞, \ Y X P( Acn ) = (1 − P(An ) ≤ exp(− ) ↓ 0. n≤m≤r

n≤m≤r

n≤m≤r 66

D’où P(

\

Acn ) = 0

m≥n

et donc P(lim inf Acn ) = 0 = 1 − P(lim sup An ). n

n

 Démonstration. (De la SLLN).

Il suffit de le prouver pour k=1. Dans le cas général, on procède par composante. Nous avons besoin du lemme de Borel-Cantelli. Posons µ = 0, σ = 1. et Yn = Sn2 /n2 . On E(Yn ) = 0 et var(Yn ) = n−2 . Pour β < 1/2, l’inégalité de Tchebychev donne P (|Yn | > n−β ) ≤ n2(1−β) et

X

P (|Yn | > n−β ) ≤

X

n2(1−β) < ∞.

n

Donc P (lim inf(|Yn | ≤ n−β ) = 1. n

Rappelons que lim inf (|Yn | ≤ n−β ) = n

[ \

(|Ym | ≤ m−β ).

n≥0 m≥n

Donne, presque pout tout ω ∈ Ω, il existe n(ω) ≥ 0, pour tout m ≥ n, |Ym | ≤ m−β et donc Ym (ω) → 0. Donc Yn → 0, p.s. Nous avons démontré la convergence pour les moyennes correspondantes à des indices carrés parfaits. Maintenant, tout n se trouve netre deux carrés parfaits : p ∀(n ≥ 0), ∃m ≥ 0, k(n) = m2 ≤ n ≤ ( k(n) + 1)2 . 67

On a aussi

1 E( (Sn − Sk(n) ) = 0 n

et 1 1 var( (Sn − Sk(n) ) = 2 E n n D’où X n

n X i=k(n)+1

Xi2

√ 3 n 1 p = 3n−3/2 . ≤ 2 (2 k(n) + 1) ≤ n 2

X 1 3 P ( (Sn − Sk(n) ) > n−β ) ≤ 3 n−( 2 −2β) < ∞ n

dès que β < 3/4. On concluant comme précdemment, nous aurons aussi 1 (Sn − Sk(n) ) → 0, p.s. n Enfin Sn − Sk(n) k(n) Sk(n) Sn = + × → 0 p.s. n n n n puisque n 2 1 1≤ = √ < A, Yi > . n i=1 Or les variables < A, Yi > sont centrée, iid, de variance 2

E < A, Yi > =

i=n X

a2i λi = A0 ΛA,

i=1

en vertu de la non corrélation des composantes de chaque Yi . Le théorème central limite dans R implique que < A, Mn >→ N (0,

i=n X

a2i λi ) = N (0, A0 ΛA)

i=1

Or N (0, A0 ΛA) est la loi d’un vecteur gaussien résultant de la transformation linéaire A0 Z =< A, Z >, où Z suit la loi N (0, Λ). D’où w

∀A ∈ Rk , < A, Mn >→< A, Z > . Nous en déduisons, en vertu du lemme précédent. w

Mn → Z. 69

Ceci et (3.1) impliquent, en vertu de la transformation continue de la convergence vague (voir chapitre 3), √ Sn / n = T Mn → T Z et T 0 Z ∼ N (0, T ΛT 0 ) = N (0, Σ). D’où, enfin, √ w Sn / n → N (0, Σ) Ceci exprime la version simple du thèorème central limite dans Rk . 4. Convergence de la loi multimoniale

Un k-uplet X = (X1 , ..., Xk ) suit une loi multimoniale de paramètres n≥ 1 et p=(p1 , p2 , ...pk ) avec X ∀(1 ≤ i ≤ k), pi > 0 et pi = 1, 1≤i≤i1

notée M (n,p), ssi sa loi de probabilité est : P(X1 = n1 , ..., Xk = nk ) =

n! pn1 1 × pn2 2 × ... × pnk k n1 ! × ... × nk !

pour (n1 , ..., nk ) vérifiant ∀(1 ≤ i ≤ k), ni ≥ 0 et

X

ni = n.

1≤i≤k

Elle est génénée de la manière suivante. Soit une expérience à k issues Ei , 1 ≤ i ≤ k, chacune se réalisant avec une probabilité pi > 0. On la répète n fois de manière indépendante. A l’issue de ces n essais, soit Xi le nombre de réalisations de l’issue Ei . Le vecteur ainsi obtenu suit une loi Mk (n,p). Bien sûr chaque Xi suit une loi binomiale B(n,pi ). Sa fonction génératrice des moments est X Rk 3 u → φX (u) = E(exp < X, u >) = E(exp( Xi ui )) X ni ≥0, n1 +n2 +...+nk

=

X n! pn1 1 × pn2 2 × ... × pnk k exp( n i ui ) n ! × ... × n ! 1 k =n

X ni ≥0, n1 +n2 +...+nk

X ni ≥0, n1 +n2 +...+nk

Y n! pn1 1 × pn2 2 × ... × pnk k eni ui n ! × ... × n ! 1 k =n 1≤i≤k

Y n! pn1 1 × pn2 2 × ... × pnk k (pi eui )ni . n ! × ... × nk ! =n 1 1≤i≤k 70

D’où φX (u) = (

X

pi eui )n .

1≤i≤k

Nous allons montrer que ce vecteur tend vers une loi normale quand n tend vers l’infini. P osons X1 − np1 X1 − npk Zn = ( √ , ..., √ ) np1 npk = AX + B avec  √  1/ np1 √   np2   A=  ... √ npk et  √  − np1  −√np2  . B=   ... √ − npk Dès lors φZn (u) = exp(< B, u >) × φX (t Au) X √ X √ − npi ui ) × ( pi eui / npi )n = exp( 1≤i≤k

1≤i≤k

√ Notons que u est fixé. Pour tout i fixé, ui / npi →→ 0 quand n→ ∞ car chaque pi > 0. D’où √ 1 u2i √ eui / npi = 1 + ui / npi + + O(n−3/2 ). 2 npi D’où X X √ √ pi eui / npi )). pi eui / npi )n = exp(n log( A=( 1≤i≤k

1≤i≤k

X 1 u2 √ i + O(n−3/2 ))). = exp(n log(1 + ui pi/ ni + 2 n i 1≤i≤k 1≤i≤k X

Posons aussi a=

X 1 u2 √ i ui pi/ n + → 0 quand n → ∞. 2 n 1≤i≤k 1≤i≤k X

Nous aurons A = exp(n log(1 + a)). Développons log(1+a) à l’ordre 2 en mettant dans O(n−3/2 ) tous les autres termes tendant vers zéro : 71

1 A = exp(n(a − a2 + O(a3 )). 2 X 1 u2 1 X √ X √ i − ( = exp(n( ui pi/ n)2 + O(n−3/2 ))) ui pi/ n + 2 n 2 1≤i≤k 1≤i≤k 1≤i≤k X 1 1 X √ 2 √ ui npi + u2i − ( ui pi ) + O(n−1/2 )) 2 2 1≤i≤k 1≤i≤k 1≤i≤k

exp(

X

X 1 1 X √ 2 √ u2i − ( ui npi ) × exp( ui pi ) + O(n−1/2 )). 2 2 1≤i≤k 1≤i≤k 1≤i≤k

exp(

X

En mettant tout cela ensemble, on a X 1 1 X √ 2 φZn (u) = exp( u2i − ( ui pi ) + O(n−1/2 )) 2 2 1≤i≤k 1≤i≤k → φZ (u) = exp(

X 1 1 X √ u2i − ( ui pi )2 ). 2 2

1≤i≤k

1≤i≤k

Et (

(4.1)

X X 1 √ ui uj p i p j (1 − pi )u2i − φZ (u) = exp( 2 1≤i,j≤k 1≤i≤k

)

est la fonction des moments d’un vecteur gaussien Z centré dont la matrice de variances-covariances Σ vérifie (4.2)

Σii = (1 − pi )

et (4.3)

√ Σij = − pi pj .

Donc w

Zn → N (O, Σ). En conclusion, nous avons le résultat suivant. Proposition 20. Soit une suite de vecteurs aléatoires X(n) = (X1 (n), ..., Xk (n)) suivant une loi multimoniale de paramètres n ≥ 1 et p = (p1 , p2 , ...pk ) avec X ∀(1 ≤ i ≤ k), pi > 0 et pi = 1. 1≤i≤i1

Alors la suite de vecteurs X1 − np1 X1 − npk Zn = ( √ , ..., √ ) np1 npk 72

converge vers une loi normale k-dimensionnée, centrée, de matrice de variancescovariances Σ avec Σii = (1 − pi ) et √ Σij = − pi pj . Ce résultat que nous venons de voir utile pour fonder le test du khi-deux en Statistique.

73

CHAPITRE 7

ANNEXES 1. Preuve du Théorème Portmanteau Nos donnons ici la preuve du Théorème Portmanteau sans reprendre l’énoncé. Cette preuve est laissée dans la généralité où S=Rk désigne un espace métrique quelconque. Commençons la preuve.

Les points (ii) et (iii) sont équivalents par complémentation et par les propriétés des intégrales extérieures et intérieures vues au chapitre précédent. De même pour les points (iv) et (v) en passant de f à -f et en utilisant les propriétés vues dans l’annexe. Maintenant notons (i) la formule (2.1) de la définition de la convergence vague. L’implication (i) ⇒ (vii) est évidente car une fonction lipschitzienne (de paramètre k), c’est à dire, telle que ∀(x, y) ∈ S 2 , |f (x) − f (y)| ≤ k d(x, y) est continue. Prouvons (vii) ⇒ (ii).Soit G un ouvert de S. Pour tout entier m≥ 1, posons fm (x) = min(m d(x, Gc ), 1). Pour tout m, la fonction fm est à valeurs dans [0,1], donc bornée. Puisque Gc est fermée, on a  > 0 si x ∈ G c d(x, G ) = . 0 si ∈ Gc Montrons que fm est . Evaluons |fm (x) − fm (y)| selon trois cas. Cas 1. (x,y)∈ (Gc )2 . Donc |fm (x) − fm (y)| = 0 ≤ m d(x, y). Cas 2. x∈ G et y∈ Gc (ou en permutant les rôles de x et y). On a |fm (x) − fm (y)| = |min(md(x, Gc ), 1)| ≤ m d(x, Gc ) ≤ m d(x, y), par définition même de d(x,Gc ) = inf{d(x, z), z∈ Gc }. cas 3. Soit (x,y)∈ G2 . On a |fm (x) − fm (y)| = |min(md(x, Gc ), 1) − min(md(y, Gc ), 1)| ≤ |md(x, Gc ) − md(y, Gc )| , ≤ m d(x, y) par l’inégalité triangulaire bis. Donc fm est m-lipschitzienne. De plus fm ↑ 1G quand m ↑ ∞. 75

En effet, si x∈ Gc , fm (x) = 0 ↑ 0 = 1G (x). Si x∈ G, d(x,Gc ) > 0 et md(x,Gc ) ↑ ∞. Pour m assez grand, fm (x) = 1 ↑ 1G (x) Puisque pour chaque m, fm est lipschitzienne, bornée, positive, remarquons E(1G (Xn )) ≥ Efm (Xn ) et on peut appliquer (vii) pour avoir Z (1.1)

lim inf E(1G (Xn )) ≥ lim inf Efm (Xn ) ≥

fm dL.

Or E(1B ) = P(B) Pour B=1Xn−1 (G) = 1(Xn ∈G) , et en passant à la limite sur m et en utilisant le théorème de convergence monotone à (1.1), on obtient Z lim inf P(Xn ∈ G) ≥ 1G dL = L(G) Donc (vii) est démontré. Prouvons (ii) ⇒ (iv). Soit (ii) vraie. Soit f une fonction semi-continue inférieurement minorée par M. Nous pouvons prouver (iv) pour f-M=g positive, qui est encore s.c.i. Alors les ensembles (g≤ c) sont fermés selon la formule (6.1) de l’annexe. Posons pour m≥ 1 f ix´ e. Gi = {g > i/m}, i ≥ 1 et m2

1 X 1G gm = m i=1 i Les ensembles Gi sont ouverts car g est s.c.i. Remarquons que (1.2)

gm (x) =

i i i+1 pour < g(x) ≤ , pour i = 1, ..., m2 − 1 m m m

et gm (x) = m pour g(x) > m Donc gm ≤ g De plus, d’après (1.2) |gm (x) − g(m)| ≤ 1/m pour g(x) ≤ m 76

On m2

m2

1 X 1 X g(Xα ) ≥ gm (Xn ) = 1Gi (Xn ) = 1(Xn ∈Gi ) m i=1 m i=1 D’où, m2

1 X 1(Xn ∈Gi ) . Eg(Xn ) ≥ Egm (Xn ) = E m i=1

(1.3) Donc (1.3) donne

m2

m2

1 X 1 X E1(Xn ∈Gi ) ≥ P(Xn ∈ Gi ). Eg(Xn ) ≥ Egm (Xn ) ≥ m i=1 m i=1 En passant à la limite sur n, et en appliqunant (ii), on aura Z Z m2 1 X lim inf Eg(Xn ) ≥ lim inf Egm (Xn ) ≥ L(Gi ) = gm dL ≥ gm dL m i=1 (g≤m) Z Z ≥ g dL + (gm − g) dL. (g≤m)

(g≤m)

Quand m→ ∞, Z

Z g dL →

g dL

(g≤m)

et

Z (gm − g) dL| ≤ L(S)/m → 0

| (g≤m)

D’où

Z lim inf Eg(Xn ) ≥

g dL.

Maintenant, en remplaçant g par f-M, la même formule reste vraie, par simplification de M. Donc (iv) vraie. Prouvons (ii) ⇒ (vi). Rappelons que ∂B = B − int(B), autrement dit, B est la différence entre la fermeture de B et de son intérieur. Donc, puisque int(B)⊆ B ⊆ B (1.4)

L(∂B) = 0 ⇒ L(int(B)) = L(B) = L(B)

Puisque int(B) est ouvert, on peut utiliser (ii) et (iii) à la fois pour avoir (1.5) L(int(B)) ≤ lim inf P(Xn ∈ int(B)) ≤ lim inf P(Xn ∈ B) ≤ lim sup P(Xn ∈ B). Puisque B est fermé, on applique (iii)⇔ (ii) ainsi (1.6)

lim inf P(Xn ∈ B) ≤ lim sup P(Xn ∈ B) ≤ lim sup P(Xnα ∈ B) ≤ L(B). 77

En comparant (1.4), (1.5) et (1.6), on obtient L(B) = lim P(Xn ∈ B) = lim P(Xn ∈ B) Ce qui était à démontrer. Prouvons que (vi) ⇒ (iii). Soit (vi) vraie et soit F un fermé de S. Posons F() = {x, d(x, F ) ≤ } pour  ≥ 0. On F ⊆ F () et F () ↓ F pour  ↓ 0. Maintenant ∂F () ⊆ {x, d(x,F)=}. Donc les ensembles ∂F () sont disjoints, donc au plus un nombre dénombrable d’ensembles parmi eux, ont une probabilité non nulle (voir annexe, proposition C). Donc on peut trouver une suite n ↓ 0 telle que pour tout n, L(∂F (n )) = 0 Pour n fixé, F ⊆ F (n ), lim sup P(Xn ∈ F ) ≤ lim sup P(Xn ∈ F (n )) et par application de (vi) lim sup P(Xn ∈ F ) ≤ lim sup P(Xn ∈ F (n )) = L(F (n )) Maintenant, en passant à la limite quand n↑ ∞, lim sup P(Xn ∈ F ) ≤ L(F ), ce qui est bien (iii) Prouvons (iv)⇒ (i) Si (iv) est vraie, alors (v) est vraie. Donc une fonction f continue et bornée, est à la fois s.c.i. et minorée, et s.c.s. et majorée, on aura Z Z f dL ≤ lim inf Ef (Xn ) ≤ lim inf Ef (Xn ) ≤ lim sup sup Ef (Xn ) ≤ f dL D’où

Z f dL = lim Ef (Xn ) = lim Ef (Xn ).

En résumé nous avons montré le théorème par ce schéma (i) ⇒ (vii) ⇒ ⇑ (v) ⇔ (iv) =

(ii) ⇓ (iv) (vi)

⇔ (iii) ⇑ = (vi)

qui montre que les six assertions sont équivalentes entre elles. 78

2. La convergence des f.r entraine la convergence en loi

Définissons a = (a1, a2 , ..., ak ) < b = (b1 , b2 , ..., bk ) ⇔ (∀1 ≤ i ≤ k, ai < bi ). Nous dirons que ]a, b] ∈U ssi, pour tout c = (c1 , c2 , ..., ck ) où chaque ci vaut ai ou bi , ∆c = ∂] − ∞, c] = {t ∈] − ∞, c], ∃(1 ≤ i ≤ k), ti = ci }

(2.1) est L-continu.

Démonstration. Soit ]a, b] ∈ U. D’abord, par hypothèse, pour tout c = (c1 , c2 , ..., ck ) avec chaque ci valent ai ou bi ,

P∗ (Xα ∈] − ∞, c]) → FX (c) Ensuite rappelons la formule de la mesure de Lebesgues-Stieljes associée à FX : X (2.2) P(X ∈]a, b]) = (−1)β(ε) FX (b1 + ε1 (a1 − b1 ), ..., bk + εk (ak − bk )). ε∈D(k)

où D(k)={0,1}k ensemble des k-uplets dont chaque composante vaut 0 ou 1, et X β(ε) = εi . 1≤i≤k

Le membre de droite de (2.2) contient les nombres FX (c) où c=(c1 , c2 , ..., ck ) avec chaque ci valent ai ou bi , le signe mis devant étant le nombre de présences des ai . Alors, X P(Xα ∈]a, b]) = (−1)β(ε) FXα (b1 + ε1 (a1 − b1 ), ..., bk + εk (ak − bk )) ε∈D(k)



X

(−1)β(ε) FX (b1 + ε1 (a1 − b1 ), ..., bk + εk (ak − bk ))

ε∈D(k)

Maintenant, soit x∈ G. Alors, il existe a < b tel que x ∈]a, b[⊆ G. Posons 0 < ε0 < min min(bi − xi , xi − ai ) 1≤i≤k

et A=a+

ε0 ε0 e, B = b − e 2 2

de sorte que x ∈]A + he, B + he[⊆ G. avec 0 < h < ε0 /2. 79

Soit h < ε0 /2. Les ensembles ] − ∞, ch ], avec chi = Ai + h ou chi = Bi + h sont au nombre de M = 2k , notés Les ensembles ] − ∞, ch (r)] [ ∂(] − ∞, ch (r)]) 1≤r≤2k

sont disjoints quanq h bouge. Il suffit de le voir pour k=2 pour un dessin simple. On peut s’apercevoir que les hyperplans xi = chi bougent sans pouvoir se troucher. Donc on peut trouver h(x) ∈]0, ε0 /2[ tel que [ P( ∂(] − ∞, ch (r)]). 1≤r≤2k

Donc ]A + h(x)e, B + h(x)e[ est bien dans U et x ∈]A + h(x)e, B + h(x)e[⊆ G. En résumé, Pour tout x ∈ G, ]ax , bx ] ∈ U telle que x ∈]ax , bx [⊆]ax , bx ] ⊆ G. Nous aurons G=

[

]ax , bx [

x∈G k

Puisque R est séparable, cette réunion se réduit à une sous-union dénombrable [ G= ]ax(j) , bx(j) [ j≥1

avec, pour tout j ≥ 1, ]ax(j) , bx(j) [⊆]ax(j) , bx(j) ] ⊆ G D’où G=

[

]ax(j) , bx(j) ]

j≥1

noté plus simplement G=

[

]aj , bj ]

j≥1

avec ]aj , bj ] ∈ U. Appliquons cela pour conclure notre démonstration. Grâce à la continuité de la probabilité L, on peut trouver pour tout η > 0, un rang m tel que (2.3)

L(G) − η ≤ L(

m [

j=1 80

]aj , bj ])

Mais U est stable par intersection finie. D’abord parce que l’intersection de deux intervalles ]a0, b0] et ]a00 , b00 ] est du type ]a, b]. Et tout ensemble c verifiant ci = ai ou ci = bi vérifiera ci = a0i , ci = b0i , ci = a00i ou ci = b00i . On aura ] − ∞, c] =] − ∞, c0 ]∩] − ∞, c00 ] ou c0i = a0i ou c0i = b0i et c00i = a00i ou c00i = b00i . Alors ∂(] − ∞, c]) ⊆ ∂(] − ∞, c0 ]) ∪ ∂(] − ∞, c00 ]) est L-continue. D’où, U est stable par intersection finie. Rappelons la formule de Poincaré en notant Aj =]aj , bj ] L(

m [

Aj ) =

X

L(Aj ) −

X

L(Ai Aj ) +

X

L(Ai Aj Ak ) + ... + (−1)n+1 L(A1 A2 ...An )

j=1

Puisque U est stable par intersection finie, toutes les intersections finies Ai1 Ai2 ...Aik sont de type ]a,b]∈ U et donc par hypothèse Pn (Xn ∈

m [

j

j

]a , b ]) → L(

j=1

m [

]aj , bj ])

j=1

et donc, en tenant compte de (2.3), lim inf Pn (Xn ∈ G) = lim inf Pn (Xn ∈ n

[

j

j

]a , b ]) ≥ lim Pα (Xα ∈ α

j≥1

m [

]aj , bj ]) ≥ L(G)−η

j=1

pour tout η > 0. D’où lim inf Pn (Xn ∈ G) ≥ L(G) pour tout G ouvert. Il s’en suit que Xn →d L.  3. La f.c caractérise la loi dans Rk .

Faisons appel au théorème de Stone-Weirstrass (voir l’énoncé exact de ce théorème dans l’annexe adéquat). Supposons qu’on ait l’égalité des fonctions caractéristiques de deux vecteurs aléatoires X et Y de Rk : φX = φY 81

Soit maintenant f ∈ C(Rk , R) ⊆ C(Rk , C), avec |f | ≤ M < ∞. Soit ∆ = [−a/2, a/2]k et considérons f∆ la resctriction de f à ∆ si bien que f∆ ∈ C(∆, C). Considérons H la classe des fonctions défnies sur ∆ par t

(x1 , x2 , ..., xk ) 7→

m X

k X ar exp( 2πnj,r i xj /a)

r=1

j

où les coefficients ar sont complexes et les nj,r sont entiers. Autrement dit, les éléments de H sont des combinaisons linéaires finies d’exponentielles complexes de combinaisons linéaires de x1 , x2, ..., xk . Notons que chaque fonction xj 7→ exp(2πnj,r i xj /a) est périodique de période a si bien que toute fonction h ∈ H prend déjà toutes ses valeurs dans {h(x), x∈ ∆} et donc khk = khk∆ On voit aussi que H contient les constantes : il suffit de prendre les nj,r = 0 et de choisir nuls les coeffiients ar sauf l’un qu’on prendra égal à ce qu’on veut. De plus H est stable par somme, produit et par conjugaison. H sépare les points de ∆ car si t (z1 , z2 , ..., zk ) 6=t (y1 , y2 , ..., yk ), il existe un indice j tel que xj 6= yj . On peut considérer h ∈ H définie par h(x) = e2πxj /a Dès lors h(z) = exp(zj ) 6= exp(yj ) = h(y) Donc d’après le théorème de Stone-Weierstrass, H est dense dans C(∆, C). Donc, pour  > 0, il existe une fonction h(x) =

m X

k X ar exp( i ur,j xj )

r=1

j

telle sup |f (x) − h(x)| = kf − hk∆ ≤  x∈∆

et donc khk = khk∆ ≤ M +  D’après l’hypothèse, E(h(X)) = E(h(Y )). Mais (3.1)

Z Z Z Z E(f (X)) − E(f (X)) = ( f dPX − h dPX ) + ( h dPX − h dPY ) Z Z +( h dPY − f dPY ) 82

Le terme intermédiaire est nul par hypothèse. Le premier terme vérifie Z Z Z Z f dPX − h dPX ≤ |f − h| dPX + |f − h| dPX ∆c



≤  + (2M + 1)PX (∆c )) Faisons ∆ ↑ Rk , i.e, a↑ ∞. On obtient Z Z f dPX − h dPX ≤ ε. On obtient de même Z Z f dPY − h dPY ≤ ε. D’où |E(f (X)) − E(f (Y ))| ≤ 2ε, pour tout ε > 0. Donc pour ε ↓ 0, nous concluons que pour toute fonction f numérique continue bornée de Rk E(f (X)) = E(f (Y )) Or, par l’argument de ...., pour tout ouvert de Rk , il exixte une suite de fonctions (fm ) continues bornées telles que fm ↑ 1G . Par le théorème de convergence monotone, on récupère que Z Z fm dPX ↑ 1G dPX = PX (G) et Z

Z fm dPY ↑

1G dPY = PY (G)

et donc, pour tout ouvert G de Rk , PX (G) = PY (G). Vous savez déjà qu’une probabilité sur un espace métrique est régulière, c’est à dire qu’elle est déterminée par ses valeurs sur les parties ouvertes. Dès lors PX = PY

83

4. La convergence des f.c entraîne la convergence en loi

Utilisons la preuve que nous venons juste de faire avec les mêmes notations. Supposons que (3.6) soit vraie. Soit f ∈ C(Rk , R) ⊆ C(Rk , C), avec |f | ≤ M < ∞. Considérons h ∈ H telle que sup |f (x) − h(x)| = kf − hk∆ ≤  x∈∆

et khk = khk∆ ≤ M + . D’après l’hypothèse (3.6), E(h(Xα )) → E(h(X)) Soit ∈> 0, soit n0 tel que, pour n ≥ n0 , Z Z (4.1) |E(h(Xn )) → E(h(X))| = h dPXn − h dPX ≤ . De plus Z Z Z Z (4.2) E(f (Xn )) − E(f (X)) = ( f dPXn − h dPXn ) + ( h dPXn − h dPX ) Z Z +( h dPX − f dPX ) Le premier terme vérifie Z Z Z Z f dPXn − h dPXn ≤ |f − h| dPXn +

|f − h| dPXn

∆c



≤  + (2M + 1)PXn (∆c ). Faisons ∆ ↑ Rk , i.e, a↑ ∞. Z Z f dPXn − h dPXn ≤ . Donc (4.3)

Z Z lim sup f dPXn − h dPXn ≤ . n

En traitant le troisième terme de la même manière, nous avons aussi Z Z −1 −1 (4.4) lim sup E f dP ◦ X − h dP ◦ X ≤ . n En mettant ensemble les formules (4.1), (4.3) et (4.4), nous avons pour n ≥ n0 lim sup |E(f (Xn )) − E(f (X))| ≤ 2. pour tout  > 0. Donc pour  ↓ 0, nous obtenons le résultat. 84

5. Théorème de Scheffé

Dans la section précédente, nous avons lié la convergence vague et quelques caractéristiques de variables aléatoires dans Rk telles que la fonction de répartition et la fonction caractéristique. On peut se demander ce qu’il en est par rapport aux densités de probabilités par rapport à la mesure de Lebesgues dans Rk . Le théorème de Scheffé (1947) répond à cette préoccupation dans le cadre général. Enonçons-le d’abord. Théorème 12. (Scheffé). Soit λ une mesure sur un espace mesurable (E, B). Et soit p, (pn )n≥1 des densités de probabilités par rapport à λ, c’est-à-dire des applications numériques définies sur E, postitives, mesurables telles que Z Z (5.1) ∀n ≥ 1, pn dλ = p dλ = 1.

Si pn → p, λ − pp alors Z Z Z 1 sup pn dλ − p dλ = |pn − p| dλ → 0 2 B∈B B B

(5.2)

Démonstration. Supposons que pn → p, λ − pp. Posons ∆n = p − pn . Alors, (5.1)

implique Z ∆n dλ = 0. Donc, pour B ∈ B, Z

Z

Bc

B

B

∆n dλ. B

B

D’où (5.3) Z Z Z 2 ∆n dλ = ∆n dλ + B

∆n dλ = −

∆n dλ −

∆n dλ =

Z

Z

Z Z ∆n dλ ≤ |∆n | dλ+ c B

Z |∆n | dλ ≤

|∆n | dλ,

Bc

c’est-à-dire Z Z 1 ∆n dλ ≤ 2 |∆n | dλ. B

(5.4)

En prenant B=(∆n ≥ 0) dans (5.3), nous avons Z Z Z Z Z Z + − + − 2 ∆n dλ = ∆n dλ + −∆n dλ = ∆n dλ + ∆n dλ = |∆n | dλ. c B

B

B

85

En mettant ensemble les deux dernières formules, nous avons Z Z Z 1 (5.5) sup pn dλ − p dλ = |pn − p| dλ. 2 B∈B B

B

Maintenant, 0 ≤ ∆+ n = max(0, p − pn ) ≤ p. De plus, Z Z + ∆n dλ =

Z ∆n dλ =

(∆n ≥0)

Z ∆n dλ−

Z −∆n dλ =

∆n dλ =

(∆n ≤0)

Z

∆− n dλ,

(∆n ≤0)

de sorte que Z (5.6)

Z |∆n | dλ = 2

∆+ n dλ

Appliquons le théorème de convergence dominée à 0 ≤ ∆+ n ≤ |∆n | → 0 λ − pp, 0 ≤ ∆+ ≤ p. Nous aurons n Z ∆+ n dλ → 0, en vertu de (5.5), Z Z Z Z 1 p dλ = sup pn dλ − |pn − p| dλ = ∆+ n dλ → 0 2 B∈B B B 

6. Fonctions semi-continues

Une fonction f : S 7→ R est continue en tout x ssi (i) Pour tout x∈ R, pour tout  > 0, il existe un voisinage V de x tel que y ∈ V ⇒ f (y) ∈]f (x) − , f (x) + [. Dans cette formule, on s’intéresse à tout l’intervalle ]f (x) − , f (x) + [. Mais on peut s’intéresser uniquement l’une des bornes de l’intervalle. Cela nous donne les fonctions semi-continues. Précisément, f est dite semi-continue supérieurement (noté s.c.s ) ssi (ii) Pour tout x∈ R, pour tout  > 0, il existe un voisinage V de x tel que y ∈ V ⇒ f (y) < f (x) +  Elle est dite semi-continue inférieurement (noté s.c.i) ssi (iii) Pour tout x∈ R, pour tout  > 0, il existe un voisinage V de x tel que y ∈ V ⇒ f (y) > f (x) −  86

L’on voit immédiatement qu’une fonction f est continue ssi elle est s.c.i et s.c.s. De plus une fonction f est s.c.i. ssi son opposée -f est s.c.s. Allons plus loin en démontrant qu’une fonction f est semi-continue supérieurement ssi (6.1)

∀c ∈ R, (f ≥ c) est f erm´ e

Il s’en suivra aussi qu’une fonction semi-continue est mesurable. Montrons que f s.c.s ⇒ (f ≥ c) fermé. Soit f s.c.s. Soit x∈ G = (f ≥ c)c . Donc f (x) < c. Donc ∀  > 0, f (x) +  < c. f étant semi-continue supérieurement, il existe un voisinage V∈ V (x) de x tel que y ∈ V ⇒ f (y) ≤ f (x) +  < c et donc x ∈ V ⊆ G. Donc G contient ses points x avec un voisinage. Il est ouvert. Supposons maintenant que (6.1) est vraie. Soit x∈ S quelquonque. Donc pour tout  > 0, G = (f < f (x) + ) ouvert. Mais x appartient à G, donc G le contient avec un de ses voisinages V∈ V (x) et donc y ∈ V ⇒ y ∈ (f < f (x) + ) ⇒ f (y) ≤ f (x) + . Donc f est semi-continue supérieurement. 7. Un principe utile Proposition 21 (C). Soit une famille (Bλ )λ∈Γ de parties mesurables deux à deux disjointes d’un espace probabilisé (Ω, z, L). Alors un nombre au plus dénombrable d’entre elles ont une probabilité non nulle. Démonstration. Soit l’ensemble des indices λ pour lesquels Bλ est de probabilité

non nulle, D = {λ ∈ Γ, L(Bλ ) > 0}. On a surement D = ∪k≥1 Dk , avec Dk = {λ ∈ Γ, L(Bλ ) > 1/k}. Maintenant soit r éléments de Dk notés λ1 , λ2 , ..., λr , on a, par le fait que les ensembles sont disjoints deux à deux, r r [ X 1 ≥ L( Bλj ) = L(Bλj ) ≥ r/k. 1

1 87

D’où r ≤ k. Donc Dk contient au plus k éléments. Par suite, D est une union dénombrable d’ensembles finis. D est donc au plus dénombrable.  8. Divers – A prouver pour des réels x, y, X, et Y,

|min(x, y) − min(X, Y )| ≤ |x − X| + |y − Y |

(8.1)

En effet si min(x,y)=x et min(X,Y)=X, |min(x, y) − min(X, Y )| ≤ |x − X| si min(x,y)=y et min(X,Y)=Y, |min(x, y) − min(X, Y )| ≤ |y − Y | Maintenant soit min(x,y)=x et min(X,Y)=Y. On peut supposer que x≤ Y. On aura min(x, y) − min(X, Y ) = Y − x ≤ X − x puisque X ≥ Y. Le cas min(x,y)=y et min(X,Y)=X se traite comme le cas précédent. Donc (8.1) est vraie. 9. Mesurabilité de l’ensemble des points de discontinuité.

Voilà un résultat surprenant, à savoir que l’ensemble des points de discontinuité d’une application quelconque g, noté discont(g), d’un espace métrique (S, d) dans un autre (D, r) est mesurable. En effet, montrons que ∞ \ ∞ [ (9.1) discont(g) = Bs,t s=1 t=1

avec  Bs,t = x ∈ S, ∃(y, z) ∈ S 2 , d(x, y) < 1/t, d(z, x) < 1/t, r(g(y), g(z)) ≥ 1/s . Montrons que ∞ \ ∞ [

Bs,t ⊆ discont(g)

s=1 t=1

S T∞ Soit x ∈ ∞ e tel que pour chaque entier s=1 t=1 Bs,t . Il existe un entier s≥ 1 ≥ f ix´ t≥ 1, il existe yt et zt tel tel que d(x, yt ) < 1/t → 0 quand t → ∞ et d(x, zt ) < 1/t → 0 quand t → ∞ 88

et ∀ t ≥ 1, r(g(yt ), g(zt )) ≥ 1/s

(9.2)

Et si g est continue en x, alors par continuité, r(g(yt ), g(zt )) ≤ r(g(yt ), g(x)) + r(g(xt ), g(zt )) → 0 ce qui est en contradiction avec (9.2). Donc x n’est pas un point de continuité, d’où x ∈ discont(g). Montrons ∞ \ ∞ [ discont(g) ⊆ Bs,t . s=1 t=1

Soit x un point de discontinuité de g. Par négation de la continuité, ∃  > 0, ∀ η > 0, ∃ y ∈ S, d(x, y) < η, r(g(y), g(x)) ≥ . Soit s un entier tel que  ≥ 1/s, donc pour tout 1/t où t en entier positif non nul, ∃ y ∈ S, d(x, y) < 1/t, r(g(y), g(x)) ≥ 1/s. En posant z=x, on a bien d(x, z) < 1/t, d(x, y) < 1/t, r(g(y), g(x)) ≥ 1/s. S T∞ Donc x ∈ ∞ t=1 Bs,t . D’où l’égalité. s=1 Montrons enfin que chaque Bs,t est ouvert. Posons a = 1/s > 0 et b = 1/t > 0. Soit x∈ Bs,t , Donc ∃(y, z) ∈ S 2 , d(x, y) < b, d(z, x) < b, r(g(y), g(z)) ≥ a Soit c = min(b − d(x, y), b − d(z, x)) > 0. Soit x0 ∈ B(x, c), donc d(x0 , y) ≤ d(x0 , x) + d(x, y) < c + d(x, y) ≤ b et d(x0 , z) < d(x0 , x) + d(x, z) ≤ c + d(x, z) ≤ b et r(g(y), g(z)) ≥ a D’où x0 ∈ Bs,t . D’où x ∈ B(x, c) ⊆ Bs,t Ainsi chaque Bs,t contient ses points avec des boules overtes. Donc chaque Bs,t est ouvert. Donc discont(g) est mesurable. 89

10. Théorème de Stone-Weieirstrass. Proposition 22. Soit (S, d) un espace métrique compact et H une partie non vide de C(S, R) l’ensemble des fonctions continues de S dans R verifiant les propriétés (i) H est réticulée, i.e, si f et g sont deux éléments de H, alors f ∧ g et f ∨ g appartient à g (ii) Si x et y sont éléments de S, et (a,b) un couple de réels (avec a=b si x=y), alors il existe deux élements h et k de H tels que

h(x) = a et k(y) = b. Alors H est dense de C(S, R) munie de sa topologie uniforme, c’est-à-dire, que toute fonction continue de S dans R est limite uniforme d’une suite d’éléments de H. Théorème 13. Soit (S, d) un espace métrique compact et H une partie non vide de C(S, C) l’ensemble des fonctions continues de S dans C verifiant les propriétés : (i) H contient les fonctions constantes (i) Si(h, k) ∈ H 2 , h + k ∈ H, h × k ∈ H, u ∈ H (ii) H sépare les points de S, i.e., pour tous éléments x et y distinctes de S, x 6= y, alors il existe h ∈ H h(x) 6= h(y). Alors H est dense de C(S, C) muni de sa topologie uniforme, c’est-à-dire, que toute fonction continue de S dans C est limite uniforme d’une suite d’éléments de H. Remarque 2. Si on travaille sur R, le théorème est vrai et la condition u ∈ H, n’a pas de sens.

90

Bibliographie [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11]

Alaoui Aziz El Kacimi, Eléments d’intégration et d’analyse fonctionnelle, Ellipse, 1999 Foata Dominique, Aimé Fuchs, Calcul de probabilités, Dunod, Paris 2nd Ed, 1998 Gramain A., Intégration, Collections Méthodes, Hermann, 1994 Genet Jean, Mesure et Intégration : Théorie élémentaire. Vuibert, Paris, 1976. Buchwalter Henri, Le calcul Intégral, Ellipse, Paris, 1991 Loève Michel, Probability Theory I, Springer Verlag, 4ième Ed, 1997 Marle Charles-Michel , Mesure et probabilités, Hermann, Paris, 1974 Métivier, M., Notions Pondamentales de Probabilités, Dunod Université, 1979 K. R. Parthasarathy. Introduction to Probabality and Measure. Hindustan Book Agency. India, 2005. Revuz Daniel, Mesure et Intégration, Hermann, Paris, 1994 Jordan Stoyanov, Counterexamples in Probability, Wiley, 1987.

91

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF