Statistiques Chapitre 1: Rappels de calcul de Probabilité

January 18, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Statistiques Chapitre 1: Rappels de calcul de Probabilité...

Description

Statistiques Chapitre 1: Rappels de calcul de Probabilité Catherine Bruneau Année 2004

1

Expérience aléatoire

Definition 1 Une expérience est dite aléatoire si on ne peut pas prévoir l’issue avec certitude Example 2 : on lance un dé et on ne sait pas quelle face va apparaître Definition 3 On appelle Ω l’ensemble des issues possibles, notées ω. Example 4 On lance deux dés: l’ensemble Ω comporte 36 éléments; il est défini par: Ω = {(1, 1), (1, 2), ..., (6, 6)} Definition 5 Un évènement A est une partie de Ω donc un ensemble d’issues possibles ω. Example 6 Un évènement élémentaire est réduit à une seule issue: {ω} Example 7 un évènement possible lorqu’on lance deux dés noir et rouge: A : la somme des points des deux faces apparues est ≥ 10 : A = {(4, 6); (6, 4); (5, 5); (5, 6); (6, 5); (6, 6)} Definition 8 A tout évènement A on associe son contraire: A qui est défini comme le complémentaire de A dans Ω : A∪A = Ω A∩A = φ où φ désigne le sous-ensemble vide (complémentaire de Ω dans Ω). Ω est l’évènement cetain: n’importe quelle issue réalise Ω

1

Definition 9 Un sous-ensemble A de l’ensemble P (Ω) des parties de Ω , est une tribu d’évènements définie sur Ω, si elle obéit aux trois axiomes: i) ∀A ∈ A, A ∈ A ii) Pour toute suite finie ou infinie (dénombrable) d’évènements Ai , i = 1, 2, ... d’évènements de A, ∪i Ai ∈ A iii) Ω ∈ A (Ω, A) est appelé espace probabilisable Definition 10 Deux évènements A et B sont dits incompatibles si leur intersection est vide: A ∩ B = φ Example 11 on lance un dé: A = {la face tirée est paire} = {2, 4, 6}. B = {la face tirée est impaire} = {1, 3, 5} Definition 12 Une partition de Ω est une suite finie d’évènements disjoints (ou incompatibles) Ωk , 1 ≤ k ≤ K (Ωk ∩ Ωk0 = φ, pour k 6= k0 ) dont l’union donne Ω : [ Ωk = Ω 1≤k≤K

Example 13 Exemple On lance un dé: Ω1 = {la face tirée est inférieure ou égale à 2}; Ω2 = {la face tirée est comprise entre 2 et 4} ; Ω3 = {la face tirée est supérieure ou égale à 5}. Exemple Le temps de demain; Ω1 = {il fait beau}; Ω2 = {il fait mauvais}

2

Probabilité

Definition 14 (Axiomatique de Kolmogorov): On appelle probabilité sur l’espace probabilisable (Ω, A) une application de A dans [0, 1] qui à chaque évènement A de Ω associe sa probabilité P (A)), satisfaisant les axiomes suivants: i) P (Ω) = 1 ii) Pour toute suite finie ou non (mais dénombrable) d’évènements Ai ⊂ Ω, incompatibles: [ X P ( Ai ) = P (Ai ) i

i

On parle alors d’espace probabilisé (Ω, A, P). Propriété ∀A ∈ C, P (A) = 1 − P (A) Definition 15 Propriété P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Propriété Si on a une partition de Ω, {Ωk , 1 ≤ k ≤ K}, pour tout évènement A de Ω, la propriété suivante est vérifiée: P (A) =

K X

k=1

2

P (A ∩ Ωk )

Exercice: établir les différentes propriétés Remarque: historiquement la probabilité d’un évènement a été introduite comme limite de la fréquence d’occurrence de cet évènement, observée en reproduisant de manière indépendante une même expérience aléatoire un grand nombre de fois. Il s’agit de l’approche fréquentiste de Bernouilli. Par exemple; on lance le même dé (non pipé) n fois, et on note combien de fois l’évènement ”la face est 3” s’est produit lors des n lancés, soit n3 . la fréquence nn3 tend vers 1 1 6 lorsque n tend vers l’infini: 6 est la probabilité d’observer la face 3 (lorsque le dé n’est pas pipé, car alors les 6 faces sont équiprobables). On définit la probabilité conditionnelle de la manière suivante: Definition 16 Etant donnés deux évènements A et B on appelle probabilité coinditionnelle ”sachant B”la probabilité définie sur Ω par: A → P (A/B) =

P (A ∩ B) P (B)

Exercice: vérifier que cette application définit bien une probabilité sur Ω Example 17 On lance successivement deux dés; il y a 36 issues possibles comme vu précédemment. Soit B l’évènement : ”la somme des deux faces est paire”; Soit A l’évènement: ”la face du premier dé est paire”. ½ ¾ (1, 1); (1, 3); (1, 5); (2, 2); (2, 4); (2, 6); (3, 1); (3, 3); (3, 5); (4, 2); B= (4, 4); (4, 6); (5, 1); (5, 3); (5, 5); (6, 2); (6, 4); (6, 6) définit le nouvel ensemble des issues possibles. Il y en a 18. A = {(2, 2); (2, 4); (2, 6); (4, 2); (4, 4); (4, 6); (6, 2); (6, 4); (6, 6)} A est réalisé quand on observe l’une des 9 issues précédentes sur les 18 possibles, ce qui donne une probabilité: P (A/B) =

1 9 = 18 2

On vérifie que A∩B = {(2, 2); (2, 4); (2, 6); (4, 2); (4, 4); (4, 6); (6, 2); (6, 4); (6, 6)}. P (A ∩ B) = donc

P (A ∩ B) P (B)

=

1 18 1 9 = ; P (B) = = 36 4 36 2 1 1 4 1 = 2 = P (A/B) 2

Proposition 18 Définition A et B sont deux évènements indépendants si et seulement si P (B/A) = P (B) Propriété A et B sont deux évènements indépendants si et seulement si P (A∩ B) = P (A)P (B)

3

3

Probabilité a priori, a posteriori et formule de Bayes

Proposition 19 Formule de Bayes. Etant donnée une partition de Ω, Ω = S Ω et Ωk ∩ Ωk0 = φ pour k 6= k0 , et A un évènement (A ⊂ Ω), on a: k 1≤k≤K P (A/Ωk0 )P (Ωk0 ) 1≤k≤K P (A/Ωk )P (Ωk )

P (Ωk0 /A) = P

En effet: P (A/Ωk0 )P (Ωk0 ) = PP (A ∩ Ωk0 ) et P P (A/Ω )P (Ω ) = k k 1≤k≤K 1≤k≤K P (A ∩ Ωk ) = P (A). Cette formule s’interprète de la manière suivante: on appelle P (Ωk0 ) la probabilité a priori de l’évènement Ωk0 et P (Ωk0 /A) la probabilité a posteriori, c’est-à-dire ”sachant que l’évènement A s’est réalisé”. On donne l’exemple suivant. On s’intéresse à la prévision du temps du lendemain en utilisant un baromètre. On considère la partition de Ω en deux évènements Ω1 : ”il fait beau” et Ω2 : ”il fait mauvais temps”. Des statistiques météorologiques fournissent une estimation des probabilités a priori: π1 = P (Ω1 ) et π2 = 1 − π1 pour une région et une période de l’année données, soit: π1 = 0.60 Les caractéristiques du baromètre sont telles qu’il prévoit à tort du beau temps -respectivement du mauvais temps- 1 fois sur 10 - respectivement 2 fois sur 10 pour la prévision du beau temps et 12 fois sur 100 pour la prévision du mauvais temps. On appelle A l’évènement :”prévision de beau temps”. Par définition, l’évènement A correspond à la prévision de mauvais temps. Les performances prédictives du baromètre sont donc les suivantes: P (A/Ω1 ) = 0.20 P (A/Ω2 ) = 0.10 Par suite, si le baromètre indique qu’il va faire beau, la probabilité qu’il fasse effectivement beau -probabilité a posteriori- est donnée par: P (A/Ω1 )P (Ω1 ) P (A/Ω1 )P (Ω1 ) + P (A/Ω2 )P (Ω2 ) 0.80x0.60 = 0.80x0.60 + 0.20x0.40 = 0.86

P (Ω1 /A) =

à comparer à la probabilité de 0.60, donnée sans référence au baromètre.

4

4

Variable aléatoire

Une variable aléatoire varie selon l’aléa: sa valeur dépend de l’aléa ω. Definition 20 Etant donné un espace Ω muni d’une tribu d’évènements A, on appelle variable aléatoire réelle X définie sur (Ω ,A) toute application de Ω dans (R, B) telle que: ∀B ∈ B, X −1 (B) ∈ A B désigne la tribu des boréliens de l’ensemble des réels R, c’est-à-dire la plus petite tribu définie sur R qui contient les intervalles ouverts de R.

4.1

Variables alétoires discrètes

Definition 21 Une variable alétoire est dite discrète si elle ne prend qu’un nombre fini ou dénombrable de valeurs: X(ω) ∈ {x1 , ..., xK , ...}. Definition 22 Si (Ω,A) est muni d’une probabilité P , la distribution -ou loide probabilité de X est caractérisée par la donnée de pk = P (X = xk ) = P ({ω/X(ω) = xk }). P Remarque: On a k pk = 1. Exemple: On jette un dé jusqu’à ce que la face 1 apparaisse. On appelle X la variable aléatoire qui est égale au numéro du lancé qui fait apparaître 1 pour la première fois. L’ensemble des valeurs possibles est l’ensemble des entiers, N . ¡ ¢k−1 . Dans ce cas, pour tout entier k, X = k avec la probabilité pk = 16 x 56

Definition P 23 On appelle espérance d’une variable aléatoire X, la quantité EX = k pk xk . ¢ ¡ Definition 24 On appelle variance de X la quantité V arX = E (X − EX)2 = P 2 k pk (xk − EX) Rappel: on montre que V arX = E(X 2 ) − (EX)2

Definition 25 On appelle covariance de deux variables aléatoires X et Y définies sur un espace (Ω ,A, P), la quantité: cov(X, Y ) = E ((X − EX)x(Y − EY )) = E(XxY ) − EXxEY Propriété Pour deux variables aléatoires réelles X et Y définies sur une space (Ω ,A, P), et tous scalaires λ et µ, on a E(λX + µY ) = λE(X) + µE(Y ) 1. et V ar(λX + µY ) = λ2 V ar(X) + µ2 V ar(Y ) + 2λµcov(X, Y )

5

Propriété Deux variables alétoires discrètes X et Y sont indépendantes si et seulement si: ∀xk , ∀yl , P (X = xk et Y = yl ) = P (X = xk )P (Y = yl ) Deux variables indépendantes ont une covariance nulle mais la réciproque n’est pas vraie. Exemples de variables aléatoires discrètes 1. Variable de Bernouilli de paramètre p. Elle peut prendre deux valeurs: 1 avec la probabilté p et 0 (avec la probabilité 1 − p).

Son espérance est égale à : EX = 1xp + 0x(1 − p) = p et sa variance est V ar(X) = 12 xp + 02 (1 − p) − p2 = p(1 − p).

Exemple: on lance un dé (non pipé) et on définit: X = 1 si la face est paire et 0 sinon. X est une Bernouilli de paramètre p = 36 .

Variable de loi binômiale B(n, p) L Pn X = i= Xi où les variables Xi sont des variables de Bernouilli de paramètre p indépendantes. Pn Son espérance est Pnégale à EX = i= EXi = nEX1 = np et sa variance est V ar(X) = i= V arXi = nV arX1 = np(1 − p) car les variables Xi sont indépendantes donc de covariances nulles.

Exemple: on lance 10 fois un dé non pipé avec indépendance des lancés successifs. X est la variable alaétoire qui indique le nombre de fois où apparaît la face paire. X est une binômiale B(10, 12 ). Exercice : Montrer que si X est une binômiale B(n, p), P (X = k) = Cnk pk (1 − n! désigne le nombre de permutations de k éléments p)n−k où Cnk = k!(n−k)! parmi n. Variable de Poisson de paramètre λ c’est une variable à valeurs dans N telle que: ∀k ∈ N , P (X = k) =

λk exp(−λ) k!

Cette variable alétoire est utilisée lorsqu’on veut comptabiliser le nombre de fois où se produisent des évènements sur une durée donnée sous les hypothèses suivantes: i) seul évènement survient à la fois ii) le nombre d’évènements ne dépend que de la durée T iii) les évènements survenant sur des sous-périodes disjointes sont indépendants. La cadence c, c’est à dire le nombre moyen d’évènements par unité de temps, est alors telle que: λ = cT . 6

Propriété : Pour une variable de loi de Poisson P (λ), EX = V arX = λ. Exercice : Le démontrer. Propriété Si X1 et X2 sont deux variables indépendantes de lois de Poisson P (λ1 ) et P (λ2 ), X1 + X2 suit loi de Poisson P (λ1 + λ2 ). Exercice : Le démontrer. Propriété : Si n est grand et p est petit, on peut approximer la binômiale B(n, p) par une loi de Poisson P (np). Exemples d’utilisation de la loi de Poisson: 1. loi du nombre de suicidés par an loi du nombre d’appels téléphoniques pendant une durée donnée loi du nombre de pièces défectueuses dans une livraison importante pour une production de bonne qualité, etc...

4.2 4.2.1

Variables alétoires continues Cas d’une seule variable

Definition 26 Une variable alétoire réelle continue X définie sur un espace (Ω,A,P) prend un continuum de valeurs (donc non dénombrables) Definition 27 Sa loi de probabilité est caractérisée par sa fonction de répartition: F (x) = P (X < x) pour tout x de R. F est croissante, F (−∞) = 0 et F (+∞) = 1 Definition 28 La loi de probabilité de X est caractérisée de manière équivalente par sa densité: f (x)

1 F 0 (x) = lim P (x ≤ X < x + h) h→0 h Z x ⇔ F (x) = f(t)dt =

−∞

L

Exemple: La loi normale ou loi de Laplace-gauss centrée réduite : X = N(0, 1) est caractérisée par la densité: 1 1 ∀x ∈ R, f (x) = √ exp(− x2 ) 2 2π R +∞ L’espérance de X de densité f est la quantité: EX = −∞ tf (t)dt. R +∞ R +∞ La variance est V arX = −∞ (t − EX)2 f (t)dt = −∞ t2 f(t)dt − (EX)2 Remarque: une variable est dite centrée lorque que son espérance est nulle; elle est dite réduite lorsque sa variance est égale à 1 7

Exercice Vérifier que EX = 0 et V arX = 1 pour une variable de LaplaceGauss centrée réduite. Definition 29 Une variable suit la loi de Laplace Gauss de moyenne m et de variance σ2 ,notée N (m, σ2 ) si et seulement si sa densité est donnée par: 1 1 (x − m)2 ∀x ∈ R, f(x) = √ exp(− ) 2 σ2 σ 2π Exercice Vérifier que si X suit une loi de Laplace-Gauss N(m, σ 2 ), une loi de Laplace-Gauss centrée réduite N(0, 1).

X−m σ

suit

Definition 30 On définit le coefficient d’asymétrie :µ3 = E((X − EX)3 ) et le 4 ) coefficient de kurtosis µ4 = E((X−EX) (V arX)2 Le coefficient d’asymétrie est nul si et seulement si la loi centrée est symétrique autour 0. C’est le cas d’une variable normale. Le coefficient d’aplatissement caractérise l’épaisseur des queues de distribution (probabilité d’observer des grandes valeurs). Pour une loi normale µ4 = 3. Exercice: le démontrer Si une variable a une loi présentant des queues de distribution plus épaisses que celles de la loi normale, son coefficinet de kurtosis est plus grand que 3: on parle d’effet leptokurtique (ou excès de kurtosis). Definition 31 On peut aussi caractériser une variable alétoire continue par la donnée de sa fonction caractéristique: Z itX ϕX (t) = E(e ) = eitx f(x)dx =

∞ X (it)k

k=0 k

k!

E(X k )

où E(X ) désigne le moment d’ordre k de X. La densité est obtenue à partir de la fonction caractéristique ϕX : Z 1 e−itx ϕX (t)dt f (x) = 2π

Exemple: pour une variable X de loi N (0, 1), on montre que ϕX (t) = (admis). e Remarque: la fonction génératrice de la somme de n variables alétoires indépendantes est égle au produit des n fonctions génératrices: 2

− t2

ϕX1 +...+Xn (t) = E(eit(X1 +...+Xn ) ) = E(eitX1 eitX2 ...eitXn ) n Y = E(eitXj )(indépendance des Xj ) =

j=1 n Y

ϕXj (t)

j=1

8

Appplication: démonstration du théorème central limite Théorème : Etant donné n variables alétoires indépendantes Xi et de même loi de probabilité, d’espérnace m et de variance σ 2 , on a la convergence en loi 1 : √ X −m L n → N (0, 1) σ où X =

1 n

Pn

i=1

Xi .

Preuve On peut écrire: √ X −m n σ

=

X −m √ σ/ n

nX − nm √ σ n n X Xi − m √ = σ n i=1 =

Les variables i étant indépendantes, la fonction caractéristique de la Pn X−m est égale au produit des fonctions caractéristiques: somme i=1 Xσi√ n ϕh P

Xi −m n √ i=1 σ n

i (t)

=

n Y

i=1

ϕh Xi√−m i (t) σ

σ

car les variables téristique

X1√ −m σ n

ϕh X1√−m i (t) = 1 − σ

n

ont toutes même loi donc même fonction carac-

Or ϕh X1√−m i (t) = ϕ[X1 −m] (t)( σ√t n ) = E(eit σ n ¡ X1 −m ¢2 t2 t2 ) + O( 2n ),soit: 2n E( σ 1 On

n

¶n µ = ϕh X1√−m i (t)

n

X1 −m √ σ n

) = 1+

it √ E( X1σ−m ) n



t2 t2 + O( ) 2n 2n

dit qu’une suite de variables aléatoires Xn de fonctions de répartition Fn tend en loi vers une variable X de fonction de répartition F si et seulement si on a pour tout x (point de continuité de F ) Fn (x) → F (x) n→∞

9

de sorte que: ϕh P n

Xi −m √ i=1 σ n

i (t)

¸n · t2 t2 + O( ) 1− 2n 2n

=

t2

→ e− 2

n→ ∞

→ ϕN(0,1) (t)

n →∞

ce qui établit bien la propriété de convergence recherchée.

5 5.1

Vecteurs aléatoires Caractérisation de la distribution de probabilité

Definition 32 La loi d’un couple de variables aléatoires (X, Y ) réelles, continues, définies sur un espace (Ω,A,P) est caractérisée par la fonction de répartition: ∀x ∈ R, ∀y ∈ R, F(X,Y ) (u, v) = P (X < x et Y < v) Definition 33 On définit la densité h par la dérivée seconde de F(X,Y ) , soit: ∂ 2 F(X,Y ) |(x,y) ⇔ F(X,Y ) (u, v) = h(x, y) = ∂u∂v

Z

u

−∞

Z

v

h(x, y)dxdy

−∞

Definition 34 On appelle loi marginale de X (resp. de Y ) la loi de X (resp. Y ). Sa fonction de répartition FX (resp. FY ) est définie par: FX (x) = P (X < x) = (resp.) FY (x) = P (Y < y) =

Z

x

Z

+∞

h(u, v)dudv = H(x, +∞)

−∞ −∞ Z y Z +∞ −∞

h(u, v)dudv = H(+∞, y)

−∞

de sorte que les densités marginales associées sont: Z +∞ 0 f(x) = FX (x) = h(x, v)dv (resp.) g(y) = FY0 (y) =

Z

−∞ +∞

h(u, y)du

−∞

Definition 35 On définit aussi la loi conditionnelle de de Y sachant X = x par la densité: g(y/x) =

10

h(x, y) f (x)

De manière heuristique, on peut écrire: P (Y

P (Y < y et x ≤ X < x + dx) < y/x ≤ X < x + dx) = P (x ≤ X < x + dx) i R y hR x+dx h(u, v)du dv −∞ x i = R +∞ hR x+dx h(u, v)du dv −∞ x Ry [h(x, v)dx] dv ≈ R −∞ +∞ [h(x, v)dx] dv −∞ Ry h(x, v)dv −∞ ≈ f(x)

de sorte que la dérivée par rapport à y donne la densité conditionnelle recherchée: ∂

g(y/x) = =

Ry

−∞

h(x,v)dv ∂y

f (x) h(x, y) f (x)

Indépendance de deux variables aléatoires: deux variables aléatoires X et Y sont indépendantes si et seulement si: ∀x, ∀y, P (X

< ⇔ ⇔ ⇔

x et Y < y) = P (X < x)P (Y < y) P (Y < y/X < x) = P (Y < y) H(x, y) = f (x)g(y) g(y/x) = g(y)

Remarque: l’independance entraîne la non-corrélation (ou covariance nulle) mais la réciproque n’est pas vraie (le vérifier). On rappelle que :la corrélation entre deux variables X et Y est définie par: corr(X, Y ) = √

cov(X, Y ) p V arx V ar(Y )

RR avec cov(X, Y ) = (x − EX)(y − EY )h(x, y)dxdy. D’après l’inégalité de Schwartz, le coefficient de corrélatione st comprisentre −1 et 1. Definition 36 Ona ppelle espérance conditionnelle E(Y /X) la variable alétoire définie par: x → E(Y/X = x) Z +∞ yg(y/x)dy x → −∞ +∞

x →

Z

y

−∞

11

h(x, y) dy f(x)

Remarque: E(Y/X) est une variable aléatoire: ω → E(Y /X = X(ω)). On admettra la propriété suivante: Propriété L’espérance conditionnelle E(Y/X) est la variable aléatoire, fonction de X , ψ(X) (qui approxime le mieux Y au sens de l’ereur quadratique moyenne: E(Y/X) = M inψ(X) (E(Y − ψ(X))2 ) Remarque: lorqu’on se limite aux fonctions affines ψ(X) de X, le minimum au sens de l’erreur quadratique moyenne correspond à la régression linéaire (affine) de Y sur X.

5.2

Moments des deux premiers ordres d’un vecteur aléatoire de dimension n

Un vecteur aléatoire est un vecteur dont les composantes sont des variables aléatoires. Soit X = (X1 , ..., Xn )0 un vecteur alétoire de dimension n . On définit les deux premiers moments espérance EX de X, et variance V arX de X par: EX = (EX1 , ..., EXn )0 V arX = E((X − EX)(X − EX)0 ) soit: 

  V arX =   

V arX1 Cov(X1 , X2 ) . . V arX2 Cov(X2 , X1 ) . . Cov(X3 , X1 ) . . . . Cov(Xn , X1 ) Cov(Xn , X2 )

. Cov(X1 , Xn ) . Cov(X2 , Xn ) . . . . . V arXn

     

Les propriétés suivantes sont vérifiées, pour toute matrice non-aléatoire A de dimension nxn: E(AX) = AEX V ar(AX) = AV arXA0 où A0 désigne la transposée de A (cest-à-dire la matrice obtenue à partir de A en inversant les rôles des lignes et des colonnes). Exercice : Le vérifier. Definition 37 Etant donnés deux vecteurs aléatoires X et Y , la matrice de covariance entre X et Y est définie par: Cov(X, Y ) = E((X − EX)(Y − EY )0 ) 12

5.3

Densité d’une loi normale n-dimensionnelle

Definition 38 Le vecteur aléatoire X = (X1 , ..., Xn )0 suit une loi normale d’espérance m = (m1 , ..., mn )0 et de variance si et seulement si sa densité est donnée par : ∀x = (x1 , ..., xn ) ∈ Rn , 1 1 exp(− (x − m)0 Σ−1 (x − m)) h(x) = n/2 2 (2π) det(Σ)1/2 Si les variables Xi sont non-corrélées, la matrice de variance-covariance Σ est diagonale et dans ce cas, on peut écrire: 1 n/2

(2π)

det(Σ)1/2

1 exp(− (x − m)0 Σ−1 (x − m)) 2 n

1X 1 (xi − mi )2 ) n/2 2 i=1 Σii (2π) det(Σ)1/2 Ã  ! n n 2 Y Y 1 1 − m ) (x i i  exp(− ) =  1/2 2 Σii Σjj j=1 (2π) i=1

=

1

exp(−

en appellant Σii le i−i`eme élément diagonal de Σ. Ainsi les variables aléatoires Xi sont indépendantes puisque la densité h du vecteur X est le produit des densités de ses composantes: h(x1 , ..., xn ) = fX1 (x1 )...fXn (xn ) 2

1 i) où fXi (xi ) = (2π)1/2 exp(− 12 (xi −m ). Σii Σii On a donc établi la propriété suivante.

Propriété : Des variables aléatoires normales sont indépendantes si et seulement si elles sont non-corrélées. Une autre propriété importante concerne la stabilité de la classe des variables normales par transformation linéaire (affine). Propriété : La transformée linéaire AX d’un vecteur aléatoire normal X est normal. Preuve On peut établir facilement la propriété lorsque les composantes de X sont indépendantes. Par hypothèse, chaque composante Xi suit une loi normale N(mi , σ 2i ). On peut supposer, sans perte de généralité, que les composantes Xi de X fi où X fi est une variable centrée). sont centrées (sinon Xi = mi +X 13

Par suite, pour tout scalaire λi , la fonction caractéristique de λi Xi est donnée par: 2

φ[λi Xi ] (t) = φh Xi i (λi σi t) = e−(λi σi t) σi

Alors, pour tous scalaires λi la fonction caractéristique de le produit des fonctions caractéristiques, soit: φ[P n λi Xi ] (t) = i=1

n Y

Pn

i=1 λi

Xi est

φ[λi Xi ] (t)

i=1

n X = exp( −(λi σi t)2 ) i=1

n X = exp(−t2 ( λ2i σ 2i ) i=1

= φU (t)

On reconnaît P la fonction caractéristique d’une variable de loi normale, cenn trée,Pde variance i=1 λ2i σ2i . Pn n 2 2 i=1 λi Xi suit donc une loi normale centrée de variance i=1 λi σ i . Pour établir la propriété dans le cas général (où les composantes ne sont pas indépendantes), la démonstration est plus délicate; si on se limite, sans perte de généralité à deux variables (n = 2), on décompose λ1 X1 + λ2 X2 λ1 X1 + λ2 X2 = λ1 X1 + λ2 E(X2 /X1 ) + λ2 (X2 − E(X2 /X1 )) comme la somme de deux variables aléatoites U et V : U V

= λ1 X1 + λ2 E(X2 /X1 ) = λ2 (X2 − E(X2 /X1 ))

On établit la propriété générale: Propriété : Etant donnée deux variables X et Y , distribuées comme deux variables normales N (mX , σX ) (resp. N (mY , σY )) de coefficient de corrélation ρ, l’espérance conditionnelle E(Y /X) est une fonction affine de X: cov(X, Y ) (X − mX ) σ2X ρσ Y (X − mX ) = mY + σX

E(Y/X) = mY +

Exercice Etablir cette propriété

14

Indication: pour établir cette propriété, on calcule la loi conditionnelle de Y sachant X = x, on vérifie qu’elle a pour expression: · ¸ 1 1 ρσY 1 2 p (y − m g(y/x) = √ exp(− 2 + (x − m ) Y X ) 2σY (1 − ρ2 ) σX 2π σY 1 − ρ2 c’est-à-dire la densité d’une variable normale de moyenne: ρσ Y E(Y /X = x) = mY + (x − mX ) σX et de variance: V ar(Y/X = x) = σ 2Y (1 − ρ2 ) Par suite, U est une fonction affine de X1 : µ ¶ ρσ2 ρσ 2 U = λ2 (m2 − m1 ) + λ1 + λ2 X1 σ1 σ1 et donc distribuée, en tant que telle, comme une variable normale. De même, V = X2 − E(X2 /X1 ) est distribuée, conditionnellement à X1 , comme une loi normale centrée, de variance V ar(X2 /X1 ) = σ22 (1 − ρ2 ) d’après la dernière propriété établie; mais cette variable aléatoire a ses deux premiers moments indépendants de la valeur de X1 ( ils sont respectivement égaux à 0 et σ22 (1 − ρ2 )), ce qui implique que V est distribuée indépendamment de X1 , et donc de toute fonction de X1 , et en particulier de U , comme une variable normale. En conclusion, U et V sont deux variables normales et indépendantes. On peut alors utiliser le résultat obtenu précédemment lorsque les composantes du vecteur aléatoire X sont indépendantes pour conclure que λ1 X1 + λ2 X2 , qui est la somme U + V , est distribuée comme une loi normale. c.q.f.d. Propriété Etant donnés un vecteur aléatoire normal X n-dimensionnel, centré et réduit, et un sous espace V de Rn les vecteurs aléatoires PV U et PV ⊥ U qui sont les projetés de X sur les espaces V et V⊥ sont deux vecteurs normaux (parce que transformés linaires d’un vecteur normal) non-corrélés, c’est-à-dire indépendants. 0 Preuve cov( PV U ,PV ⊥ U) = E(PV U (PV ⊥ U ) ) parce que les vecteurs PV U et 0 PV ⊥ U sont centrés. E(PV U (PV ⊥ U ) ) = E(PV U U 0 PV0 ⊥ ) = PV E(U U 0 )PV0 ⊥ = PV V arU PV0 ⊥ = PV Idn PV ⊥ = 0. En effet PV0 ⊥ = PV ⊥ car un projecteur est défini par une matrice symétrique.

5.4

Transformé quadratique d’un vecteur normal: la loi du chi-deux

Definition 39 une variable V suit Pn une loi du chi-deux à n degrés de liberté si elle est égale en loi à la somme i=1 Ui2 où les variables Ui sont des variables normales centrées réduites indépendantes. 15

Sa densité est donnée par: f (x) =

1 x e− 2 xn/2−1 2n/2 Γ( n2 )

où la fonction Γ vérifie: Γ(p) = (p − 1)Γ(p − 1) pour tout p > 0 n n Γ( ) = ( − 1)! si n est pair 2 2 (n − 1)! √ n Γ( ) = π si n est impair n−1 2 2 ( n−1 2 )! Propriété C’est aussi la densité d’une loi gamma de paramètre

n 2.

Definition 40 Une variable est distribuée comme la loi Gamma de paramètre r, si sa densité, définie sur l’ensemble des réels strictement positifs, est donnée par: fΓr (u) =

1 −u r−1 e u 1u>0 Γ(r)

On établit d’abord la propriété pour n = 1, puis on utilise la propriété selon laquelle la somme de variables distribuées comme des variables gamma est encore une variable gamma. Propriété: Etant données deux variables X et Y , indépendantes, distribuées comme des variables gamma de paramètres respectifs r1 et r2 , la somme X + Y est distribuée comme une variable gamma de paramètre (r1 + r2 ). L

L

L

Exercice : si U = N (0, 1), alors U 2 = χ21 = Γ 12 Indication Ecrire que, pour tout x > 0, fU 2 (x) = limdx→0 √ √ √ √ limdx→0 P ( x≤U < x+dx)+Pdx(− x+dx≤−U 0, ∃N, ∀n ≥ N, P (|Xn − X| > α) < ε On montre que la convergence presque sûre entraîne la convergence en probabilité. Definition 43 Une suite de variables aléatoires Xn définies sur un même espace probabilisé (Ω ,A, P) tend en moyenne quadratique vers une variable aléatoire X si et seulement si: ¢ ¡ E (Xn − X)2 → 0 n→∞

ce qui est équivalent à:

EXn → EX n→∞

et V ar(Xn − X) → 0 n→∞

La convergence en moyenne quadratique vers une constante implique la convergence en probabilité vers cette constante.

6.2

Principaux résultats de convergence

On a établi précédemment le théorème central limite: Théorème : Etant donné n variables aléatoires indépendantes Xi et de même loi de probabilité, d’espérnace m et de variance σ 2 , on a la convergence en loi

où X =

1 n

Pn

i=1

√ X −m L n → N (0, 1) σ Xi .

Loi faible des grands nombres : Si X1 , ..., Xn , ... désignent n variables indépendantes de moyennes m1 , m2 , ..., mn , ... finies et de variances σ21 , σ22 , ..., σ 2n , ... finies. Si on a: n

1X mi → m n→∞ n i=1 et

n 1 X 2 σ → 0 n2 i=1 i n→∞

18

alors on a la convergence en probabilité: n

1X P Xi → m n→∞ n i=1 Loi forte des grands nombres : Si X1 , ..., Xn , ... désignent n variables indépendantes de moyennes m1 , m2 , ..., mn , ... finies et de variances σ21 , σ22 , ..., σ 2n , ... finies. Si on a: n

1X mi → m n→∞ n i=1 et

∞ X σ2 i

i2

i=1

est convregente

alors on a la convergence presque sûre: n

1X P.S. Xi → m n→∞ n i=1

19

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF