TD Modélisation Statistique

January 16, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download TD Modélisation Statistique...

Description

Licence 3 Mathématiques

TD Modélisation Statistique Ex 1.

Soit X une variable aléatoire réelle de densité f continue et de fonction répartition F .

1. Calculer la fonction de répartition de Y = αX + β pour α, β ∈ R, et celle de Z = eX . En déduire leurs densités (pour α 6= 0). 2. Retrouver les densités de Y et Z en utilisant la formule du changement de variable. Soient Y1 et Y2 deux variables aléatoires réelles de densités respectives f1 et f2 continues, et X une variable de Bernoulli de paramètre p indépendante de Y1 et Y2 . Déterminer la densité de la variable aléatoire

Ex 2.

Y = Y1 X + Y2 (1 − X). Ex 3.

Un vecteur Gaussian standard (X, Y )> de R2 est un vecteur aléatoire de densité f (x, y) =

 x2 + y 2  1 exp − , x, y ∈ R. 2π 2

1. On considère les coordonnées polaires en posant X = R cos(T ) et Y = R sin(T ) avec R ≥ 0 et T ∈ [0, 2π[. Montrer que les variables aléatoires R et T sont indépendantes et préciser leurs lois. 2. Soit (U, V ) un couple de variables aléatoires indépendantes uniformes sur [0, 1]. Déduire de la question précédente que le couple (X, Y ) =

p  p −2 ln(U ) cos(2πV ), −2 ln(U ) sin(2πV ) ,

est un vecteur Gaussien standard de R2 . Ex 4.

Soit X ∼ N (0, 1), on rappelle que la fonction caractéristique de X est donnée par ϕX (t) = exp(−t2 /2) , t ∈ R.

1. Calculer la fonction caractéristique d'un vecteur Gaussien standard X = (X1 , ..., Xk )> . 2. En déduire la fonction caractéristique d'un vecteur Gaussien quelconque Y ∼ N (m, Σ). On pourra = m + Σ1/2 X . utiliser que Y loi Ex 5.

Montrer qu'il existe un vecteur Gaussien X = (X1 , X2 , X3 )> qui vérie: ∀1 ≤ i < j ≤ 3 , E(Xi ) = 0 , E(Xi2 ) = 1 , E(Xi Xj ) = 1/2.

1. Quelle est la loi de X1 − X2 + 2X3 ? 2. Trouver a ∈ R tel que X1 + aX2 et X1 − X2 soient indépendantes. 3. X admet-il une densité? si oui laquelle? Soit X ∼ N (0, 1) et Y une v.a. indépendante de X telle que P(Y = 1) = P(Y = −1) = 1/2. On pose Z = XY .

Ex 6.

1. Quelle est la loi de Z ? 2. Quelle est la loi de X + Z ? En déduire que (X, Z)> n'est pas un vecteur Gaussien. 1

Ex 7.

Soit X ∼ N (0, 1) et a > 0. on pose Ya := X1{|X| < a} − X1{|X| ≥ a}

1. Montrer que Ya est une variable aléatoire Gaussienne. 2. Montrer qu'il existe b > 0 tel que

Rb 0

x2 e−x

2

/2

dx =



2π/4.

3. Calculer cov(X, Yb ). Le vecteur (X, Yb )> est-il un vecteur Gaussien? Ex 8.

Soit −1 < ρ < 1, on pose

 Σ=

1 ρ ρ 1

 .

1. Montrer qu'il existe un vecteur Gaussien X = (X1 , X2 )> centré et de matrice de variance Σ. 2. On pose Y1 = (X1 + X2 ) et Y2 = (X1 − X2 ). Donner la loi de Y = (Y1 , Y2 )> . 3. Les variables Y1 et Y2 sont-elles indépendantes? 4. Justier que Y admet une densité sur R2 et la calculer. Ex 9.

Soit X une variable aléatoire réelle de densité f et de fonction répartition F .

1. Montrer que 1{X ≤ x} = 1{F (X) ≤ F (x)}. ps

2. Déduire la loi de F (X) lorsque F est continue. 3. Soit X1 , ..., Xn un échantillon iid de même loi que X . Montrer que, si F est continue, la loi de n 1 X 1{Xi ≤ x} − F (x) Kn := sup x∈R n i=1

ne dépend pas de F . Ex 10.

Soit U une variable aléatoire de loi uniforme sur ]0, 1[.

1. Déterminer la loi de Y = − log(U ) et Z = tan π(U − π/2) . 

2. Montrer dans le cas général que, pour F une fonction de répartition, la variable aléatoire X := F − (U ) = inf{x ∈ R : F (x) ≥ U }

a pour fonction de répartition F . Ex 11.

Soit X1 , ..., Xn un échantillon de variables aléatoires réelles iid de fonction de répartition F .

1. Rappeler la dénition de la fonction de répartition empirique Fn . 2. Soit x ∈ R, quelle est la loi de Fn (x)? 3. Soient x, y deux réels, calculer la covariance cov(Fn (x), Fn (y)). 4. En utilisant le théorème central limite vectoriel, donner la loi asymptotique de √

Ex 12.

f.

 n

Fn (x) − F (x) Fn (y) − F (y)

 .

On observe n réalisations x1 , ..., xn d'un échantillon de variables aléatoires réelles iid de densité

1. Rappeler l'expression de l'estimateur à noyaux fn de f obtenu avec le noyau Gaussien  s2  1 , s ∈ R, K(s) = √ exp − 2 2π

et la fenêtre h > 0. 2

2. Calculer

R R

xfn (x)dx. Que représente cette intégrale.

3. Soit Y une variable aléatoire de loi uniforme sur {x1 , ..., xn } et  une variable aléatoire indépendante de Y de loi N (0, h2 ). Calculer la densité de Z := Y + . Commenter. 4. Proposer une méthode pour simuler une variable aléatoire dont la densité est l'histogramme mobile n

1 X gn (x) = 1{xi ∈]x − h, x + h]}. 2nh i=1 Ex 13.

Soit X une variable aléatoire de fonction de répartition F quelconque.

1. Rappeler la dénition d'un quantile d'ordre α ∈]0, 1[. 2. Montrer que F − (α) est bien un quantile d'ordre α. 3. Donner un exemple de fonction de répartition pour laquelle la médiane q0.5 n'est pas unique. 4. Donner un exemple pour lequel le premier quartile q0.25 vérie simultanément les inégalités strictes P(X ≤ q0.25 ) > 0.25 et P(X ≥ q0.25 ) > 0.75. Ex 14. Soit X1 , ..., Xn un échantillon de variables aléatoires réelles iid de fonction de répartition F et de densité f . On considère les variables ordonnées X(1) ≤ ... ≤ X(n) .

1. Calculer la fonction de répartition de X(n) , puis celle de X(1) . 2. Montrer que si f est à support compact [a, b], alors X(1) et X(n) convergent en probabilité vers a et b respectivement quand n → ∞. 3. Montrer que presque sûrement, X(1) < ... < X(n) . 4. Soient a1 , ..., an des réels diérents, montrer que pour  > 0 susamment petit  \ n {ai < X(i) ≤ ai + } = 0 P i=1

si les ai ne sont pas ordonnées dans l'ordre croissant. 5. Soit S l'ensemble des permutations de {1, ..., n}, montrer que si a1 < ... < an , alors pour  suisamment petit,   X \ \ n n {ai < Xσ(i) ≤ ai + } . {ai < X(i) ≤ ai + } = P P i=1

σ∈S

i=1

6. En déduire la densité fX(1) ,...,X(n) du n-uplet (X(1) , ..., X(n) ) par la formule fX(1) ,...,X(n) (a1 , ..., an ) = lim

→0+

 1 P X(1) ∈]a1 , a1 + ], ..., X(n) ∈]an , an + ] . n 

Soit U1 , ..., Un un échantillon de variables aléatoires iid de loi uniforme sur ]0, 1[. On s'intéresse au comportement asymptotique du quantile empirique d'ordre α ∈]0, 1[, U(dnαe) .

Ex 15.

1. Calculer la densité de la k-ième statistique d'ordre U(k) . 2. Soit X1 , ..., Xn+1 des variables aléatoires indépendantes de loi exponentielle de paramètre 1, montrer P que pour tout k = 1, ..., n + 1, Sk = ki=1 Xi suit une loi Gamma Γ(k, 1) de densité γk (x) =

xk−1 −x e , x > 0. (k − 1)!

3. Montrer que Sk /Sn+1 a même loi que U(k) . 3

4. Déterminer la limite en loi de Sdnαe − dnαe / dnαe.  p

5. En remarquant que

dnαe =α n→∞ n lim

 √  dnαe n − α = 0, n→∞ n

et

lim

montrer d'après la question précédente que

  √  Sdnαe √  Sn+1 − Sdnαe loi loi n − α −−−−→ N (0, α) et n − (1 − α) −−−−→ N (0, 1 − α). n→∞ n→∞ n n

6. En déduire que  √  Sn+1 − Sdnαe Sdnαe  loi n α − (1 − α) −−−−→ N 0, α(1 − α) , n→∞ n n

puis que Yn :=

  1 − α √  Sn+1 − Sdnαe loi − (1 − α) −−−−→ N 0, . n α n→∞ Sdnαe α √

7. En remarquant que U(dnαe) loi = α/(1 + Yn / n) (cf. question 3), montrer qu'il existe ξn compris entre √ 0 et Yn / n tel que U(dnαe) = α −

8. En conclure que Zn :=



Y α √n . (1 + ξn )2 n

 loi n U(dnαe) − α −−−−→ N (0, α(1 − α)). n→∞

9. Soit F une fonction de répartition. Justier que F − (U(dnαe) ) a même loi que la statistique d'ordre X(dnαe) d'un échantillon iid X1 , ..., Xn ayant pour fonction de répartition F . 10. On suppose maintenant que F admet un unique quantile d'ordre α, noté qα , et que F est strictement croissante et continuement diérentiable sur un voisinage de qα . Montrer que √

Ex 16.

 α(1 − α)   loi n X(dnαe) − qα −−−−→ N 0, 0 . n→∞ F (qα )2

Soient X et Y deux variables aléatoires non constantes de carré intégrable.

1. Rappeler la dénition de cov(X, Y ) et cor(X, Y ). 2. Montrer que pour tout α, β ∈ R, cov(αX + β, Y ) = α cov(X, Y ). 3. Calculer cor(αX + β, Y ) en fonction de cor(X, Y ) pour α 6= 0. On considère deux échantillons de n variables (X1 , . . . , Xn ) et (Y1 , . . . , Yn ). On note (R1 , . . . , Rn ) (resp. (S1 , . . . , Sn )) les rangs des variables Xi (resp. Yi ) dans chaque échantillon. On suppose que les Xi et les Yi sont tous diérents, de telle sorte que les rangs vont de 1 à n. On rappelle que le coecient de corrélation de Spearman γn entre les échantillons (X1 , . . . , Xn ) et (Y1 , . . . , Yn ) correspond à la corrélation linéaire entre leurs rangs.

Ex 17.

1. Donner la formule dénissant γn . 2. Montrer que la moyenne empirique de l'échantillon (R1 , . . . , Rn ) vaut (n + 1)/2 et que sa variance empirique vaut (n2 − 1)/12. 3. En déduire que

n

γn =

4. Soit Di = Ri − Si . Montrer que 12 5. En déduire que

X n+1 12 Ri Si − 3 . n(n2 − 1) i=1 n−1

Pn

i=1

Ri Si = n(n + 1)(2n + 1) − 6

Pn 6 i=1 Di2 γn = 1 − . n(n2 − 1)

4

Pn

i=1

Di2 .

Ex 18.

Soit (X, Y ) un couple de variables aléatoires de variances nies.

1. Rappeler la dénition de la meilleure approximation linéaire L(Y |X) = a∗ X + b∗ . 2. Montrer que E(aX + b) = E(Y ) et cov(Y − (aX + b), X) = 0 si et seulement si (a, b) = (a∗ , b∗ ). Ex 19. Soit (X1 , Y1 ), ..., (Xn , Yn ) des réalisations indépendantes d'un couple de variables aléatoires (X, Y ) non constantes et de variances nies.

1. Donner la dénition de la droite des moindres carrés y = an x + bn et rappeler les valeurs de an et bn . 2. Montrer que an et bn convergent presque sûrement en précisant leurs limites. Soit (Xi , Yi ), i = 1, ..., n (n ≥ 2) des réalisations indépendantes d'un vecteur aléatoire (X, Y ). On suppose que Y = a∗ X + b∗ +  où  est centré et indépendant de X et on note Ex 20.



Y1





  Y =  ...  ∈ Rn Yn

X1

1

Xn

1

. et W =   ..



..  n×2 . ∈R .

1. Ecrire sous forme matricielle la relation: ∀i = 1, ..., n, Yi = a∗ Xi + b∗ + i , en posant θ∗ = (a∗ , b∗ )> . 2. On suppose maintenant que X a pour densité fX . Montrer que W> W est presque sûrement inversible. 3. Donner une expression matricielle du minimiseur θˆ de θ 7→ kY − Wθk2 = (Y − Wθ)> (Y − Wθ), θ ∈ R2 .

4. Exprimer les valeurs θˆ1 et θˆ2 en fonction de X n , Y n , σˆ (X, Y ) etc... Ex 21.

On dénit la variance conditionnelle par

var(Y |X) = E(Y 2 |X) − E(Y |X)2 .   Montrer l'égalité var(Y ) = var E(Y |X) + E var(Y |X) . Ex 22.

Soit X et  deux variables aléatoires indépendantes de variances nies. On dénit Y = g(X) + 

où g est une fonction continue bornée. 1. On suppose que E() = 0, montrer que E(Y |X) = g(X). 2. Que vaut E(Y |X) si E() = m 6= 0? Ex 23.

Soit (X, Y ) un couple de variables aléatoires de densité jointe p  1  1 − ρ2 fXY (x, y) = exp − x2 + y 2 + 2ρxy , x, y ∈ R, 2π 2

avec ρ ∈] − 1, 1[. 1. Montrer que fXY est une densité (poser (u, v) = polaires).

p

 1 − ρ2 x, y + ρx , puis passer en coordonnées

2. Justier que E|X|k < ∞ pour tout k ∈ N. Calculer E(X) et var(X). 3. Donner une condition nécessaire et susante pour que X et Y soient indépendantes. 4. Calculer l'espérance conditionnelle φ∗ (x) = E(Y |X = x). Commenter. 5

Ex 24. Soit (X1 , Y1 ), ..., (Xn , Yn ) des réalisations indépendantes d'un couple de variables aléatoires (X, Y ) de densité jointe fXY continue et de densités marginales fX et fY . On suppose que fX (x) > 0 pour tout x ∈ R.  1. Soit  > 0, exprimer P |X − x| ≤  sous la forme d'une  intégrale, puis en fonction de FX , la fonction de répartition de X . Justier que P |X − x| ≤  > 0.  2. Proposer un estimateur de P |X − x| ≤  .  3. Proposer un estimateur de E Y 1{|X − x| ≤ } .

4. Soit A un événement de probabilité strictement positive. Rappeler la formule de E(Y |A). 5. En déduire un estimateur de E(Y | |X − x| ≤ ). Montrer qu'il correspond à un estimateur de Nadaraya-Watson particulier, en précisant les valeurs du noyau et de la fenêtre. 6. Calculer lim→0 E(Y | |X − x| ≤ ). Commenter. Pour calibrer un radar, on relève les erreurs de mesure sur 70 essais. La moyenne des erreurs vaut 0, 27 et l'écart-type 0.35.

Ex 25.

1. Proposer un moyen de tester au niveau α = 0.05 asymptotiquement si les erreurs de mesure sont centrées. 2. Comment est calculée la p-value du test? Ex 26.

On eectue 100 lancés de dé et on obtient les résultats suivant 1 2 15 23

3 4 5 16 20 14

6 12

1. Proposer un moyen de tester au niveau α = 0.05 si le dé est pipé. 2. Comment est calculée la p-value du test? Ex 27.

Soient X, Y deux variables aléatoires indépendantes de loi de Poisson de paramètre 1.

1. Calculer la loi de X sachant X + Y = n pour n ≥ 1. 2. Proposer une méthode pour tester expérimentalement ce résultat pour n = 4. Ex 28.

Soit X1 , ..., Xn un échantillon.

1. Rappeler la dénition de la statistique de Spearman Sn utilisée pour le test H0 : "les Xi sont indépendants" contre H1 : "les Xi sont stochastiquement croissants". 2. Donner une autre expression de la statistique en utilisant l'exercice 17. Commenter. Soit (X, Y ) un couple de variables aléatoires continues de densité fXY sur R2 et tel que X est stochastiquement supérieure à Y . Ex 29.

1. Exprimer les fonctions de répartition FX et FY en fonction de la densité jointe fXY . Quelle inégalité ces fonctions vérient-elles? 2. Montrer que si X et Y sont indépendantes alors P(Y ≤ X) ≥ 12 . 3. Montrer (sans supposer l'indépendance) que pour tout z ∈ R, P(Y ≤ z) ≤ P(Y − X ≤ 0) + P(X ≤ z).

En déduire que P(X ≥ Y ) ≥ kFY − FX k∞ .

6

Ex 30. Soit X1 , ..., Xn des variables aléatoires iid. Montrer que les suites suivantes sont stochastiquement croissantes:

1. Si =

Pi

j=1

Xj2 , i = 1, ..., n

2. Yi = Xi + log(i), i = 1, ..., n 3. Zi = iXi2 , i = 1, ..., n. Ex 31.

Soit X1 , ..., Xn des variables aléatoires iid de densité f . Le tau de Kendall est déni par τn =

n−1 n X X 4 1{Xi < Xj } − 1. n(n − 1) i=1 j=i+1

1. Montrer que les Xi sont presque sûrement tous diérents et rappeler la dénition des rangs Ri de l'échantillon dans ce cas. 2. Exprimer la statistique τn en fonction de R1 , ..., Rn . 3. Donner la loi du vecteur R = (R1 , ..., Rn ). En déduire que la loi de τn ne dépend pas de f .

7

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF