Travaux Dirigés de Statistique SY02
Short Description
Download Travaux Dirigés de Statistique SY02...
Description
Travaux Dirigés de Statistique SY02 G. Govaert et T. Denœux Printemps 2014
Table des matières 1 Enoncés 1.1 Statistiques descriptives . . . . . . . . . . . . . 1.2 Probabilités . . . . . . . . . . . . . . . . . . . . 1.3 Échantillonnage. Théorème de la limite centrale 1.4 Estimation, méthode des moments . . . . . . . 1.5 Méthode du maximum de vraisemblance . . . . 1.6 Estimation par intervalle de confiance . . . . . 1.7 Estimation optimale . . . . . . . . . . . . . . . 1.8 Principe des tests d’hypothèses (1) . . . . . . . 1.9 Principe des tests d’hypothèses (2) . . . . . . . 1.10 Tests de conformité . . . . . . . . . . . . . . . . 1.11 Tests de comparaison . . . . . . . . . . . . . . . 1.12 Tests d’adéquation . . . . . . . . . . . . . . . . 1.13 Analyse de la variance . . . . . . . . . . . . . . 1.14 Régression linéaire . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
2 2 4 6 8 10 11 13 15 16 18 19 20 21 22
2 Éléments de correction 2.1 Statistiques descriptives . . . . . . . . . . . . . 2.2 Probabilités . . . . . . . . . . . . . . . . . . . . 2.3 Échantillonnage. Théorème de la limite centrale 2.4 Estimation, méthode des moments . . . . . . . 2.5 Méthode du maximum de vraisemblance . . . . 2.6 Estimation par intervalle de confiance . . . . . 2.7 Estimation optimale . . . . . . . . . . . . . . . 2.8 Principe des tests d’hypothèses (1) . . . . . . . 2.9 Principe des tests d’hypothèses (2) . . . . . . . 2.10 Tests de conformité . . . . . . . . . . . . . . . . 2.11 Tests de comparaison . . . . . . . . . . . . . . . 2.12 Tests d’adéquation . . . . . . . . . . . . . . . . 2.13 Analyse de la variance . . . . . . . . . . . . . . 2.14 Régression Linéaire . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
23 23 23 24 24 25 26 26 27 27 28 28 29 29 29
3 Exemple de problèmes 30 3.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1
Chapitre 1
Enoncés 1.1
Statistiques descriptives
1. On a reporté dans le tableau suivant les prénoms d’un groupe d’étudiants avec une indication du nombre de livres lus dans l’année (A = peu, B = moyen, C = beaucoup, D = exceptionnel). Pierre C Paulette B Julie C
Paul C Fanny B Ernest C
Jacques A Laure C Cindy C
Gregory B Kevin D Vanessa D
Clara A Carole B José C
Chloé B Claire A Aurélien C
Henri C Jeanine C
(a) Indiquer la nature de la variable ainsi mesurée. (b) Résumer la distribution de cette variable sous forme d’un tableau de fréquences. (c) Représenter cette distribution à l’aide d’un diagramme en bâton. 2. Un atelier réalise le séchage de boues d’origine industrielle. Il obtient à la fin du processus des déchets. On a observé les poids suivants mesurés en kg de déchets après le traitement de 100 kg de boues : 4.7
4.3
4.5
4.9
4.2
4.7
4.0
4.2
5.0
3.9
4.6
4.6.
(a) Tracer le diagramme par tige et feuilles de cet échantillon. (b) Tracer la fonction de répartition empirique. (c) Calculer la moyenne empirique, la variance empirique corrigée, l’écarttype empirique corrigé, la médiane, les quartiles, l’étendue et l’étendue interquartiles. (d) Tracer le diagramme en boîte. (e) Supposons que la 9e valeur soit 50 et non 5.0 (à cause d’une erreur d’unité dans la saisie des données). Que deviennent alors les résumés numériques et le diagramme en boîte de la nouvelle distribution ?
2
CHAPITRE 1. ENONCÉS
3
3. Une enquête menée auprès de 1500 ménages d’une certaine région géographique rurale s’est intéressée à la variable correspondant à la taille du ménage, c’est-à-dire au nombre de personnes constituant le ménage. Les données recueillies ont permis de dessiner la fonction de répartition suivante.
Calculer la moyenne empirique et l’écart-type empirique de cet échantillon. 4. Une enquête menée auprès d’un échantillon de 40 habitants d’une certaine commune afin d’étudier leurs habitudes de lecture du journal trimestriel de la commune fournit le tableau suivant (la variable N correspond au nombre de personnes vivant dans le foyer, Fl les habitudes de lecture et S le sexe). Age 17 12 15 87 32 33 45 46 29 38 76 65 59 12 14 15 66 38 40 42
N 4 2 3 1 1 2 4 1 2 3 2 2 6 2 4 2 2 2 4 5
Fl régulièrement rarement rarement toujours jamais régulièrement jamais rarement régulièrement rarement toujours toujours régulièrement jamais régulièrement rarement rarement rarement régulièrement régulièrement
S F H F F F H H H H F H F F H H H F F F H
Age 10 40 54 25 53 27 57 59 13 53 67 16 55 49 58 21 95 28 65 89
N 3 5 5 3 4 3 4 2 5 3 3 5 4 6 2 2 2 3 2 1
Fl jamais régulièrement rarement régulièrement rarement rarement régulièrement régulièrement rarement régulièrement toujours rarement rarement régulièrement jamais jamais rarement régulièrement régulièrement toujours
S H F F H F F H F F H F H H F F H F H F H
(a) Indiquer la nature de chacune des variables du tableau. (b) Tracer les diagrammes en bâton des variables discrètes ou qualitatives et les histogrammes des variables continues.
CHAPITRE 1. ENONCÉS
1.2
4
Probabilités
1. On suppose que la v.a. X suit une loi de probabilité de densité : 1 − θ si x ∈] − 1/2, 0], 1 + θ si x ∈]0, +1/2], f (x; θ) = (1.2.1) 0 sinon, où θ est un paramètre réel inconnu tel que |θ| = 6 1. (a) Quelles conditions doit vérifier θ ? (b) Calculer l’espérance mathématique et la variance de X. (c) Calculer la fonction de répartition de X. La tracer pour θ = 0.5. (d) Donner l’expression de p = P(X ≤ 0) en fonction de θ. (e) On considère n variables aléatoires indépendantes X1 , . . . , Xn qui suivent toutes la distribution de X. Soit Y la v.a. définie comme le nombre de valeurs Xi négatives : Y =
n X
1]−∞,0] (Xi ).
i=1
i. Quelle est la loi de probabilité de Y ? ii. Calculer l’espérance et la variance de Y . 2. Soit X une v.a. discrète à valeurs dans VX = {0, 1, 2}, dont la loi de probabilité est définie en fonction d’un paramètre θ ∈ [0, 1] de la façon suivante : P (X = 0)
=
1/2
P (X = 1)
= θ/2
P (X = 2)
=
(1 − θ)/2.
(a) Calculer en fonction de θ l’espérance et la variance de X. (b) On considère n variables aléatoires indépendantes X1 , . . . , Xn qui suivent toutes la distribution de X. On note Nk = card{i ∈ {1, . . . , n}|Xi = k}. Donner la loi de N0 , N1 et N2 . (c) Calculer l’espérance et la variance de N1 et N2 . 3. Une coopérative laitière est approvisionnée en lait tous les jours par les fermiers avoisinant. Le lait stocké dans une grande citerne est vendu par la coopérative aux consommateurs de la région. Le volume journalier collecté en milliers de litres est représenté par une variable aléatoire V continue de fonction de densité : 2(1 − v) si 0 ≤ v ≤ 1 f (v) = 0 sinon. (a) Montrer que la fonction f est bien une fonction de densité.
CHAPITRE 1. ENONCÉS
5
(b) Calculer l’espérance mathématique de V . (c) Soit F (v) la fonction de répartition associée à la variable aléatoire V . Que signifie F (0.5) (d) Déterminez l’expression mathématique de cette fonction de répartition F (v). (e) Quelle doit être la contenance de la citerne laitière afin que la coopérative ait 99 chances sur 100 de satisfaire la demande journalière ? 4. On considère n variables aléatoires X1 , . . . , Xn indépendantes de même distribution caractérisée par une fonction de densité f et une fonction de répartition F . (a) Déterminer la fonctions de répartition G de la variable aléatoire Y = X(n) en fonction de la fonction de répartition F . (b) En déduire la fonction de densité g de la variable aléatoire Y en fonction de la fonction de densité f . (c) On suppose maintenant que la distribution de X est la loi uniforme U[0,θ] . Calculer l’espérance et la variance de la variable aléatoire Y . 5. On a constaté que la répartition du taux de cholestérol dans une population de grande taille est la suivante : – taux inférieur à 165 cg : 58 % ; – taux compris entre 165 et 180 cg : 38 % ; – taux supérieur à 180 cg : 4 %. (a) Sachant que le taux de cholestérol est distribué selon une loi normale, calculer la valeur moyenne et l’écart-type du taux de cholestérol dans la population. (b) On admet que les personnes dont le taux est supérieur à 183 cg doivent subir un traitement. Quel est le nombre de personnes à soigner dans une population d’un million de personnes ?
CHAPITRE 1. ENONCÉS
1.3
6
Échantillonnage. Théorème de la limite centrale
1. On lance un dé équilibré 100 fois, de façons indépendante. Quelle est la probabilité que la somme totale des points obtenus soit comprise entre 300 et 400 ? 2. On suppose que le nombre de clients entrant dans un magasin un jour donné est une variable de Poisson de paramètre λ = 12. Quelle est la probabilité de ne pas tomber en dessous de 250 entrées de clients durant un mois de 22 jours ouvrables ? On fera les hypothèses d’indépendance qui s’imposent. 3. A Lille, des enregistrements climatiques indiquent qu’en moyenne 17 des 31 jours du mois d’octobre sont pluvieux. On considère les épisodes de pluie journaliers comme des épreuves indépendantes. On note N le nombre de jours pluvieux au cours du mois d’octobre. (a) Quelle est la loi de N ? (b) En utilisant l’approximation normale, quelle est la probabilité d’avoir entre 15 et 20 jours pluvieux au mois d’octobre ? 4. On considère n variable aléatoires X1 , . . . , Xn indépendantes de même distribution P(λ) avec λ = 1. Pn (a) Quelle est la distribution de la variable aléatoire Yn = i=1 Xi . (b) Déterminer la quantité P (Yn ≤ n) pour n = 20 en utilisant les tables statistiques. En utilisant un ordinateur, on peut retrouver que pour n = 50, 100 et 200, on obtient respectivement les valeurs 0.5375, 0.5266 et 0.5188. (c) Déterminer ces mêmes quantités de manière approximative en vous appuyant sur le théorème de la limite centrale. (d) Enfin, déterminer toujours de manière approximative ces mêmes quantités mais en introduisant le terme de correction (voir les tables statistiques, p.10). (e) Que peut-on en conclure ? 5. 120 personnes se font rembourser par une compagnie d’assurance. La somme versée à chacun est en moyenne 50 euros, avec un écart-type de 30 euros. On suppose que ces sommes sont des v.a. indépendantes de même distribution. Déterminer la probabilité pour que 6500 euros suffisent à effectuer tous les remboursements. 6. Un local doit être éclairé en permanence au moyen d’une ampoule ; lorsque l’ampoule tombe en panne, elle est immédiatement remplacée par une nouvelle ampoule. Il y a deux qualités d’ampoules : les ampoules de qualité A ont une durée de vie (en heures) qui est distribuée exponentiellement avec le paramètre θ = 0.01, les ampoules de qualité B ont une durée de vie (en heures) qui est distribuée exponentiellement avec le paramètre θ = 0.02. On a stocké 40 ampoules de qualités A et 60 ampoules de qualité B. Quelle est la probabilité pour que cette réserve d’ampoules soit suffisante pour un éclairage de 6500 heures du local ?
CHAPITRE 1. ENONCÉS
7
7. On arrondit 50 nombres à l’entier le plus proche et on effectue leur somme. Si les erreurs d’arrondi individuelles sont distribuées uniformément sur l’intervalle [−0.5, 0.5], quelle est la probabilité pour que la somme obtenue ait un écart de plus de 3 par rapport à la somme exacte ? 8. Soit X1 , X2 , . . . une suite de v.a. indépendantes et identiquement distribuées suivant chacune une loi continue uniforme sur [0, 1]. On considère la moyenne géométrique Gn = (X1 X2 . . . Xn )1/n . P
Montrer que Gn → c pour une constante c que l’on précisera. [On utilisera le résultat suivant : si pour une suite (Zn ) de v.a. et une constante a on a P P Zn → a, alors pour toute fonction continue ϕ on a ϕ(Zn ) → ϕ(a)].
CHAPITRE 1. ENONCÉS
1.4
8
Estimation, méthode des moments
1. (a) Montrer que pour toute variable aléatoire Y de variance non nulle, on a 2 (E(Y )) < E(Y 2 ). (b) On considère un échantillon iid X1 , . . . , Xn de variable aléatoire parente X où Var(X) > 0. Déduire de l’inégalité précédente que la statistique S ∗ est un estimateur biaisé de l’écart-type de X. 2. On dispose d’un échantillon X1 , . . . , Xn de n variables aléatoires indépendantes issues d’une loi continue uniforme définie sur l’intervalle [0, θ] et on se propose d’estimer le paramètre θ. (a) Déterminer l’estimateur θb1 de θ obtenu par la méthode des moments en utilisant le moment non centré d’ordre 1. (b) Montrer que θb1 est un estimateur sans biais et convergent de θ. (c) En utilisant les résultats de l’exercice 4 de la série 2, calculer l’espérance et la variance de l’estimateur θb2 = X(n) et montrer que c’est un estimateur asymptotiquement sans biais et convergent (d) En déduire un estimateur θb3 sans biais et convergent. 3. On considère un échantillon X1 , . . . , Xn iid dont la variable aléatoire parente X suit une loi dépendant de deux paramètres p1 6= 0 et p2 6= 0 de la manière suivante : P (X = 0) = 1 − p1 − p2 , P (X = 1) = p1 , P (X = 2) = p2 . (a) Calculer E(X), E(X 2 ) et Var(X). P P (b) En utilisant les statistiques X = n1 i Xi et m b 2 = n1 i Xi2 , déterminer les estimateurs pb1 et pb2 de p1 et p2 par la méthode des moments. (c) Montrer que ces estimateurs sont sans biais et convergents en probabilité. 4. Soit (X1 , . . . , Xn ) un échantillon iid de taille n dont la loi parente est la loi de Bernoulli de paramètre p. On considère l’estimateur T = X(1 − X) pour le paramètre θ = p(1 − p). (a) Montrer que T est un estimateur biaisé de θ. (b) Proposer un estimateur sans biais de θ. 5. Soit X1 , . . . , Xn un échantillon i.i.d. dont la v.a. parente X est une v.a. continue de loi de probabilité θ si x ≥ 1 xθ+1 f (x) = 0 sinon, où θ est un P paramètre réel strictement supérieur à 1. On notera T la statistique n1 ln(Xi ). (a) Calculer l’espérance de X et en déduire un estimateur θˆ1 de θ en utilisant la méthode des moments. (b) Déterminer la fonction de répartition F de X. En déduire la fonction de répartition G de Y = ln(X) et montrer que Y suit une loi exponentielle. En déduire par la méthode des moments un second estimateur θˆ2 .
CHAPITRE 1. ENONCÉS
9
6. Soit X une v.a. suivant une loi continue uniforme sur l’intervalle [−θ, θ], θ ∈ R∗+ étant un paramètre inconnu, et X1 , . . . , Xn un échantillon i.i.d. de variable parente X. (a) Déterminer un estimateur θb1 de θ par la méthode des moments. (b) On considère maintenant la variable aléatoire Y = |X| et l’échantillon associé (Y1 , . . . , Yn ) où Yi = |Xi |. Montrer que E(Y ) = θ/2 et Var(Y ) = θ2 /12. (c) Déterminer un estimateur θb2 de θ par la méthode des moments à partir de E(Y ). 7. Soit X1 , . . . , Xn un échantillon i.i.d. babilité : 1−θ 1+θ f (x; θ) = 0
de v.a. parente X de densité de prosi x ∈] − 1/2, 0], si x ∈]0, +1/2], sinon,
(1.4.2)
où θ est un paramètre réel inconnu tel que |θ| = 6 1. (a) Quelles conditions doit vérifier θ ? (b) Calculer l’espérance mathématique et la variance de X. (c) Trouver un estimateur θbm de θ par la méthode des moments (on utilisera les moments théorique et empirique d’ordre 1). (d) Calculer l’espérance et la variance de θbm . Cet estimateur est-il sans biais ? Est-il convergent ?
CHAPITRE 1. ENONCÉS
1.5
10
Méthode du maximum de vraisemblance
1. Soit X1 , . . . , Xn un échantillon iid issu d’une population de densité θ+1 θ si −1 < x < 1 2 (1 − |x|) f (x) = 0 sinon, où θ > −1. (a) Déterminer θbM V l’estimateur du maximum de vraisemblance de θ ; (b) Déterminer l’information de Fisher apportée sur le paramètre θ par l’échantillon ; (c) En déduire la loi asymptotique de θbM V . 2. Soit X une v.a. discrète à valeurs dans VX = {0, 1, 2}, dont la loi de probabilité est définie en fonction d’un paramètre θ ∈]0, 1[ de la façon suivante : P (X = 0)
=
P (X = 1)
= θ/2
1/2
P (X = 2)
=
(1 − θ)/2.
(a) Calculer en fonction de θ l’espérance et la variance de X. (b) Soit X1 , . . . , Xn un échantillon i.i.d. de v.a. parente X. On note Nk le nombre d’observations de l’échantillon égales à k (k = 0, 1, 2), c’està-dire le cardinal de {i ∈ {1, . . . , n}|Xi = k}. Donner la loi de N0 , N1 et N2 . (c) Calculer l’espérance et la variance de N1 et N2 . (d) Calculer l’expression de la fonction de log-vraisemblance, en fonction de n0 , n1 et n2 . (e) Calculer l’estimateur du maximum de vraisemblance θb de θ. (f) Calculer l’information de Fisher associée au paramètre θ. (g) En déduire la loi approchée de cet estimateur quand n est grand. 3. Soit (X1 , . . . , Xn ) un échantillon extrait de la loi uniforme sur [θ, θ + 1] avec θ > 0. On pose Sn
=
In
=
max Xi
1≤i≤n
min Xi .
1≤i≤n
(a) Montrer que tous les estimateurs de la forme θbn (α) = α(Sn − 1) + (1 − α)In avec α ∈ [0, 1] sont des estimateurs du maximum de vraisemblance de θ. (b) Calculer la fonction de répartition, puis la fonction de densité des v. a. Sn et In . (c) Calculer les espérances de Sn et In . (d) Quelle est l’unique valeur α∗ telle que θbn = θbn (α∗ ) soit un estimateur sans biais de θ ?
CHAPITRE 1. ENONCÉS
1.6
11
Estimation par intervalle de confiance
1. Dans une usine de production mécanique, une machine produit en série des tiges métalliques dont la longueur X, par suite de l’imperfection du procédé, peut être considérée comme une v.a. suivant une loi normale d’espérance µ et de variance σ 2 . Un client reçoit un lot de 10000 tiges. Il se propose d’estimer la valeur de µ à partir d’un échantillon de n tiges prélevées aléatoirement dans ce lot. On note X1 , . . . , Xn les longueurs correspondantes. (a) Donner sans démonstration l’expression d’estimateurs sans biais de µ et de σ 2 . (b) En supposant connue la valeur de σ 2 , donner l’expression d’un intervalle de confiance bilatéral au niveau 1 − α pour µ. (c) Même question que précédemment en supposant σ 2 inconnu. (d) Donner un intervalle de confiance unilatéral pour σ 2 de la forme [T, ∞[ , au niveau 1 − α. (e) A. N. : On a obtenu pour un échantillon de n = 10 pièces les résultats P10 P10 suivants : i=1 xi = 229, 9 et i=1 x2i = 5285, 6. En déduire une estimation de µ et de σ 2 , puis calculer numériquement les intervalles des questions c et d, avec 1 − α = 0, 95. (f) En supposant que σ = 0, 1, quelle valeur faudrait-il donner à n pour que la longueur de l’intervalle de confiance bilatéral sur µ au niveau 0,95 n’excède pas 0,05 ? 2. Soit X le nombre d’appels reçus en une journée par un standard téléphonique, et X1 , . . . , Xn un échantillon i.i.d. de X. On s’intéresse à l’estimation du paramètre θx = P (X > x) pour une certaine valeur x ∈ R. (a) Soit Yi la v.a. définie par Yi =
1 0
si Xi > x sinon.
Quelle est la loi de Yi ? Donner son espérance et sa variance. Pn (b) Soit N = i=1 Yi . Quelle est la loi de N ? Donner son espérance et sa variance. (c) Soit Y = N/n. Montrer que Y est un estimateur sans biais et convergent de θx . (d) En utilisant l’estimateur précédent, donner l’expression littérale d’un intervalle de confiance bilatéral sur θx , de niveau approximativement égal à 1 − α (on supposera n grand). (e) Sur une période de 100 jours, on a reçu 90 fois un nombre d’appels strictement supérieur à 1. En déduire une estimation ponctuelle, puis un intervalle de confiance bilatéral à 95 % sur θ1 . 3. Soit X la teneur en sels minéraux d’un prélèvement d’eau ; on note µ l’espérance de X, et σ 2 sa variance. Ayant effectué n prélèvements d’eau, on cherche à estimer la teneur moyenne µ en sels minéraux. (a) Proposer un estimateur de la teneur moyenne en sels minéraux. Cet estimateur est-il sans biais ? Convergent ? Justifier.
CHAPITRE 1. ENONCÉS
12
(b) Proposer une fonction asymptotiquement pivotale pour µ, en supposant σ 2 connu. En déduire l’expression d’un intervalle de confiance bilatéral sur µ au niveau 1 − α (on effectuera la démonstration). (c) Application numérique : calculer la réalisation de l’intervalle de confiance au niveau 1 − α = 0.95 sachant que la mesure de la teneur en sels minéraux de 10 échantillons d’eau de source a donné les résultats suivants : 490, 482, 503, 502, 497, 549, 517, 493, 513, 486. On supposera ici que σ 2 = 400. (d) Proposer une fonction asymptotiquement pivotale pour µ, en supposant σ 2 inconnu. En déduire l’expression d’un intervalle de confiance bilatéral sur µ au niveau α. (e) Application numérique : calculer la réalisation de l’intervalle de confiance au niveau 1 − α = 0.95 en utilisant les données de la question 3.
CHAPITRE 1. ENONCÉS
1.7
13
Estimation optimale
1. La durée de vie d’une particule est modélisée par une variable aléatoire X, qui suit une loi géométrique de paramètre p définie par : x−1
P(X = x) = (1 − p)
p,
x ∈ N∗ .
Ayant observé les durées de vie de n particules, on dispose d’un échantillon i.i.d. X1 , . . . , Xn de variable parente X. (a) Existe-t-il un estimateur efficace de p ou d’une fonction de p ? (b) Calculer son espérance et sa variance. (c) En déduire l’espérance et la variance de la variable aléatoire X. (d) Calculer l’information de Fisher apportée par l’échantillon sur le paramètre p. 2. Soit X la variable aléatoire mesurant le nombre d’essais nécessaires à r réalisations d’un même événement de probabilité p. La loi de X (loi de Pascal) est donnée par : r−1 r P (X = x) = Cx−1 p (1 − p)x−r
x = r, r + 1, ..., ∞.
Soit X1 , X2 , ..., Xn un échantillon de n variables indépendantes issues de cette loi. Dans tout cet exercice, le paramètre r est supposé connu. (a) Déterminer l’estimateur maximum de vraisemblance pˆM V de p. r (b) Montrer qu’il existe un estimateur efficace de . Donner son espép rance et sa variance. En déduire l’espérance et la variance de la variable X. (c) On suppose maintenant que la taille de l’échantillon est grande. Montrer que la borne de Cramer-Rao pour les estimateurs sans biais du 2 paramètre p est égale à p (1−p) . En déduire la distribution asymptorn tique de pˆM V . (d) A l’aide de pˆM V , proposez un intervalle de confiance bilatéral symétrique approché pour p au niveau 1 − α. On pourra approximer √ √ 1 − p par 1 − pˆM V . 3. Soit X une v.a. normale de paramètres µ et σ 2 inconnus et X1 , . . . , Xn un échantillon i.i.d. de variable parente X. On se propose tout d’abord d’étudier la famille des estimateurs de σ 2 de la forme : σ ba2 = a
n X
(Xi − X)2
, a ∈ R.
i=1
(a) Pour quelle valeur de a l’estimateur σ ba2 est-il l’estimateur du maxi2 mum de vraisemblance de σ ? (b) Calculer E(b σa2 ) et en déduire la valeur de a pour laquelle σ ba2 est sans biais. (c) Quelle est la loi de la statistique σ ba2 /(aσ 2 ) ? (d) En déduire l’expression de la variance de σ ba2 .
CHAPITRE 1. ENONCÉS
14
(e) Calculer en fonction de a le risque quadratique de σ ba2 défini par : EQM(b σa2 , σ 2 ) = E[(b σa2 − σ 2 )2 ]. (f) En déduire la valeur de a pour laquelle l’estimateur σ ba2 est le plus précis. 4. Soit X une v.a. suivant la loi de Poisson et X1 , . . . , Xn un échantillon i.i.d. de variable parente X. (a) Calculer la borne de Cramer-Rao pour les estimateurs sans biais de λ et trouver un estimateur efficace de λ. (b) On se donne la fonction Ψ suivante : 1 si x = 0 ou x = 1 Ψ(x) = 0 sinon. Pn i. Calculer E (Ψ(X)). En déduire que Ψ(X) = n1 i=1 ψ(Xi ) est un estimateur sans biais de g(λ), pour une fonction g que l’on précisera. ii. Calculer Var Ψ(X) . (c) Quelle est la borne de Cramer-Rao pour les estimateurs sans biais de g(λ) ? (d) Soit T un estimateur efficace de g(λ). i. Quelle condition (faisant intervenir la dérivée de la log-vraisemblance par rapport à λ) T doit-il nécessairement vérifier ? ii. En utilisant l’expression précédente, montrer que T doit être de la forme T = f (n, λ)X + h(n, λ), où f et h sont des fonctions de n et de λ que l’on précisera. iii. Peut-on éliminer λ dans l’expression précédente ? Que peut-on en déduire concernant l’existence d’un estimateur efficace de g(λ) ?
CHAPITRE 1. ENONCÉS
1.8
15
Principe des tests d’hypothèses (1)
1. Une v.a. aléatoire X suit une loi N (µ, σ 2 ) d’écart-type connu σ = 2. Au vu d’un échantillon i.i.d. X1 , . . . , Xn de v.a. parente X, on veut tester l’hypothèse H0 : µ = 2 contre l’hypothèse alternative H1 : µ = 3. (a) Soit L(µ; x1 , . . . , xn ) la fonction de vraisemblance. Donner l’expresL(3;x1 ,...,xn ) L1 = L(2;x sion du rapport L . 0 1 ,...,xn ) (b) En déduire la région critique du test de Neyman-Pearson, en fonction du niveau de signification α∗ . (c) Calculer la puissance de ce test dans le cas où n = 100 et α∗ = 0.05. (d) Quelle doit être la taille minimale n0 de l’échantillon pour que la puissance soit supérieure à 0.95, en supposant toujours α∗ = 0.05 ? (e) On a observé x = 2.5 avec n = 36. Quel est le degré de signification du test ? (On rappelle que le degré de signification est le plus petit niveau α∗ pour lequel l’hypothèse H0 est rejetée.) 2. On dispose d’un échantillon de taille n=10 de v.a. parente X normale de moyenne 0 et deP variance σ 2 inconnue. On notera dans tout ce problème n T la statistique i=1 Xi2 . On veut effectuer le test suivant : H0 : σ 2
= σ02
(= 1)
2
σ12
(= 2).
H1 : σ
=
(a) Déterminer la région critique optimale pour α∗ = 0.05. (b) Calculer la puissance du test. (c) On veut maintenant effectuer le test suivant : H0 : σ 2 H1 : σ
2
= σ02 >
(= 1)
σ02 .
i. Déterminer la région critique du test UPP pour α∗ = 0.05. ii. Calculer la puissance du test pour les valeurs σ 2 = 1, 2, 3, 4, 5 (approximativement) et tracer la courbe de puissance. 3. Soit X une variable aléatoire discrète obéissant à la loi géométrique : P (X = x) = p(1 − p)x−1 pour x = 1, 2, . . . , ∞ et p ∈]0, 1[. On considère un échantillon iid X1 , . . . , Xn de variable aléatoire parente X. (a) Montrer que X est un estimateur efficace de p ou d’une fonction de p. (b) En utilisant les propriétés de X, donner une fonction asymptotiquement pivotale pour p. (c) On considère le problème de test H0 : p = p0 H1 : p = p1 avec p1 > p0 . Montrer que la région critique W du test optimal au niveau α∗ s’exprime en fonction de X. Donner une approximation de W en supposant n grand.
CHAPITRE 1. ENONCÉS
1.9
16
Principe des tests d’hypothèses (2)
1. Soit X1 , . . . , Xn un échantillon i.i.d. de variable parente X, de densité x x f (x) = 2 exp − 1[0,+∞[ (x), θ θ θ étant un paramètre positif. b (a) Montrer qu’il existe un estimateur efficace de θ. On le notera θ. (b) En déduire les espérances et les variances de θb et de X. (c) Déterminer une fonction asymptotiquement pivotale pour θ que l’on b exprimera en fonction de θ. (d) On considère le problème de test H0 : θ = θ0 contre H1 : θ = θ1 avec θ1 > θ0 . Montrer que la région critique W du test le plus b puissant pour ce problème au niveau α∗ s’exprime en fonction de θ, puis donner une approximation de W en supposant n grand. (e) On considère maintenant le problème de test suivant H0 : θ = θ0 contre H1 : θ 6= θ0 . Existe-t-il un test UPP pour ce problème ? (f) Calculer la statistique du rapport de vraisemblance λ, exprimée en b pour le problème de test de la question (1e). fonction de θ, (g) En utilisant la statistique −2 ln λ et en supposant que n est grand, proposer une région critique pour le testPde la question (1e). Quelle décision prendra-t-on si θ0 = 2, n = 50, i xi = 115 et α∗ = 0.05. 2. Ayant lancé 1000 fois une pièce de monnaie, on a obtenu 450 fois « face ». L’objet de cet exercice est de tester l’hypothèse selon laquelle la pièce est équilibrée. (a) Soit X le nombre de « faces » obtenu au cours de n lancers. On a observé une seule réalisation de X. Calculer l’estimateur du maximum de vraisemblance de p. (b) On considère le problème de test suivant : H0 : p = p0 contre H1 : p 6= p0 . Calculer l’expression littérale de la statistique λ du test du rapport de vraisemblance, en fonction de X, p0 et n. (c) En utilisant l’approximation asymptotique −2 ln λ ∼ χ21 , donner une expression littérale de la région critique du test du rapport de vraisemblance, au niveau α∗ . (d) Donner le résultat du test du rapport de vraisemblance avec les données de l’exercice, p0 = 1/2, et α∗ = 5%. 3. Une entreprise alimentaire cherche à vérifier si les sacs de sucre qu’elle utilise dans sa production ont un poids au moins égal à la valeur annoncée. L’entreprise reçoit un lot de sacs et en pèse n. L’échantillon alors obtenu est considéré comme un échantillon i.i.d. dont la variable aléatoire parente X suit une loi normale d’espérance µ et de variance connue σ 2 . (a) Première solution i. Quelle est la région critique du test ? H0 : µ = µ0 H1 : µ < µ 0
CHAPITRE 1. ENONCÉS
17
ii. A. N. : sachant que (x1 , . . . , xn ) =(49.56, 48.33, 50.13, 50.29, P10 48.85, 51.19, 50.19, 49.96, 50.33, 50.17) ( i=1 xi = 499), σ 2 = 1, µ0 = 50 et α∗ = 0.05, quelle décision prendra-t-on ? iii. Quelle est la puissance du test pour la valeur µ = 49 ; on déterminera cette puissance par le calcul et à l’aide des abaques. (b) Deuxième solution : on désire prendre une décision en s’appuyant uniquement sur le nombre K de sacs de l’échantillon dont le poids est inférieur ou égal à µ0 − 1. i. Montrer que K est une variable aléatoire binomiale B(n, p) où p dépend de µ0 , µ et σ. ii. Que deviennent les hypothèses H0 et H1 de la question précédente ? iii. En utilisant les mêmes données que dans la première partie, déterminer la région critique de ce test. (on n’utilisera aucune approximation). Quelle décision prendra-t-on ? iv. Calculer la puissance du test pour la valeur µ = 49.
CHAPITRE 1. ENONCÉS
1.10
18
Tests de conformité
1. Chez un fabriquant de joints en caoutchouc, le département d’ingénierie de la qualité a mis en œuvre un plan d’échantillonnage pour vérifier le poids d’un joint d’étanchéité, poids qui est affecté par les variations d’écoulement du caoutchouc provenant de l’extrudeuse. La valeur cible du poids du joint est de 270 g. On considère que le poids X est distribué normalement avec une espérance µ et un écart-type σ = 4, 5 g. Pour maîtriser le procédé, on prélève régulièrement n = 5 pièces de caoutchouc de l’extrudeuse. Chaque pièce est pesée et le poids moyen est calculé. (a) Donner sans démonstration l’expression de la région critique W du test de l’hypothèse H0 : µ = 270 g contre H1 : µ 6= 270 g au niveau de signification de 5 %. (b) Lors d’un récent contrôle, on a obtenu, pour un échantillon de cinq pièces, un poids moyen de 265,5 g. Doit-on poursuivre ou arrêter la production ? (c) Avec ce plan de contrôle, quel est la probabilité β d’accepter l’hypothèse selon laquelle l’extrudeuse opère à 270 g alors qu’en réalité le procédé est centré à 264 g ? 2. Un industriel affirme que sa production a moins de 10% de défectueux. Après un contrôle de 50 pièces prises au hasard, X n’ont pas fonctionné. On notera p la proportion de défectueux. (a) On considère le problème de test suivant : H0 : p = p0 H1 : p > p0 avec p0 = 0.1. Montrer qu’il existe un test UPP et donner la forme de la région critique. (b) En utilisant l’approximation normale de la loi binomiale, calculer le seuil critique au niveau α∗ = 0.05. (c) Quelle décision prend-on si il y a 9 pièces défectueuses ? (d) Calculer le degré de signification α b associé.
CHAPITRE 1. ENONCÉS
1.11
19
Tests de comparaison
1. On cherche à comparer la durée de vie de deux types de pneu A et B. On dispose pour cela d’un échantillon de 41 durées de vie en milliers de km pour le type A et de 21 durées de vie pour le type B. Les résultats sont résumés dans le tableau suivant : P P 2 n xi xi A 41 1840 82996 B 21 828 32752 On admettra que les 2 populations suivent les distributions normales 2 2 N (µA , σA ) et N (µB , σB ) et dans tout cet exercice, on prendra comme niveau de signification des différents tests la valeur α∗ = 0.05. 2 2 (a) Donner les estimations sans biais de µA , µB , σA et σB .
(b) Montrer que l’on peut admettre l’hypothèse d’égalité des variances des 2 populations. (c) En déduire une estimation sans biais de la variance commune σ 2 . (d) Tester l’égalité des moyennes µA et µB . (e) Calculer la puissance du test pour |µA − µB | = 3. 2. Une année, le taux national de réussite au baccalauréat dans une série donnée a été de 67 %. (a) Dans un centre d’examens A, il y a eu 216 reçus sur 300 candidats présentés. Les résultats de ce centre sont-ils conformes aux résultats nationaux ? (b) Dans un autre centre d’examen B, il y a eu 128 reçus sur 200 candidats. Les résultats des centres A et B sont-ils significativement différents ? (Les tests seront realisés au niveau de signification α∗ = 5%).
CHAPITRE 1. ENONCÉS
1.12
20
Tests d’adéquation
1. L’examen de 320 familles suivants : Nb de garçons Nb de filles Nb de familles
ayant 5 enfants s’est traduit par les résultats 5 0 18
4 1 56
3 2 110
2 3 88
1 4 40
0 5 8
Total 320
(a) Sous l’hypothèse que la naissance d’un garçon et la naissance d’une fille sont des événements équiprobables, calculer les probabilités de chacun des 6 types de familles. (b) Peut-on admettre, au niveau de signification de 5% que les données obtenues sont compatibles avec cette hypothèse d’équiprobabilité ? (c) Calculer le degré de signification. 2. Le tableau ci-dessous donne la répartition de la taille (en cm) de 2220 salariés français (hors salariés agricoles) et appartenant aux deux catégories socio-professionnelles (CSP) ouvriers et cadres supérieurs (source INSEE 1970). taille \ CSP < 170 [170, 175[ ≥ 175 total
ouvriers 813 636 451 1900
cadres sup. 73 123 124 320
total 886 759 575 2220
Peut-on considérer, au niveau de signification de 5 %, que les deux facteurs taille et CSP sont indépendants dans la population totale de référence ? 3. On considère la réalisation suivante d’un échantillon iid de v.a. parente X : 9.1 7.4 17.2 10.7 15.5 Peut-on admettre au niveau α∗ = 0.05 que X suit une loi normale d’espérance 10 et de variance 4 ?
CHAPITRE 1. ENONCÉS
1.13
21
Analyse de la variance
1. Quinze veaux ont été répartis au hasard en trois lots, alimentés chacun de façon différente. Les gains de poids observés au cours d’une même période et exprimés en kg étant les suivants : lot 1 :
41.2
41.0
40.0
40.1
40.6
lot 2 :
39.8
39.9
42.5
41.1
39.8
lot 3 :
46.0
44.9
44.7
45.7
47.0
le but de l’étude est de mettre en évidence une relation entre l’alimentation et la croissance des veaux. Les moyennes et les variance de ces 3 distributions sont x ¯1 = 40.58, x ¯2 = 40.62, x ¯3 = 45.66, s∗1 2 = 0.282, s∗2 2 = 1.407 ∗2 et s3 = 0.853. (a) Tester la normalité des données correspondant au premier lot au niveau α∗ = 0.05. On supposera pour la suite que l’hypothèse de normalité peut être acceptée pour les deux autres lots. (b) Peut-on considérer que les variances des trois échantillons sont égales, au niveau de signification α∗ = 0.05 ? (c) Montrer que le type d’alimentation a un effet significatif sur la croissance des veaux. On prendra α∗ = 0.05. (d) Préciser pour quels types d’alimentation il existe des différences significatives. 2. Les données suivantes représentent le nombre de problèmes arithmétiques simples (sur 85) résolus (de manière correcte ou non) en une heure par des sujets ayant reçu un médicament dépresseur, un stimulant et un placebo : – dépresseur : 55, 0, 1 , 40 – stimulant : 75, 85, 51, 63 – placebo : 61, 54, 80, 47 Au vu des ces résultats, peut-on admettre que ces trois médicaments induisent des taux de performance différents ? (faire une test de KruskalWallis avec α∗ = 0.10).
CHAPITRE 1. ENONCÉS
1.14
22
Régression linéaire
1. On a relevé dans le tableau suivant les moyennes x au baccalauréat de 10 élèves, et leurs scores Y à un test de QI : x Y
8.8 108
9.6 112
11.2 115
10.4 118
12.8 121
15.2 125
12.0 122
16.0 130
8.0 96
9.2 113
On suppose que les Yi sont des v.a. indépendantes avec Yi ∼ N (a+bxi , σ 2 ), les xi étant des nombres fixés. (a) Déterminer les estimateurs du maximum de vraisemblance des paramètres a, b et σ 2 . (b) Construire un intervalle de confiance bilatéral sur a, puis une borne inférieure, au niveau de confiance 95 %. (c) Tester l’hypothèse H0 : b = 0 contre H1 : b > 0 au niveau de signification 0, 01. (d) Construire un intervalle de confiance bilatéral sur b, puis une borne supérieure, au niveau de confiance 95 %. 2. La différence de potentiel mesurée aux bornes d’une résistance r traversée par un courant d’intensité xi (i = 1, . . . , n) est modélisée par une variable aléatoire Ui = rxi + i où i est un bruit de mesure supposé suivre une loi normale d’espérance nulle et de variance σ 2 . On considère un échantillon indépendant U1 , . . . , Un de n mesures réalisées pour des intensités x1 , . . . , xn . (a) Expliciter les estimateurs du maximum de vraisemblance des parac2 . mètres r et σ 2 , que l’on notera respectivement rb et σ (b) Montrer que rb est sans biais. Calculer sa variance. Quelle est la loi de rb ? (c) En supposant que σ 2 = 1, donner l’expression d’un intervalle de confiance de niveau 1 − α pour r. (d) Application numérique. On a obtenu les résultats suivants : xi ui
0,5 1,73
1,5 2,41
3 8,18
5 9,86
8 16,11
Calculer rb ainsi qu’un intervalle de confiance de niveau 95 % pour r (en supposant σ 2 = 1). (e) Toujours en supposant σ 2 = 1, tester l’hypothèse H0 : r = 1, 9 contre l’hypothèse alternative H1 : r 6= 1, 9, au niveau de signification 0, 01.
Chapitre 2
Éléments de correction 2.1
Statistiques descriptives
1. 2. (a) (b) (c) Moy.=4.47,Var.=0.12, E-T=0.35, q1=4.20, Med=4.5, q3=4.70, IQR=0.50 (d) (e) Moy.=8.22,Var.=173, E-T=13.3, q1=4.20, Med=4.5, q3=4.70, IQR=0.50 3. x = 2.6 et s = 1.51. 4.
2.2
Probabilités
1. (a) θ ∈] − 1; 1[ (b) E(X) =
θ 4
et Var(X) =
4−3θ 2 48 .
0 (1 − θ)(x + 12 ) (c) F (x) = 1−θ + (1 + θ)x 2 1 (d) p =
si si si si
x ≤ − 12 ≤x≤0 0 ≤ x ≤ 12 x ≥ 12
− 12
1−θ 2
(e) Y ∼ B(n, p), E(Y ) =
n(1−θ) 2
et Var(Y ) =
n(1−θ 2 ) . 4
2. (a) E(X) = 1 − θ/2, Var(X) = 1 − θ/2 − θ2 /4 (b) N0 ∼ B(n, 1/2) N1 ∼ B(n, θ/2) et N2 ∼ B(n, (1 − θ)/2) (c) E(N1 ) = nθ/2, Var(N1 ) = n θ2 1 − θ2 , et E(N2 ) = n 1−θ 2 et Var(N2 ) = 2 n 1−θ 4 R +∞ 3. (a) f ≥ 0 et ∞ f (v)dv = 1. (b) E(V ) =
1 3
(c) F (0.5 = P(V < 0.5) 23
CHAPITRE 2. ÉLÉMENTS DE CORRECTION
24
(d) F (v) = 2v − v 2 pour v ∈ [0, 1], 0 avant 0 et 1 après 1 (e) 900 litres 4. (a) G(x) = F (x)n (b) g(x) = nF (x)n−1 f (x) (c) E(Y ) =
n (n+1) θ
et Var =
n 2 (n+1)(n+1)2 θ ..
5. (a) µ = 163 cg, σ = 9, 7 cg. (b) Environ 20000 personnes.
2.3
Échantillonnage. Théorème de la limite centrale
1. 0.9966 2. 0.1861 3. (a) N ∼ N (31, 0.5484) (b) 0.6253 4. (a) Yn ∼ P(n) (b) 0.5591 (c) 0.5 pour les 4 valeurs de n (d) 0.5445, 0.5282, 0.5199 et 0.5141 5. 0.9359 6. Si on note XAi et XBi les durées de vie des ampoules de types A et B, les propriétes de la loi exponentielle permettent d’en déduire que E(XAi ) = 1 1 1 1 θA , Var(XAi ) = θ 2 , E(XBi ) = θB et Var(XBi ) = θ 2 . A
B
0.7499 7. 0.1416 8. On pose Y = ln(X) ; on a alors Y = ln(Gn ) ; E(Y ) = −1 et E(Y 2 ) = 1 ; L’espérance et la variance existent donc et la loi des grands nombres, qui P peut alors s’appliquer, permet d’en déduire que ln Gn = Y → E(Y ) = −1. P En utilisant le théorème rappelé dans l’énoncé, on peut en déduire Gn → −1 e ≈ 0.368.
2.4
Estimation, méthode des moments
1. (a) Il suffit d’utiliser Var(Y ) = E(Y 2 ) − (E(Y ))2 (b) Application de la relation précédente à Y = S ∗2 2. (a) θb1 = 2X 2 (b) E(θb1 ) = θ et Var(θb1 ) = θ 3n
(c) E(θb2 ) = (d) θb3 =
n n+1 θ
n 2 et Var(θb2 ) = ( (n+2)(n+1) 2θ
n+1 b n θ2
3. (a) E(X) = 0 × (1 − p1 − p2 ) + 1 × p1 + 2 × p2 (b) pb1 = 2X − m b 2 et pb2 =
m b 2 −X 2
CHAPITRE 2. ÉLÉMENTS DE CORRECTION
25
(c) 4. (a) E(T ) = (b)
n−1 n p(1
− p)
n n−1 T .
5. (a) E(X) =
θ θ−1
et θˆ1 =
X X−1
(b) g(y) = −e−yθ × −θ = θe−yθ et θˆm = 1/Y √ 6. (a) θb1 = 3S 2 (b) (c) θb2 = 2Y 7. (a) θ ∈] − 1; 1[ (b) E(X = θ4 , Var(X) =
4−3θ 2 48
(c) θbm = 4X (d) E(θbm ) = θ, Var(θbm ) =
2.5
4−3θ 2 3n
Méthode du maximum de vraisemblance
1. (a) θbM V = − P
i
(b) In (θ) =
n log(1−|Xi |)
−1
n (θ+1)2
2 app. (c) θbM V ∼ N θ, (θ+1) n 2. (a) E(X) = 2 − 3θ/2, Var(X) = 1 − θ/2 − θ2 /4 (b) N0 ∼ B(n, 1/2), N1 ∼ B(n, θ/2) et N2 ∼ B(n, (1 − θ)/2) (c) E(N1 ) = nθ/2, Var(N1 ) = n θ2 1 − θ2 , E(N2 ) = n 1−θ 2 et Var(N2 ) = 1−θ 2 n 4 (d) ln L(θ; x1 , . . . , xn ) = n0 ln 21 + n1 ln θ2 + n2 ln 1−θ 2 N1 N1 +N2 n In (θ) = 2θ(1−θ)
(e) θb3 = (f)
app. (g) θb3 ∼ N θ, 2θ(1−θ) n 3. (a) L(θ; x1 , ...xn ) = 1[In ,Sn ] (θ) : toutes les valeurs de θ comprises entre In et Sn maximisent la vraisemblance ⇒ θbn = α(Sn − 1) + (1 − α)In (0 ≤ α ≤ 1). (b) FS (x) = 0 si x ≤ θ, (x − θ)n si θ ≤ x ≤ θ + 1 et 1 sinon ; fS (x) = n(x − θ)n−1 1[θ,θ+1] (x) FI (x) = 0 si x ≤ θ, 1 − (1 − x + θ)n si θ ≤ x ≤ θ + 1 et 1 sinon ; fI (x) = n(1 − x + θ)n−1 1[θ,θ+1] (x). (c) E(In ) = θ +
1 n+1
(d) E(θbn ) = θ +
1−2α n+1
et E(Sn ) = θ + ⇒ α∗ = 1/2.
n n+1 .
CHAPITRE 2. ÉLÉMENTS DE CORRECTION
2.6
26
Estimation par intervalle de confiance
1. (a) µ ˆ=X=
1 n
Pn
i=1
Xi et σˆ2 = S ∗2 =
(b) I1 = [X −
√σ u1− α , X n 2
(c) I2 = [X −
S∗ √ α,X t n n−1,1− 2
+
1 n−1
Pn
i=1 (Xi
− X)2
√σ u1− α ] n 2
+
S∗ √ α] t n n−1,1− 2
∗2
, +∞[ (d) I3 = [ χ(n−1)S 2 n−1,1−α
(e) x = 22.99 , s∗2 = 0.0221, I2 = [22.885, 23.0948] et I3 = [0.0118, +∞] (f) n > 61.46 ou n ≥ 62 2. (a) Yi ∼ B(θx , E(Yi ) = θx , Var(Yi ) = θx (1 − θx ) (b) N ∼ B(n, θx ), E(N ) = nθx , Var(N ) = nθx (1 − θx ) (c) E(Y ) =
x) = θx , Var(Y ) = θx (1−θ n q q Y (1−Y ) Y (1−Y ) Y − u1−α/2 < θx < Y + u1−α/2 n n
1 n E(N )
(d) 1 − α = P
(e) y = 0.9, [0.84, 0.96]. 3. (a) X. Il est convergent et sans biais (b) Fonction pivotale u1−α/2 √σn ]
X−µ √ σ/ n
L
−→ N (0, 1), IC1 = [X − u1−α/2 √σn ; X +
(c) ic1 = [490, 804; 515, 596] (d)
X−µ √ S∗ / n
h i L S∗ S∗ √ −→ N (0, 1), IC2 = X − u1−α/2 √ ; X + u 1−α/2 n n
(e) ic2 = [ 491, 069 ; 515, 331 ]
2.7
Estimation optimale
1. (a) X est un estimateur efficace de 1/p (b) E[X] = 1/p, Var(X) = (c) E[X] = 1/p, Var(X) = (d) In (p) = 2. (a) pˆM V =
1−p np2 1−p p2
n p2 (1−p) Pnr Xi
¯ est un estimateur efficace de r/p,E[X] = r , Var[X] = (b) X p app. p2 (1−p) (c) pˆM V ∼ N p, nr pˆ pˆ √ √ (d) I.C. = ; 1 où u = u1−α/2 1+u
(1−p)/nr ˆ
1−u
r(1−p) p2
(1−p)/nr ˆ
3. (a) a = 1/n 2
(b) E(ˆ σa2 ) = an(E(X 2 ) − E(X )), σ ba2 sans biais pour a = 1/(n − 1). 2
(c) (b σ ) ∼ χ2n−1 (d) Var(ˆ σa2 ) = 2(n − 1)a2 σ 4 (e) R(b σa2 , σ 2 ) = σ 4 [a2 (n2 − 1) − 2a(n − 1) + 1]
CHAPITRE 2. ÉLÉMENTS DE CORRECTION (f) a =
1 n+1
4. (a) BCR (λ) =
λ n,
X estimateur efficace de λ.
(b) Variable aléatoire Ψ(X) : i. E[Ψ(X)] = e−λ (1 + λ), g(λ) = e−λ (1 + λ) ii. Var[Ψ(X)] = (c) BCR (g(λ)) =
e−λ (1+λ)(1−e−λ (1+λ)) n
λ3 e−2λ n
(d) Estimateur efficace de g(λ) : i.
n λ (X
− λ) = A(n, λ)(T − g(λ))
ii. iii. Pas d’estimateur efficace de g(λ)
2.8
Principe des tests d’hypothèses (1)
1. (a)
L1 L0
= exp
n 2σ 2 (2x
− 5)
(b) W = {x > k} avec k = 2 1 +
u1−α∗ √ n
(c) π = 0.9996 (d) n0 = 44 (e) α b(x1 , . . . , xn ) ≈ 0.067 2. (a) W = {t > σ02 χ2n,1−α∗ } A.N. t > 18, 3 (b) 1 − β = 0, 5 i. W = {t > σ02 χ2n,1−α∗ }
(c)
ii. 0.05, 0.50, 0.75, 0.90, 0.95 3. (a) X estimateur efficace de 1/p (b) X − 1/p L q −→ N (0, 1) 1−p np2
n (c) W = x <
2.9
1 p0
−
q
1−p0 ∗ u np20 1−α
o
Principe des tests d’hypothèses (2)
1. (a)
X 2
est l’estimateur efficace de θ.
b = θ, Var(θ) b = (b) E(θ) (c)
b θ−θ √ θ/ 2n
θ2 2n ,
E(X) = 2θ et Var(X) = 2θ2 .
L
−→ N (0, 1) .
(d) W = {θb > k} et k ≈ θ0 1 + (e) Pas de test UPP. 2n b (f) λ = θθ0 exp 2n 1 −
θb θ0
u1−α∗ √ 2n
.
.
27
CHAPITRE 2. ÉLÉMENTS DE CORRECTION
28
(g) W = {−2 ln λ ≥ χ21;0.95 = 3.84} et −2 ln λ = 25.67 : rejet de H0 . 2. (a) EM V = pb = X/n X n(1−p0 ) n−X 0 (b) λ = np n−X nX h i o n(1−p0 ) 2 0 (c) W = −2 X ln np > χ + (n − X) ln ∗ 1,1−α X n−X (d) −2 ln λ = 10.0167, χ21,0.95 = 3.84, rejet de H0 3. (a) Première solution ¯ < µ0 − √σ u1−α∗ i. W : X n ii. On conserve H0 iii. 1 − β = 0.93 (b) Deuxième solution i. K ∼ B(n, p) où p = P (X < µ0 − 1) = Φ( µ0 −1−µ ) σ −1 ii. H0 : p = p0 , H1 : p > p0 avec p0 = Φ( σ ) iii. W : K > 3, on conserve H0 iv. 1 − β = P (K > 3|p = 0.5) = 1 − P (K ≤ 3|p = 0.5) = 1 − 0.17 = 0.83
2.10
Tests de conformité
1. (a) W = {|x − 270| > 3.94} (b) On doit donc arrêter la production (c) β ≈ 0.15 2. (a) W = {x > A}. p (b) W = {x > np0 − 0.5 + u1−α∗ np0 (1 − p0 ). (c) Rejet de H0 . (d) α b ≈ 0.02.
2.11
Tests de comparaison
∗2 1. (a) xA = 44.88, xB = 39.43, s∗2 A = 10.33, sB = 5.14 s∗2
(b) W = { sA ∗2 < 0.483 ou > 2.29}, B
∗2
(c) s
= 8.60 (
(d) W =
s∗2 A s∗2 B
= 2.01
)
|xA −xB | q s∗ n1 + n1 A
>2 ,
B
s∗
|xA −xB | q 1 1 n +n A
= 6.86 : rejet de l’hypothèse
B
d’égalité. (e) Abaques pour tests bilatéraux avec α∗ = 0.05 : λ =
|D−D0 | q n1 +nB ∗ s N n
=
A B
3/0.7869 = 3.81, π ≈ 0.97 −1/2
2. (a) W = {|b pA − p0 | (p0 (1 − p0 )/nA ) > u1−α∗ /2 } avec pbA = XA /nA . −1/2 A.N. : |b p − p0 | (p0 (1 − p0 )/nA ) = 1.84 et u0.975 = 1.96 : pas de rejet de H0 . −1/2
(b) W = {|b pA − pbB | (b p(1 − pb) (1/nA + 1/nB )) > u1−α∗ /2 } avec pbA = XA /nA , pbB = XB /nB , pb = (XA + XB )/(nA + nB ). A.N. : 1.89 < 1.96 : pas de différence significative.
CHAPITRE 2. ÉLÉMENTS DE CORRECTION
2.12
29
Tests d’adéquation
1. (a) 1/32, 5/32, 10/32, 10/32, 5/32, 1/32 (b) D2 = 11.96 > χ25;0.95 = 11.1 : rejet de l’hypothèse d’équiprobabilité. 2. W = {d2 > 5.99} et d2 = 53 : rejet de l’hypothèse d’indépendance. 3. Test de K-S : W = {dn > 0.563} et d∗n = 0.40 : pas de rejet de H0 .
2.13
Analyse de la variance
1. (a) Test de Stephens : d∗n tion normale.
√
n+
0.85 √ n
− 0.01 = 0.565 > 0.895 : popula-
(b) Test de Bartlett : W = {b > 5.99} et b = 2.35 : égalité des variances. (c) Test de l’analyse de la variance : W = {f > 3.885} et f = 50.20 : espérances significativement différentes. (d) LSD de Fisher : t1,2 = 0.07, t1,3 = 8.73 et t2,3 = 8.66 à comparer à 2.18 : différences significatives entre 1 et 3 et entre 2 et 3. 2. W = {h > χ22;0.9 }, h = 5.35 et χ22;0.9 = 4.61 : effet significatif.
2.14
Régression Linéaire
n 2 b2 = n−2 1. (a) bb = 3.22, b a = 79.59 , σ bM Sres = 19.58. V = Sres = 15.66 et σ q 2 (b) Intervalle bilatéral : b a ± tn−2;1−α/2 √σbn 1 + xs2 , a.n. [64.94, 94.25]. q x 2 σ b √ Intervalle unilatéral : a > b a − tn−2;1−α n 1 + xs2 = 67.78. x
(c)
√bb σ b/ ns2x
= 5.87 > t8;0.99 = 2.90 : H0 rejetée.
(d) Intervalle bilatéral bb ± tn−2;1−α/2 √σb 2 , a.n. [1.95, 4.48]. nsx
Intervalle unilatéral : b < bb + tn−2;1−α √σb
ns2x
2. (a) rb =
Pn i=1 xi Ui P 2 i=1 xi
et σ b2 =
1 n
(b) E(b r) = r, Var(b r) = σ2 / (c) rb ±
Pn
i=1 (Ui
= 4.23.
− rbxi )2 .
2 2 Pnσ x et r b ∼ N r, . 2 i=1 i x
Pn
i=1
i
1−α/2 √uP n 2 i=1 xi
(d) A.n. :
P
x2i = 100.5,
P
xi ui = 207.2, rb = 2.0617, IC = [1.8662, 2.2572].
(e) Test sur la moyenne d’une v.a. gaussienne de variance connue : W = −r0 | { √ |brP > u1−α∗ /2 }, a.n. : 1.6210 < 2.5758 : H0 acceptée. n 2 1/
i=1
xi
Chapitre 3
Exemple de problèmes 3.1
Estimation
Comparaison d’intervalles de confiance On considère dans ce problème une variable aléatoire X de fonction de densité kx kx2 fX (x) = 2 exp − 2 1[0,+∞[ (x) σ 2σ où k est la constante 2 − π/2. On admettra que la variance de X est égale à σ 2 . On dispose d’un échantillon de n variables aléatoires indépendantes X1 , . . . , Xn de même loi que X, et l’on cherche à estimer le paramètre σ. 1. Première méthode. (a) Montrer que l’estimateur de σ 2 par la méthode du maximum de vraisemblance est : n k X 2 2 X σ bM = V 2n i=1 i (b) Cet estimateur est-il efficace ? Calculer sa variance. 2 (c) En utilisant l’estimateur σ bM V , déterminer un intervalle de confiance bilatéral symétrique pour σ 2 au niveau 1 − α.
(d) On a observé un échantillon de taille 200 et on obtient 200 X
xi = 771.4
et
i=1
200 X
x2i = 3793
i=1
2 Calculer numériquement les réalisations de σ bM V et de l’intervalle de 2 confiance bilatéral symétrique pour σ au niveau 95%.
2. Deuxième méthode. (a) Montrer la relation E(X 2 ) =
2σ 2 k
2 (Pour cela, on exprimera l’espérance E(b σM V ).)
30
CHAPITRE 3. EXEMPLE DE PROBLÈMES
31
q (b) En déduire que l’espérance E(X) est égale à σ 2−k k et proposer un estimateur σ bm de σ par la méthode des moments. (c) Montrer que cet estimateur est sans biais et calculer sa variance. (d) En utilisant l’estimateur σ bm , déterminer un intervalle de confiance bilatéral symétrique pour σ au niveau 1 − α. En déduire un intervalle de confiance bilatéral symétrique pour σ 2 au même niveau de confiance. (e) Avec les mêmes données numériques que dans la question 1(d), calcu2 ler numériquement les réalisations de σ bm et de l’intervalle de confiance 2 bilatéral symétrique pour σ au niveau 95 %.
Loi exponentielle Soit X une variable aléatoire suivant une loi de densité θ−x e si x ≥ θ f (x) = 0 sinon On admettra que E(X) = θ + 1 et Var(X) = 1 et on supposera disposer d’un échantillon i.i.d de grande taille. 1. Première partie (a) Déterminer un estimateur θb1 de θ par la méthode des moments. Montrer que cet estimateur est sans biais. Déterminer sa variance. (b) Déterminer un intervalle de confiance bilatéral approché au niveau de confiance 1 − α en utilisant θb1 . (c) Application numérique : on dispose d’un échantillon de taille P P 2000 dont les principales caractéristiques sont : xi = 8019, x2i = 34410, min(xi ) = 3.0001 et max(xi ) = 12.3751. Calculer l’intervalle de confiance pour α = 5%. 2. Seconde partie (a) Calculer la fonction de vraisemblance L(θ; x1 , . . . , xn ) et tracer son graphe. (b) En déduire l’estimateur θb2 du maximum de vraisemblance. On admettra pour la suite que E(θb2 ) = θ + 1 et Var(θb2 ) = 12 . n
n
(c) Déterminer la fonction de répartition de θb2 . (d) Déterminer un intervalle de confiance bilatéral au niveau de confiance α en utilisant θb2 . (e) En prenant les mêmes données numériques que dans la première partie, calculer l’intervalle de confiance ainsi obtenu. Le comparer à celui obtenu avec l’estimateur θb1 .
Estimateur le plus précis Soit X une v.a. normale de paramètres µ et σ 2 inconnus et X1 , . . . , Xn un échantillon i.i.d. de variable parente X.
CHAPITRE 3. EXEMPLE DE PROBLÈMES
32
1. Première partie On se propose tout d’abord d’étudier la famille des estimateurs de σ 2 de la forme : n X σ ba2 = a (Xi − X)2 , a ∈ R. i=1
(a) Montrer que la méthode du maximum de vraisemblance conduit à choisir a = 1/n. (b) Calculer E(b σa2 ) et en déduire la valeur de a pour laquelle σ ba2 est sans biais. (c) On s’intéresse maintenant à la précision de σ ba2 définie par la quantité : R(b σa2 , σ 2 ) = E[(b σa2 − σ 2 )2 ]. i. Montrer que R(b σa2 , σ 2 ) = [a2 (n2 − 1) − 2a(n − 1) + 1]σ 4 . (On rappelle que
2 σ ba aσ 2
∼ χ2n−1 ).
ii. En déduire la valeur de a pour laquelle l’estimateur σ ba2 est le plus précis. 2. Seconde partie On considère maintenant les estimateurs de µ de la forme : µ bb = b
n X
Xi ,
b∈R
i=1
(a) Calculer la valeur de b obtenue par la méthode du maximum de vraisemblance et montrer que l’estimateur correspondant est sans biais. (b) Montrer que la précision de µ bb est égale à : R(b µb , µ) = b2 n(σ 2 + nµ2 ) − 2bnµ2 + µ2 et en déduire la valeur de b minimisant R(b µb , µ). (c) Est-il possible en pratique de déterminer une valeur de b telle que l’estimateur µ bb soit le plus précis ? Pourquoi ? Quelle approximation peut-on faire pour n grand et σ 2 petit ?
CHAPITRE 3. EXEMPLE DE PROBLÈMES
3.2
33
Tests
Loi γ(t, λ) Soit X une v.a. suivant une loi gamma de paramètres t et λ, de densité : 1/Γ(t)λt xt−1 e−λx si x ≥ 0 f (x) = 0 sinon On considère la réalisation suivante d’un échantillon i.i.d. de X : 1.8
6.8
0.5
1.0
6.6
4.5
4.8
2.8
1. Montrer que : Z Γ(t) =
+∞
xt−1 e−x dx.
0
Montrer que Γ(1) = Γ(2) = 1. 2. En admettant que t = 2, donner un estimateur efficace d’une fonction de λ. Calculer son espérance et sa variance. En déduire l’espérance et la variance de X. 3. Toujours en admettant que t = 2, tester l’hypothèse H0 : λ = 1/2 contre l’hypothèse H1 : λ > 1/2 , pour un risque de première espèce α = 5%. On précisera notamment : (a) la forme de la région critique en la justifiant, (b) la règle de décision (faire l’approximation normale), (c) l’application numérique avec les données de l’exercice. (d) le risque de seconde espèce pour λ = 1. 4. En fixant λ = 1/2, donner la forme de la région critique optimale pour les hypothèses H0 : t = 2 contre H1 : t = 1. 5. Tester l’hypothèse H0 : l’échantillon est issu d’une loi gamma de paramètres t = 2 et λ = 1/2, contre l’hypothèse H1 : l’échantillon est issu d’une autre loi.
Temps de fonctionnement sans panne d’un appareil L’instant T de panne d’un appareil est une variable aléatoire obéissant à une loi exponentielle de paramètre µ > 0 : f (t) =
1 −t/µ e 1]0,+∞[ (t) µ
On réalise deux expériences. – 1ère expérience On met n = 225 appareils en service à la même date t0 et on note Ti l’instant de panne de l’appareil numéro i. 1. Calculer l’espérance mathématique de T . 2. Donner l’estimateur de µ par la méthode du maximum de vraisemblance. Est-il efficace ? Si oui, donner sa variance.
CHAPITRE 3. EXEMPLE DE PROBLÈMES
34
3. On suppose que le temps moyen de fonctionnement sans panne de ce type d’appareil est égal à 750 heures. Tester cette hypothèse avec α∗ = 0.05. Application numérique : t = 812 heures. 4. Calculer la puissance du test si le temps moyen de bon fonctionnement est de 900 heures. – 2ème expérience On met n appareils en service durant un temps τ = 500 heures et on compte le nombre d’appareils en panne à l’issue de cette période τ . 1. Calculer la probabilité p pour qu’un appareil tombe en panne entre les instants 0 et τ . 2. Soit X, le nombre d’appareils en panne avant τ , sur les n qui avaient été mis en service. Donner la loi de X. 3. Reformuler les hypothèses du test précédent comme des hypothèses sur le paramètre de la loi de X et tester ces hypothèses. 4. Calculer la puissance du test sous la même hypothèse que précédemment. 5. Quelle taille devra avoir l’échantillon pour avoir la même puissance que dans la première expérience ?
Test du rapport de vraisemblance Soit X1 , . . . , Xn un échantillon i.i.d. de variable parente X ∼ E(θ), de densité fX (x) = θe−θx 1[0,+∞[ (x), θ étant un paramètre positif. b estimateur du maximum de vraisemblance de θ. 1. Donner l’expression de θ, 2. Calculer l’information de Fisher In (θ) relative au paramètre θ. En déduire une fonction asymptotiquement pivotale pour θ. 3. On considère le problème de test suivant H0
: θ = θ0
H1
: θ = θ1
avec θ1 > θ0 . Montrer que la région critique W du test le plus puissant b puis donner pour ce problème au niveau α∗ s’exprime en fonction de θ, une approximation de W en supposant n grand. 4. On considère maintenant le problème de test suivant H0
: θ = θ0
H1
: θ 6= θ0
Existe-t-il un test UPP pour ce problème ? 5. Calculer la statistique du rapport de vraisemblance λ pour le problème de test de la question précédente. b En déduire la forme de la 6. Etudier les variations de ln(λ) en fonction de θ. région critique W 0 du test du rapport de vraisemblance pour le problème de la question 4, puis une approximation de W 0 en supposant n grand.
CHAPITRE 3. EXEMPLE DE PROBLÈMES
35
Test randomisé On prélève 20 pièces dans un lot et on compte le nombre X de pièces défectueuses. On admet que X ∼ B(20, p), p étant la proportion inconnue de pièces défectueuses dans le lot. On souhaite tester les hypothèses H0 : p = 0.5 contre H1 : p > 0.5, au niveau de signification α∗ = 0.05. 1. Montrer qu’il existe un test UPP pour ce problème, de la forme X > A. Déterminer A pour que le risque de première espèce α ait la plus grande valeur possible tout en respectant la contrainte α ≤ 0.05. 2. L’inconvénient de la procédure précédente est qu’elle a un risque de première espèce strictement inférieur à 5 %. On propose donc la procédure plus complexe suivante : – si X > A, on accepte H1 ; – si X < A, on accepte H0 ; – si X = A, on fait un tirage au sort : on accepte H1 avec une probabilité γ, et H0 avec une probabilité 1 − γ. Exprimer le risque de première espèce α de ce test en fonction de γ (A ayant la valeur déterminée dans la question 1), puis déterminer γ pour avoir α = 0.05. 3. Calculer la puissance du test défini dans la question 2, pour p = 0.8.
View more...
Comments