Probabilités Statistiques

January 16, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités

Short Description

Download Probabilités Statistiques...

Description

UV SQ 20

Probabilités Statistiques UV SQ 20 Automne 2006 Responsable d Rémy Garandel ( m.-el. [email protected] ) page 1

SQ-20 Probabilités - Statistiques

Bibliographie: Titre Auteur(s) Editions Localisation Introduction à la statistique Amzallag, Piccioli, Bry Hermann Bib. ENI Probabilités et statistiques Coll FLASH U A. Colin B.M. Belfort n°519 07 REA Initiation pratique à la statistique A. Liorzou Gauthier Villars Bibl ENI Probabilités et Statistiques appliquées Lacaze, Mailhes, … Cépaduès Bibl Utbm Sév. n° QA 273 Pro Statistiques et probabilités J. P. Lecoutre Dunod Bibl Utbm Sévenans Niveaux des livres : - très (trop) facile, + niveau de SQ 20, ++ pour des prolongements, +++ : compétition

Niveau +− + puis ++ +

Quelques livres intéressants, instructifs ou réjouissants (propriétés ne s’excluant pas) : Etienne Klein : L’atome au pied du mur Ed. Le Pommier Des nouvelles à caractère historique et scientifique écrites avec humour. De quoi ensoleiller les journées moroses J. Paul Delahaye Jeux mathématiques et mathématiques des jeux Bibliothèque Pour la Science Etude probabiliste des jeux de hasard à partir de situations plus ou moins simples Ch. Ruhla La physique du hasard Ed. Hachette Bibl. Municipale Belfort n° 530 13 RUH Survol chronologique des phénomènes aléatoires en physique, difficulté croissante au cours des chapitres J. Merlino Les jargonautes B. M. Belfort Petite étude humoristique sur le langage actuel Simon Singh Histoire des codes secrets Intéressera tous les mathématiciens

Ce cours a été enseigné à l’UTBM, Université de Technologie de Belfort-Montbéliard depuis la création de cette université de Technologie, c’est-à-dire septembre 1999. Il correspond à l’Unité de Valeur SQ 20 Probabilités et Statistiques, dans laquelle le volume horaire était de 32 heures de cours et 28 heures de Travaux Dirigés. Remarques préliminaires : Ce document comprend plus d’exercices qu’il est possible d’en faire pendant les séances de TD. Le but en est multiple. D’abord d’avoir une certaine variété dans les différents groupes et ensuite de permettre aux étudiants qui le souhaitent de faire les exercices qui n’auront pas été traités dans leurs séances de TD. On peut toujours demander des éléments de solution aux enseignants, ou à des étudiants des autres groupes qui les ont peut-être résolus. Certains exercices sont notés * , ** ou ***. Ils correspondent à des exercices demandant une certaine recherche dans le raisonnement, ou à ceux qui dépassent le programme de l’UV, mais pas les capacités intellectuelles des étudiants brillants. Mais ne le sont-ils pas tous ?

page 2

UV SQ 20

Chap.1

Espaces Probabilisés

-I- Introduction: 1°) Le hasard Le calcul des probabilités est l’étude des phénomènes aléatoires, du mot latin alea = hasard. Cette notion n’est d’ailleurs pas très facile à cerner. Ce qu’on nomme hasard peut être dû simplement à un phénomène qu’on maîtrise mal, ou dont on ne connaît pas les causes. Il y a quelques millénaires, l’apparition d’une éclipse pouvait être considérée comme un phénomène relevant du hasard alors qu’après la découverte des lois de la gravité et de l’orbite des objets célestes du système solaire, il devient un phénomène entièrement déterminé. De même le lancer d’une pièce de monnaie, exemple même du phénomène aléatoire, n’a rien de hasardeux à condition de connaître avec précision tous les paramètres du mouvement. Dès que la pièce est lancée, son trajet est entièrement déterminé, ainsi que le résultat du lancer. Alors, le hasard ? Existe-t-il vraiment, ou est-il simplement une mesure de notre incompétence ? On peut considérer le monde comme un environnement totalement déterminé, tendance Laplace, ou au contraire, considérer qu’il existe une part incompressible de hasard, (Cf. le principe d’incertitude de Heisenberg) dans laquelle on peut loger un espace de liberté. 2°) Probabilités objectives et subjectives : Avant de définir la probabilité, il est nécessaire de considérer la notion de fréquence. Soit une expérience à deux issues, succès et échec, qui est répétée n fois dans les mêmes conditions. nombre de succès La fréquence de succès s’écrit f n = . n On peut ainsi définir la probabilité de succès d’une expérience aléatoire par p = lim f n p ∈ 0, 1 , le n →∞

problème étant que cette probabilité ne peut être connue qu’après une infinité d’expériences. Dans certains cas, il est possible de contourner cette difficulté par des considérations géométriques. Par exemple, pour le lancer d’un dé cubique parfaitement équilibré (mais l’est-il parfaitement ?), à chaque face on peut attribuer la probabilité 1/6. La définition de la probabilité d’un événement ainsi donnée peut être appelée probabilité objective. Une autre définition, beaucoup plus floue, celle de la probabilité subjective, serait « combien un joueur serait prêt à parier sur un résultat ? » Par exemple, on demande à un étudiant d’évaluer ses chances de succès à un examen, c’est-à-dire sa probabilité de réussite p∈[0, +1]. Puis on lui propose l’expérience suivante : faire tourner une aiguille sur un axe situé au dessus d’un disque dont un secteur d’angle θ est blanc, le reste étant coloré. Après rotation de l’aiguille, si elle s’arrête sur le secteur blanc, on lui donne son examen, sinon … Puis on lui donne le choix, passer effectivement l’examen ou laisser l’aiguille, donc laisser le hasard décider. En fonction de l’angle θ l’étudiant choisira l’une ou l’autre solution, ce qui permettra d’évaluer sa probabilité subjective p.

Pour terminer cette introduction, il faudrait préciser que le Calcul des Probabilités n’est pas qu’un amusement de mathématicien. Il est utilisé dans des domaines aussi divers que la fiabilité, les assurances, la gestion des stocks ou des sièges mis à la vente par les compagnies aériennes, la vitesse des conducteurs (y a-t-il un radar sur ma route ?) et bien sûr les jeux de hasard (Cf. les bénéfices de la Française des Jeux). Sans le calcul des probabilités les compagnies d’assurances seraient ingérables, ou avec des primes dissuasives, et les compagnies aériennes ne pratiqueraient pas la surréservation, qui peut avoir ses avantages pour certains passagers. Il est intéressant, par exemple en séance de TD, de pratiquer des expériences pour vérifier l’adéquation entre la théorie (calculs effectifs) et la pratique (observation). page 3

SQ-20 Probabilités - Statistiques

-II- Algèbre d’événements Dans ce cours, nous allons utiliser des probabilités sur R ou des sous-ensembles de R. En fonction de la nature de ces sous-ensembles, ensembles discrets, intervalles, etc., les méthodes de calcul seront différentes. Un peu plus loin, nous prolongerons l’étude sur des parties de Rn. 1°) Sous-ensembles de R : a) Ensemble finis: Définition : On dira que Ω ⊂ R est un ensemble fini s’il existe un entier n∈N, qu’on note Card(Ω), cardinal de Ω, et une bijection de Ω dans {1, 2, ... , n}. Quelques exemples d’ensembles finis : • les ensembles de la forme {1, 2, ... , n} n∈N* bien sûr, mais aussi l’ensemble vide ∅ • L’ensemble des étudiants de première année dans une Université Sur les ensembles finis s’applique toute l’analyse combinatoire, c’est à dire les dénombrements. b) Ensembles dénombrables: Définition : On dira que Ω ⊂ R est un ensemble dénombrable s’il existe une bijection de Ω dans N. Par prolongement, on a les ensembles dénombrables au sens strict, qui correspondent à la définition ci-dessus, ou les ensembles dénombrables au sens large qui sont finis ou dénombrables. (On peut aussi définir un ensemble dénombrable au sens large en disant qu’il existe une application injective de Ω dans N, mais cette définition ne fait pas la différence entre les ensembles finis et les ensembles infinis, différence qui sera utilisée pour certaines notions, moments d’une variable aléatoire par exemple, page 16)

Quelques exemples d’ensemble dénombrables, en dehors de N : Z (ensemble des entiers relatifs), Q (ensemble des fractions rationnelles), tout ensemble de points isolés dans R1. Par contre un intervalle ouvert de R n’est pas dénombrable (démonstration par le procédé diagonal de Cantor) . De plus, tout sous-ensemble d’un ensemble dénombrable est dénombrable (au sens large). Un ensemble de points isolés sera appelé un ensemble discret. c) Les autres: Parmi les autres ensembles, qui ne font donc pas partie des ensembles ci-dessus, une place prépondérente sera accordée à des ensembles dits continus, c’est à dire constitués d’intervalles non réduits à un point de R ou d’une réunion de ce type d’intervalles. Ces ensembles ne constituent pas l’intégralité des ensembles utilisés dans la théorie des probabilités, loin delà, mais, pour la plupart des autres, il est nécessaire d’utiliser la théorie de la mesure, ce qui dépasse largement le cadre de ce cours. 2°) Dénombrements : L’analyse combinatoire est l’étude des dénombrements sur les ensembles finis. Il est des méthodes qu’il est bon de connaître pour résoudre certains problèmes de probabilités. L’étude des bases de l’analyse combinatoire ayant été faite dans le secondaire, nous ne ferons que de brefs rappels, pour les démonstrations, voir le cours de terminale. a) Nombre de parties d’un ensemble Soit un ensemble fini Ω de cardinal n, on montre par récurrence que le nombre de sous-ensembles (parties) de Ω est Card(P(Ω)) = 2n. Cette relation est aussi vérifiée pour n = 0. b) Permutations : Une permutation sur un ensemble fini Ω de cardinal n, est une bijection de Ω sur lui-même. On peut, moyennant une bijection sur En={1, 2, . . . ,n} pour n entier naturel non nul, compter le nombre de permutations sur En. 1

Un point x d’un sous-ensemble E de R est dit isolé dans E s’il existe un voisinage de x ne contenant aucun autre élément de E.

page 4

UV SQ 20

On montre par récurrence que le nombre de permutations sur En est n ! = 1×2×. . . ×n . Par convention on attribue la valeur 1 à 0!. c) Arrangements Un arrangement est une application injective de Ep={1, 2, . . . ,p} dans En={1, 2, . . . ,n}. C’est aussi un tirage successif et sans remise de p éléments ordonnés dans un ensemble de n éléments. Une telle application n’existe que si p ≤ n, et d’ailleurs si p = n on est ramené au cas précédent. n! si n ≥ p et A pn = 0 sinon Le nombre d’arrangements est noté A pn et on montre que A pn = ( n − p)! (on le note aussi P(n, p), cette notation, plus simple pour les typographes, est souvent utilisée sur les calculatrices). d) Combinaisons Une combinaison est un tirage simultané de p éléments dans un ensemble de n éléments. Contrairement aux permutations, on ne tient pas compte de l’ordre dans lequel ces éléments sont tirés. A chaque combinaison de p éléments, on peut donc associer p ! permutations différentes, ce qui nous donne n Ap n! l’expression du nombre de combinaisons : C pn = = n = . Suivant les sources on trouvera p p! p!( n − p)! les deux notations. Historiquement, la première a été utilisée par les français, pour bien noter le C de combinaison, alors que la seconde se trouve dans la littérature anglo-saxonne. On peut, à titre d’exercice en déduire la formule du binôme de Newton :

FG IJ HK

∀n ∈ N , ∀(a , b) ∈ R

2

ba + bg

n

n

= ∑ C kn a k b n − k ainsi que le cas particulier où a + b = 1, bien utile k =0

pour les probabilités discrètes. On conviendra que C pn = 0 et A pn = 0 dans le cas p > n. 3°) Exemples de dénombrements : a) Planche de Galton : Soit une planche inclinée munie de clous suivant la disposition ci-contre, n+1 lignes numérotées de 0 à n. On lance une bille sur le premier clou, et elle se dirige à droite ou à gauche pour arriver à un autre clou et ainsi de suite jusqu’aux numéros de bas de grille. Pour un numéro k∈{0, …, n}, la trajectoire peut se coder suivant une suite (x1, …, xn) où xk =0 ou 1 suivant que la bille va à droite ou à gauche, avec k fois 1 et (n−k) fois 0 . On choisit donc k rangs de la suite parmi les n auxquels on associe le résultat 1. On a donc C kn chemins différents pour se rendre à la case k. Cet exemple est assez riche pour qu’on puisse reconstruire les formules sur les combinaisons, en particulier le triangle de Pascal. 4°) Tribus d’événements : On considère une expérience aléatoire dont l’ensemble Ω est l’ensemble de tous les résultats ω possibles. Une partie A de Ω est appelée un événement. Si le résultat ω est dans A, on dira que l’événement A est réalisé. L’objectif du calcul des probabilités est d’évaluer les chances de réalisation d’un événement. Il s’agit donc, si possible, d’attribuer une probabilité à un sous-ensemble de Ω, comme on attribue une aire à une surface. Une partie A de P(Ω) = ensemble de toutes les parties de Ω , est une algèbre d’événements si A est stable par les opérations booléennes usuelles, intersection finie, complémentarité et si elle contient Ω. Du fait que A est stable par intersection et complémentarité, elle est nécessairement stable par réunion, et de plus, contenant Ω, elle contient aussi ∅. page 5

SQ-20 Probabilités - Statistiques

On peut prolonger cette définition avec la stabilité par intersection dénombrable pour obtenir une structure de tribu d’événements qu’on trouve aussi sous la dénomination σ−algèbre, le préfixe σ symbolisant généralement le passage du fini au dénombrable. Dans tous les cas, Ω est fini ou infini, dénombrable ou non dénombrable, l’algèbre (ou la tribu dans le cas infini) minimale est l’ensemble {Ω, ∅} et la maximale est P(Ω). Dans ce cours nous étudierons essentiellement trois types d’ensembles Ω : finis, infinis dénombrables et intervalles (a, b), ouverts ou fermés, de R avec a < b. Les algèbres ou les tribus que nous étudierons, sauf mention contraire, seront • les ensembles P(Ω) si Ω est un ensemble discret • l’ensemble des boréliens (tribu engendrée par les intervalles de R) si Ω =R. Certains événements sont utilisés fréquemment, c’est le cas de l’événement certain Ω, des événements élémentaires, c’est à dire n’ayant qu’un seul élément, et de l’événement impossible ∅

-III- Espaces probabilisés : La notion intuitive de probabilité objective introduite à l’aide de fréquences, ainsi que celle de probabilité subjective, sont insuffisantes pour bâtir une théorie cohérente et éviter certaines erreurs grossières. Il est donc nécessaire de mettre en forme une axiomatique du calcul des probabilités. 1°) Probabilité sur un ensemble : Soit un ensemble Ω et une tribu d’événements A définie sur E. Définition : L’application p est une probabilité sur Ω si 1. p est une application de A sur l’intervalle [0, 1] 2. p(Ω) = 1 3. si A∈ A et B∈ A avec A∩B=∅ (événements incompatibles) alors p(A∪B) = p(A) + p(B). 4. Pour toute suite d’événements An , n∈N, deux à deux disjoints ( ∀i ≠ j A i ∩ A j = ∅ ) on a p

FG U A IJ = ∑ p(A ) H K n

n ∈N

n

(σ−additivité)

n ∈N

On définit ainsi un espace probabilisé qui est le triplet (Ω, A , p). Il est d’ailleurs possible, à partir du même ensemble Ω de définir plusieurs espaces probabilisés différents. Plusieurs tribus d’événements peuvent être définies sur le même Ω, et pour une même tribu, on peut construire des probabilités différentes. Nous en verrons un exemple avec le paradoxe de Bertrand (Cf. page 9). 2°) Propriétés : De la définition d’une probabilité, on déduit (facilement) les propriétés : P(∅) = 0, l’événement ∅ est appelé événement impossible2, par exemple « obtenir un 7 en lançant un dé cubique normal ». ∀A∈ A , ∀B∈ A p(A∪B) = p(A) + p(B) – p(A∩B) p( A ) = 1 − p(A ) avec A = Ω \ A

-IV- Indépendance et probabilités conditionnelles Soit dans un espace probabilisé (Ω, A , p) deux événements A, de probabilité non nulle, et B. Les événements peuvent être réalisés simultanément si leur intersection n’est pas vide, mais on peut se po2

L’événement impossible n’est d’ailleurs pas le seul événement de probabilité nulle. Par exemple, un tirage au hasard d’un nombre entre 0 et 1 fournit des probabilités nulles pour tous les événements de la forme {x, x∈[0, 1]}, mais un tel résultat, quoique très improbable, n’est pas impossible.

page 6

UV SQ 20

ser la question : la réalisation de A a-t-elle une influence sur celle de B ? En d’autres termes, la probabilité de B est-elle la même quand on sait que A est réalisé ? Par exemple le donneur de cartes au poker qui a pris soin de regarder la dernière carte du paquet (par exemple l’As de ♠) avant de commencer sa distribution. Il a donc une information supplémentaire événement A = « l’As de ♠ ne sera pas distribué » dont il sait qu’il est réalisé.

1°) Probabilités conditionnelles Ceci nous amène à la définition de la probabilité conditionnelle p|A, c’est-à-dire la probabilité d’un événement B sachant que A est réalisé. On construit ainsi un nouvel espace probabilisé (Ω’=A, A’ , p|A) où A’ ={B∩A, B∈ A’} et la probap(A ∩ B) bilité : ∀B, p|A ( B) = p( B| A ) = . p(A ) On vérifie que (Ω’=A, A’ , p|A) est bien un nouvel espace probabilisé qui vérifie les propriétés 1 à 4. 2°) Indépendance En reprenant notre point de départ, on peut définir l’indépendance de deux événements, c’est-à-dire la propriété que la réalisation de l’un d’eux n’a pas d’influence sur celle de l’autre. On dira, par définition, que B est indépendant de A (tel que p(A)≠0) si p|A(B) = p(B). p(A ∩ B) Dans ce cas, p|A ( B) = = p( B) ce qui implique p(A ∩ B) = p(A ). p( B) (règle de multiplip( A ) cation). On peut remarquer que cette dernière relation est symétrique en A et B, et, si la probabilité de B est non nulle : B indépendant de A ⇔ A indépendant de B. Les deux définitions p|A ( B) = p( B) et p(A ∩ B) = p(A ). p( B) qu’on pourrait donner de l’indépendance ne sont équivalentes que si les probabilités de A et B ne sont pas nulles. Pour la suite nous prendrons la définition suivante, ce qui permettra de l’utiliser aussi dans le cas où la probabilité d’un événement est nulle: A et B sont indépendants si et seulement si p (A ∩ B) = p(A) p(B) 3°) Propriétés immédiates : Les événements Ω et ∅ sont indépendants de tous les autres. Si p(A) ≠ 0 , p(B) ≠ 0 et A∩B=∅ alors A et B ne sont pas indépendants. En effet la réalisation de l’un rend l’autre impossible. A ce propos il convient de bien faire la différence entre des événements incompatibles A ∩ B = ∅ et des événements indépendants p(A ∩ B) = p(A ). p( B) . p(A ∩ B) De la relation p|A ( B) = on déduit p (A ∩ B) = p(A) p(B|A), qu’on utilise en particulier pour p( A ) des études de fiabilité. 4°) Exemples Les cas d’indépendance sont (heureusement) très fréquents, et l’hypothèse d’indépendance sera abondamment utilisée quand nous aborderons la partie Statistiques. Dans l’immédiat donnons quelques exemples : • Tirages aléatoires successifs avec remise d’éléments dans une boîte • Réponses à une question donnée par des sondés ne se concertant pas • Résultats de lancers successifs d’un dé (dont on suppose qu’il ne s’use pas !) Dans d’autres situations, on introduit l’hypothèse d’indépendance pour simplifier les calculs, en espérant que la différence entre les résultats est négligeable, en fait inférieure à la précision dont on a besoin pour les calculs. C’est le cas par exemple de : • Tirages aléatoires successifs sans remise d’un petit nombre éléments dans une boîte en contenant un grand nombre page 7

SQ-20 Probabilités - Statistiques

• •

Le sexe des enfants d’un même couple de parents Le nombre de crevaisons pendant un an de deux conducteurs (s’ils n’empruntent pas systématiquement les mêmes itinéraires, devant une usine de recyclage de verre notamment) • Pannes des composants montés en parallèle d’un dispositif électronique • Tailles des étudiants d’une Université Dans tous les cas il est bon de vérifier l’indépendance des événements dont on veut calculer la probabilité Exemple : Dans une salle se trouvent n personnes, n≥2. Calculer en fonction de n la probabilité qu’ils aient tous des mois de naissance différents. Dans cet exemple, et c’est souvent le cas dans les études de phénomènes aléatoires, l’énoncé est très incomplet et il est nécessaire d’introduire des hypothèses supplémentaires, pour préciser certains points ou opérer des simplifications. La première est de supposer que toutes ces personnes ont des jours de naissance indépendants, ce qui paraît assez réaliste, sauf s’il y a des jumeaux dans l’assemblée. Ensuite, pour simplifier le problème, on peut supposer que les 365 jours de l’année, ou les 12 mois, sont équiprobables quant à la naissance. C’est beaucoup moins rigoureux, pour ne pas dire pas du tout, que le premier point. En effet les naissances ne se répartissent pas uniformément sur l’année (convenances personnelles, réveil du printemps ou panne générale de télévision pendant quelques jours, …. ), et de plus les mois n’ont pas tous le même nombre de jours. Et que faire des années bissextiles ? Pour modéliser le problème, on peut le représenter par une application f de E = {1, 2, …, n} dans F = {1, 2, …, 12}, toutes les applications étant équiprobables, c’est à dire de probabilité p = 1 . L’événement A = « tous les mois 12 n de naissance sont différents » est associé à l’événement B = « l’application f est injective ». Si n > 12 le problème est résolu immédiatement, la probabilité de A est nulle. n Si n≤12, on a nombre d’applications injectives = A n et donc p(A ) = nb d ' applications injectives E → F = A 12 . Par 12 nb d ' applications E → F 12 n exemple, pour n = 6 on a p(A) = 0,223 ± 0,001. On peut parier sans risque excessif devant une assemblée de 6 personnes que deux d’entre elles sont nées le même mois. On prend successivement n = 20, n = 25 et n = 30. Quelle est la probabilité que deux d’entre elles aient des dates de naissance identiques ? Le problèmes est le même, avec les mêmes approximations, mais il y a 365 jours au lieu de 12 mois et on considère l’événement C = « tous les jours anniversaires sont différents ». Dans le cas général n compris entre 2 et 365, on a la probabilité p( C) =

n A 365

365n

, ce qui donne les probabilités 0,59 pour n = 20 (0,43 pour 25 et 0,29 pour 30). Là encore on

peut prendre les paris sur un groupe de 30 personnes.

5°) Système complet d’événements Dans un espace probabilisé (Ω, A , p) on appelle système complet d’événements S ={Ak, k∈D} avec D = N ou D = {1, 2, …, n} une partition finie ou dénombrable de Ω. Les ensembles Ak étant disjoints deux à deux, on peut écrire la formule des probabilités totales : ∀B, B =

UB∩ A

k ∈D

k

b

g

b

g

et donc p( B) = ∑ p B ∩ A k = ∑ p B| A k p(A k ) k ∈D

k ∈D

Formule de Bayes : Si S ={Ak, k∈{1, 2, …, n}} un système complet fini d’événements Ak sont tels que p(Ak) ≠ 0, on a, p( B| A k ) p(A k ) pour tout B tel que p(B) ≠ 0 : p(A k | B) = n ∑ p( B| A k ) p(A k ) k =1

On peut traiter à titre d’exercice l’exemple suivant : Dans un atelier quatre machines A, B, C et D fabriquent la même pièce à la même cadence. La production est entreposée sans souci de provenance. On s'aperçoit à posteriori que la machine A a été mal réglée et que sa production est inacceptable. Par ailleurs les proportions de pièces inacceptables sont, pour B, C et D de 2%, 3% et 5%. a) On prend au hasard une pièce dans le stock. Probabilité qu'elle soit défectueuse ? b) Une pièce est défectueuse. Quelle est la probabilité pour qu'elle vienne de A, de B ?

page 8

UV SQ 20

-V- Hypothèse d’équiprobabilité : 1°) Cas où Ω est fini : Étant donné un ensemble fini Ω, par exemple {1, 2, …, n} n∈N*, un cas très fréquent est celui où tous les événements élémentaires {k} ont la même probabilité. On a donc :

b g

b g

p {1} = K = p {n} et p(Ω) = p

FG U {k}IJ = ∑ pb{k}g les événements étant disjoints deux à deux, H K n

n

k =1

k =1

1 n On dira dans ce cas que l’espace probabilisé vérifie l’hypothèse d’équiprobabilité. On trouve cette situation dans les cas où on peut évoquer une symétrie physique (dé cubique ou pièce de monnaie parfaitement équilibrés) ou l’absence d’informations sur un phénomène aléatoire, où aucun résultat ne semble plus prévisible que les autres. Un jeu de cartes bien battu ne fournit aucune information quant au classement des cartes, et par conséquent toutes les cartes ont la même probabilité de sortie à l’occasion d’un tirage. Bien sûr il faut être très prudent dans l’utilisation de cette hypothèse. L’absence d’informations n’implique pas nécessairement l’équiprobabilité. et donc ∀k ∈ Ω, p({k}) =

2°) Cas où Ω est infini dénombrable Ce cas est traité rapidement. En effet, il est impossible d’introduire une hypothèse d’équiprobabilité dans ce cas pour des raisons évidentes. Le cardinal de Ω étant infini on aurait

∞

∑ pb{k}g

= 1 et donc 1

k =1

serait la somme d’une série à termes constants, qui diverge si la constante est non nulle, et qui est nulle si tous les termes sont nuls. 3°) Cas où Ω est un intervalle borné (non réduit à un point) de R Dans le cas où Ω = (a, b), a < b, intervalle (semi-)ouvert ou (semi-)fermé borné de R, on dira que l’espace probabilisé (Ω, A , p) vérifie l’hypothèse d’équiprobabilité si la probabilité d’un intervalle (c, d) ⊂ (a, b) est proportionnelle à la longueur d−c de l’intervalle. p ( c, d ) d−c On a donc ∀a ≤ c ≤ d ≤ b = . p ( a , b) b−a On peut remarquer que si l’hypothèse d’équiprobabilité est vérifiée, la probabilité d’un point est nulle, et donc que le fait que l’intervalle (c, d) soit ouvert ou fermé n’a aucune influence sur sa probabilité. En effet p c, d = p {c} + p c, d + p {c} = p c, d .

b b

c

h b g c

g g

h b g c

h

On utilisera, avec les précautions d’usage, cette hypothèse dans le cas où on effectue un tirage « au hasard » d’un nombre réel dans un intervalle de longueur non nulle. 4°) Étude de cas : paradoxe de Bertrand Considérons la situation suivante : on trace une corde [A, B] sur un cercle (C), en supposant A et B choisis au hasard sur le cercle. On cherche à évaluer la probabilité de l’événement E = la longueur de la corde est supérieure à celle du côté du triangle équilatéral inscrit dans le cercle. Par homothétie, on peut supposer que le cercle a pour rayon R = 1. Le problème est de savoir ce qu’on entend par au hasard. a) Première situation : On peut, moyennant une simplification, éventuellement abusive, que A est fixé et que B est choisi au hasard sur le cercle. On a donc l’espace probabilisé (Ω1, A 1, p1) où Ω1 est le cercle, la tribu est la tribu maximale P(Ω1) et p1 est la probabilité uniforme sur le cercle, qu’on peut associer page 9

SQ-20 Probabilités - Statistiques

par bijection à la probabilité uniforme sur l’intervalle [0, 2π[. Dans ce cas, l’événement E est réalisé si B se trouve sur l’arc CD, et, la probabilité étant uniforme longueur de CD 1 sur le cercle p1 ( E) = = . circonférence du cercle 3 b) Deuxième situation : On considère maintenant que le segment [A,B] est entièrement déterminé si on en connaît le milieu I. Le nouvel espace probabilisé est défini par (Ω2, A 2, p2) où Ω2 est le disque, la tribu est P(Ω2) et p2 est la probabilité uniforme sur le disque, la probabilité d’un domaine du disque étant proportionnelle à son aire. Dans ce cas E est réalisé si I se trouve à l’intérieur du disque (C’) de centre O et de rayon moitié. On a donc : aire de (C' ) 1 p 2 ( E) = = . aire de (C) 4 c) Troisième situation : Pour des raisons de symétrie, encore, on peut considérer que I est uniformément distribué sur un rayon [O,F]. Dans ce cas l’événement est réalisé si I se trouve sur la première moitié du rayon. On a donc l’espace probabilisé (Ω3, A3, p3) où Ω3 est le rayon, la tribu est la tribu maximale P(Ω3) et p3 est la probabilité uniforme sur le 1 rayon. On a donc p 3 ( E) = . 2 En résumé, en fonction de la définition du terme au hasard et de l’espace probabilisé, on a des résultats différents. On aurait pu considérer une quatrième situation en considérant que A n’est pas fixé et que les deux points A et B sont choisis uniformément sur le cercle.

-VI- Exercices et Problèmes:

b g

1°) Ecrire le développement de 1+ x n

En déduire S1 =

∑ k =0

n

n ∈ N* .

n

C kn , S2 =

∑ k =0

n

( −1) k C kn , S3 =

∑ k =0

n

k C kn et S4 =

∑k

2

C kn

k =0

2°) Pour une UV dans laquelle sont inscrits 40 étudiants et 20 étudiantes, combien de cours doit on faire pour épuiser toutes les possibilités dans les cas suivants : • On considère l’ensemble des étudiants présents (la disposition dans la salle importe peu) • Aucune fille n’est absente • Ils prennent place dans une salle de 60 places et tous les inscrits sont présents • 50 inscrits sont présents et les 10 places de devant sont vides 3°) Soit deux ensembles E = {1, 2, …, p} et F = {1, 2, …, n}. a) Combien peut-on construire d’applications de E dans F ? b) - - - - - - - - - - injectives de E dans F ? c) - - - - - - strictement croissantes de E dans F ? d) ** - - - - - - - - - - surjectives de E dans F 4°) Neuf touristes embarquent dans trois bateaux pouvant chacun recevoir de 0 à 9 passagers. Quelles sont les probabilités des événements suivants : • Chaque bateau embarque trois personnes • Aucun bateau n’est vide • Dans chaque bateau il y a au moins 2 personnes et au plus 4. page 10

UV SQ 20

5°) ** Prolongement et application à la Physique de l'exercice précédent: (corrigé page 69) En Physique, on est amené à étudier la répartition de n particules, chacune pouvant prendre N états différents (un état = point dans l'espace des phases). Le problème est donc d'étudier la répartition de n particules dans N boîtes. a) Statistique de Maxwell-Boltzmann (applicable à des molécules de gaz): on suppose que toutes les répartitions sont équiprobables. Déterminer l'ensemble Ω1 des répartitions possibles, ainsi que la probabilité que la première boîte contienne k particules, avec k∈{0, 1, …, n}. b) Statistique de Bose-Einstein (applicable à des photons): on suppose que les particules sont maintenant indiscernables. Déterminer l'ensemble Ω2 des répartitions possibles, ainsi que la probabilité que la première boîte contienne k particules, avec k∈{0, 1, …, n}. c) Statistique de Fermi-Dirac (applicable à des électrons): on suppose que les particules sont indiscernables et que chaque boîte contient au plus une particule, et par conséquent n ≤ N . Déterminer l'ensemble Ω3 des répartitions possibles, ainsi que la probabilité que la première boîte contienne une particule. 6°) Définir l’ensemble Ω et déterminer Card(Ω) dans les situations suivantes : • On lance trois fois un même dé cubique. • On distribue cinq cartes à un joueur extraites d’un un jeu de 32 • On tire au hasard la grille de départ d’un Grand Prix de Formule 1 (20 concurrents) • - - - le podium d’une course automobile (25 concurrents) 7°) On considère l'ensemble N* ou N, l'algèbre A =P(N*) et une probabilité p sur A. Dans chacun des cas suivant, calculer, si possible, la constante α pour que p soit effectivement une probabilité sur A. α α α a ) ∀n ∈ N * p n = 3 b ) ∀n ∈ N * p n = c) ∀n ∈ N p n = n 2 2 n + 3n + 2 n n

cl qh

cl qh

cl qh

8°) Peut-on définir une probabilité p sur Ω, contenant les parties A, B et C, avec C = A∩B, satisfaisant aux conditions suivantes: a) p(A) = 0,8 p(B) = 0,1 p(C) = 0,2. b) p(A) = 0,8 p(B) = 0,4 p(C) = 0,1. c) p(A) = 0,8 p(B) = 0,4 p(C) = 0,3 p(A∪B)= 0,9 9°) Soit (Ω, P(Ω), p) un espace probabilisé et trois parties A, B et C de Ω, telles que: p(A ) = 0,3 p( B) = 0,5 p(A ∩ C) = 0,1 p(A ∩ B ∩ C) = 0,1 p( B ∩ C) = 0,25 p(A ∩ B ∩ C) = 0,05 a) Dans quel intervalle doit-on choisir p(C) pour que p soit effectivement une probabilité ? b) On choisit p C ∩ (A ∪ B) = 0,2 . Déterminer les probabilités de événements suivants:

e

C,

A∪B∪C,

j

A ∪ B∪ C , B∩ A ,

A ∩ B∩ C ,

A ∪ B∪ C ,

A∩B

10°)

Le programme d'un examen comporte: 10 chapitres sur les séries, 4 chapitres sur les intégrales multiples, 6 chapitres de probabilités et 10 chapitres d'algèbre linéaire. Les modalités sont les suivantes: Le candidat tire au sort trois questions parmi les 30 qui sont proposées, chacune des questions portant sur un chapitre et un seul, et choisit de traiter une des questions. a) Combien de chapitres doit-il travailler pour être certain de réussir son examen ? b) Déterminer les probabilités des événements suivants: • Il ne tire aucune question de probabilités • Il tire trois questions sur des domaines différents page 11

SQ-20 Probabilités - Statistiques • Il tire trois questions sur le même sujet.

c) Un candidat ne révise que l'algèbre linéaire. Quelle est la probabilité qu'il soit reçu ? d) Un autre candidat est complètement nul en algèbre linéaire (toute ressemblance avec des personnes. . . ), quelle est la probabilité qu'il soit reçu ? e) Dans quelle mesure l'impasse sur certaines parties de programme est-elle intéressante ? 11°) On pense savoir que, avec la probabilité 0,8, A est coupable du crime pour lequel il va être jugé. B et C, chacun d’eux sachant si A est coupable ou non, sont appelés à la barre. B est un ami de A et dira la vérité si A est innocent et mentira avec une probabilité 0,2 si A est coupable. C déteste tout le monde sauf le juge et dira la vérité si A est coupable et mentira avec la probabilité 0,3 si A est innocent. Ces conditions étant posées : a) Déterminer la probabilité d’avoir des témoignages contradictoires. b) Quel témoin a le plus de chances de commettre un parjure ? c) B et C ayant donné des témoignages contradictoires, quelle est la probabilité que A soit innocent ? d) Les événements (B ment) et (C ment) sont-ils indépendants ? 12°) La différence essentielle entre les avions Airbus A 330 et A 340 est que le premier a deux moteurs et le second quatre. La probabilité qu’un moteur tombe en panne étant p∈]0, 1[, ces avions peuvent continuer leur route si au moins la moitié des moteurs est en état. Étudier suivant p lequel des deux avions est le plus fiable. Faire la même étude en supposant qu’un avion peut voler sans problème avec un seul moteur. 13°) Dans un bassin se trouvent 36 poissons dont x blancs (x entier compris entre 1 et 17), autant de noirs, les autres étant rouges. On tire simultanément 3 poissons du bassin et on appelle A l’événement « les trois poissons sont de couleurs différentes ». a) Définir l’espace probabilisé, en introduisant éventuellement des hypothèses supplémentaires. b) Dans le cas x = 6 , calculer la probabilité de A. c) Etudier sommairement les variations de la fonction f définie par :

|RSx ∈ 1, + 17 |Tf ( x) = 36x

2

− 2x3

.

d) Si p(x) est la probabilité d’obtenir trois poissons de couleurs différentes, déterminer la valeur de x pour laquelle p(x) est maximale. e) Dans le cas x = 12, on note X le nombre de poissons rouges parmi les trois. Déterminer la loi de X. Calculer les probabilités p(A | X = 1) et p(X=1 | A) (corrigé page 69 ) 14°)

Une loterie annonce : «Un billet sur trois est gagnant, achetez trois billets ! ». Alors ?

15°) Un dé pipé est (mal) équilibré de telle manière que la probabilité de chaque face est proportionnelle au numéro. Calculer les probabilités de chaque face. On lance deux dés et on note X la somme des deux résultats. Quelle est la valeur de X la plus probable ? Un appareil est constitué de 50 composants en série dont la probabilité de défaillance est p. a) Quelle doit être la valeur de p pour que le risque de panne du système soit inférieur à 1% ? b) On n'a pas pu obtenir mieux que p = 5. 10-4. Calculer la probabilité de fonctionnement de l'appareil. c) Pour atteindre 0,99 on a l'idée de mettre en parallèle deux appareils avec commutation automatique en cas de panne du premier. Quelle sera la probabilité de fonctionnement du dispositif ?

16°)

17°) Dans le diagramme ci-contre, chaque ⎯⏐⏐⎯ représente un lien de communication. Sous la politique de maintenance, les défaillances des liens sont des événements indépendants, et on suppose qu’à chaque page 12

UV SQ 20

instant, la probabilité qu’un lien fonctionne est p. a) Si on prend un instant au hasard, quelle est la probabilité que : • exactement deux liens fonctionnent • le lien g et un autre lien fonctionnent b) Sachant que six liens sont en panne, quelle est la probabilité que A soit encore en communication avec B ? 18°) On tire simultanément cinq cartes dans un jeu de 32 (4 couleurs ♠, ♥, ♦, ♣, et 8 valeurs, As, R, D, V, 10, ..., 7). Calculer les probabilités des événements suivants: • on a au moins un As • on a au plus un ♠, • on a une dame et un ♦ • toutes les cartes sont de même couleur • toutes les cartes sont de valeurs différentes • on a une seule paire Un joueur de poker a reçu 5 cartes dont deux as, met de côté les trois autres cartes, puis reprend trois cartes dans le jeu. Calculer les probabilités des événements: • il a trois as • il a au moins trois as • il a un seul as • il retire trois cartes de même valeur. 19°) Un pâtissier confectionne des pains aux raisins de 50 g. Combien de raisins secs doit-il mettre dans 10 kilos de pâte pour qu’en moyenne 95% des pains aux raisins contiennent au moins deux raisins ? 20°) Un chariot est partagé entre 3 machines A, B et C. Au départ la machine est en A, et à chaque étape de la production le chariot passe de manière aléatoire à une autre des deux autres machines. A la nème étape on note a n , b n et c n (a 0 = 1, b 0 = 0 et c 0 = 0) les probabilités que le chariot se trouve en A, B et C. a) Calculer ak , bk et ck pour 1 ≤ k ≤ 2 et les relations entre a n +1 , b n +1 et c n +1 et a n , b n et c n . a) En déduire a n , b n et c n en fonction de n et les limites quand n tend vers l’infini. (corrigé page 69)

21°) 22°) On considère une boîte contenant 10 boules blanches numérotées de 0 à 9, ainsi que 5 noires numérotées de 1 à 5 et 5 rouges numérotées de 1 à 5. a) On tire successivement trois boules de la boîte, sans les remettre dans la boîte après tirage. Calculer les probabilités des événements suivants: • A = «les trois boules sont de même couleur» • B = «les trois boules sont de couleurs différentes» • C = «les trois boules ont le même numéro» • D = «le nombre formé par les trois résultats est pair» b) On tire simultanément trois boules de la boîte. Calculer les probabilité des événements suivants: • A = «les trois boules sont de même couleur» • B = «les trois boules sont de couleurs différentes» • C = «les trois boules ont le même numéro» • D = «il y a plus de boules noires que de blanches» c) On tire successivement des boules de la boîte, en les remettant dans la boîte après tirage. Calculer les probabilités des événements suivants: • A = «les trois boules sont de même couleur» (n = 3) • B = «les trois boules (n = 3) sont de couleurs différentes» • C = «les trois boules (n = 3) ont le même numéro» • D = «on a tiré 4 boules avant d'en avoir une noire» page 13

SQ-20 Probabilités - Statistiques

-VII- Pour les linguistes: 1°) Están dispuestos tres « desperados » A, B y C en triángulo equilátero, en una plaza de toros, quizás con un carillón en el centro, firmemente decididos a disparar unos a otros. A es el menos diestro y alcanza la meta una de cada dos veces. B lo hace un poco mejor y la probabilidad que tiene de acertar es de 0,7. En lo que respecta a C, nunca falla. Disparan uno después de otro siguiendo el orden A, B, C, A, B… hasta que no quede más que uno. ¿Qué tiene que hacer A para empezar ?

page 14

UV SQ 20

Chap.2

Variables aléatoires discrètes

-I- Variables aléatoires: Le résultat d’une expérience aléatoire peut souvent se représenter par un nombre réel, le lancer d’un dé, la taille d’un étudiant ou la température le matin à 8 heures en un lieu donné. Il est donc plus simple de considérer le résultat numérique au lieu d’étudier l’expérience en entier, quand c’est possible. Prenons le lancer d’une pièce, équilibrée ou non. On peut ne considérer que la face visible de la pièce une fois que celle-ci s’est immobilisée. Mais on peut aussi étudier sa position au moment du lancer, l’impulsion donnée, sa trajectoire, son temps de mouvement et bien d’autres variables, ce qui nous donne un univers d’une complexité telle qu’il devient impossible de se livrer à des calculs sur tous les paramètres dans un temps raisonnable. De cette expérience on ne retiendra que le résultat final par exemple 1 pour Pile et 0 pour face. Suivant la forme du résultat numérique, on pourra faire des études différentes. L’ensemble des résultats X(Ω) pourra être un ensemble discret, fini ou non, ce qui sera l’objet de ce chapitre, ou continu, intervalle ou réunion d’intervalles (d’intérieurs non vides) que nous étudierons au prochain chapitre. Quelques exemples pour bien faire la différence entre les deux cas : Nombre de « Pile » pour n (n>0) lancers d’une pièce X(Ω) = {0, 1, …, n} Nombre d’essais jusqu’à obtention d’un succès dans une expérience aléatoire X(Ω) = N* Taille d’un étudiant en cm X(Ω) = [50, 250] Temps d’attente avant panne d’un système X(Ω) = [0, ∞[ 1°) Mise en place Soit un espace probabilisé (Ω, A , p) et une application X de Ω dans R. On dira par définition que X est une variable aléatoire si : ∀A ⊂ R , X −1 (A ) ∈ A . En définissant la

c

h

probabilité pX(Ω) sur X(Ω) par ∀A ⊂ R , p X ( Ω ) (A ) = p X −1 (A ) on effectue un transfert de probabilité de Ω sur l’ensemble image X(Ω). Pour des raisons de commodité, on identifie typographiquement les deux probabilités p et pX(Ω). C’est un abus de langage car les deux espaces sont différents, mais il ne pose pas de problème dans la pratique. Cette dénomination de variable aléatoire n’est pas des plus judicieuses, en effet X n’est pas une variable mais une application, et elle n’a rien d’aléatoire. On trouve aussi dans la littérature le synonyme alea numérique. 2°) Variables discrètes Dans le cas où X(Ω) est un ensemble discret, X est, par définition, une variable aléatoire discrète. L’ensemble X(Ω) peut être dans ce cas être représenté par une suite x1, x2, … finie ou non. Les événements élémentaires, disjoints deux à deux, {xk, k∈N*} ont donc la probabilité pk, définie

cl

par p k = p ω ∈ Ω / X(ω ) = x k

qh et on a ∑ p

k

= 1, d’après la propriété de σ-additivité.

k ∈N *

La probabilité totale 1 est donc distribuée, pas nécessairement uniformément, entre les valeurs de X(Ω). On appelle distribution (ou loi) de probabilité de la variable X l’ensemble x k , p k , k ∈ N * .

mb

g

r

Une variable aléatoire étant donnée, on définit aussi sa fonction de répartition F, qui représente les probabilités cumulées. En France, on définit F par ∀x ∈ R , F( x) = p( X < x) , alors que pour les pays anglo-saxons l’inégalité est large. Pour une variable discrète, F est une fonction en escalier pour laquelle apparaît une discontinuité à page 15

SQ-20 Probabilités - Statistiques

droite à chaque point chargé de probabilité. Cette fonction F est caractérisée par les propriétés suivantes (pour une variable discrète) : F 1. F est définie continue presque partout (= sauf sur un ensemble discret) de R dans [0, 1] F 2. F est croissante au sens large, c’est à dire ∀( x, y) ∈ R 2 avec x < y, F( x) ≤ F( y) F 3. lim F = 0 et lim F = 1 x →−∞

x→∞

A toute variable aléatoire, on peut donc associer une distribution, puis une fonction de répartition, et inversement, une fonction F remplissant les conditions F 1 à F 3 ci-dessus on peut associer une distribution de variable aléatoire avec la probabilité ∀x ∈ R , p( X = x) = lim F( x) − lim F( x) t→x +

t→x −

3°) Représentations graphiques Pour avoir une représentation visuelle d’une distribution de probabilité, ou pour faire des comparaisons de lois, il peut être intéressant d’effectuer une représentation graphique de la distribution ou de la fonction de répartition. Pour la première on représentera la distribution par un diagramme en bâtons, alors que pour la seconde on a une fonction en escalier. Étude d’un exemple : On considère un jeu de 32 cartes dans lequel on prélève simultanément 5 cartes (une main), et la variable aléatoire X = nombre d’As parmi les cinq cartes. Le tirage des cinq cartes étant simultané, il s’effectue sans remise, et l’ordre de tirage est indifférent. Une main est un sous-ensemble de cinq éléments dans les 32 possibles. Moyennant une bijection, on peut travailler sur l’ensemble E = {1, 2, …, 32}. L’espace probabilisé, si on suppose que les cartes sont toutes équiprobables,

e onx , K, x s, x ∈l1,K, 32q et i ≠ j ⇒ x ≠ x t, P (Ω), pj, avec Card(Ω) = C

s’écrit Ω =

5

1

k

i

j

On a donc, d’après l’hypothèse d’équiprobabilité, les calculs suivants :

l

q

∀k ∈ 0, K , 4 p( X = k ) =

k 4

5− k 28

C C C532

, avec les résultats numériques ci-contre :

Dans le calcul de cette probabilité, on tire k As parmi 4, puis 5-k cartes (différentes des As) parmi 28. Les tirages des As et des autres cartes étant indépendants, on peut utiliser la règle de multiplication, les tirages pouvant être représentés par un arbre.

5 32

.

k= 0 1 2 3 4

p(X=k)= 0,488 0,407 0,098 0,008 0,000

-II- Moments d’une variable aléatoire Plusieurs variables discrètes étant définies sur le même espace, ou sur des espaces de même nature, il peut être pratique de disposer de moyens permettant de les comparer. Par exemple, si on considère deux populations vivant dans deux pays différents, la comparaison des tailles est difficile si on ne regarde que les données brutes ou même les distributions. Il faudrait définir en quelque sorte un résumé simple de ces distributions à des fins de comparaison rapide. Par analogie avec la mécanique, pour une variable discrète, on peut définir les moments d’une variable. La définition sera un peu différente pour les variables continues que nous étudierons au prochain chapitre. 1°) Définition générale : Une variable X étant définie sur un espace probabilisé (Ω, A , p), on appelle moment d’ordre n (n∈N*) l’expression M n ( X) = ∑ x nk p( X = x k ) si cette expression existe. x k ∈X ( Ω )

On définit de même les moments par rapport à un réel α, par M n ,α ( X) =

∑ (x

k

− α ) n p( X = x k )

x k ∈X ( Ω )

Dans le cas d’une variable discrète à support fini (X(Ω) est un ensemble fini) l’existence des moments est automatiquement assurée, comme somme finie de nombres réels. Par contre si le support est infini dénombrable, le moment d’ordre n est la somme d’une série, qui n’est pas nécessairement convergente. Dans ce dernier cas, il est possible que certains moments existent alors que pour d’autres les séries page 16

UV SQ 20

sont divergentes. Par exemple, soit la variable X définie par sa distribution : ∀n ∈ N * p ( X = n) =

α n

3

. La série étant conver-

gente, on peut déterminer α > 0 tel que la somme des probabilités soit égale à 1. Si on calcule les moments : M1 ( X) =

α

∑n

n ∈N

*

2

=

απ

2

existe mais M 2 ( X) =

6

α

∑ n n' existe pas

n ∈N

*

2°)

Espérance mathématique : Soit un espace probabilisé (Ω, A , p) et X une variable aléatoire discrète, on définit l’espérance mathématique E(X) par : E( X) = ∑ x k p( X = x k ) , si cette somme existe. L’espérance est donc le mox k ∈X ( Ω )

ment d’ordre 1 (par rapport à 0). Dans la mesure où

∑ p( X = x

k

) = 1 , l’espérance est le barycentre

x k ∈X ( Ω )

des points xk, affectés des coefficients p(X = xk).

k

p

Pour expliquer cette définition, considérons une variable X à valeurs dans X( Ω) = x1 , x 2 , K et N un entier très grand. L’expérience étant faite N fois, le résultat xk sera obtenu environ nk = N p(X=xk) fois, et n (N) 1 la moyenne des résultats sera x ( N ) = x k n k ( N ) avec p( X = x k ) = lim k , de plus, quand N ∑ N →∞ N x ∈X ( Ω ) N k

tend vers +∞, on a E ( X) = lim x ( N ) . N →∞

Ceci donne donc une interprétation pratique, et une justification, de l’espérance, moyenne des résultats quand le nombre d’expériences tend vers l’infini. En statistique, on appelle souvent l’espérance moyenne, ce qui est une confusion entre un résultat théorique, l’espérance, et un résultat calculé à partir d’une observation. Jusqu’à maintenant les statisticiens (et les étudiants) ont sans scrupules mélangé les deux notions, mais sans dommage majeur.

Pour avoir une représentation plus concrète de l’espérance, on peut faire une comparaison avec la mécanique, en considérant un système de points matériels alignés d’abscisses xk, et de masses p(X = xk). L’espérance est alors le centre de gravité du système. 3°)

Variance Généralement l’espérance, si elle existe, n’est pas suffisante pour comparer deux distributions. L’espérance donne en quelque sorte un centre d’inertie, mais ne donne aucune indication de la dispersion de la distribution autour de ce centre. Imaginons par exemple que deux centres d’examens notent des copies. Il est possible que la distribution des notes aient la même espérance mais que les répartitions des notes autour de cette même moyenne soient très différentes. On définit la variance d’une variable aléatoire X ,discrète sur un espace probabilisé (Ω, A , p) et dont l’espérance existe, par Var ( X) =

∑ bx

k

g

c

2

h

− E( X) p( X = x k ) = E ( X − E( X)) 2 , si cette somme existe,

x k ∈Ω

c’est à dire le moment centré d’ordre 2. Cette définition montre l’analogie avec la mécanique, la variance correspond à un moment d’inertie, et elle permet de constater qu’une variance est toujours positive, comme barycentre de carrés affectés de coefficients positifs, mais elle peut se mettre sous une autre forme, souvent plus pratique pour les calculs. 2 2 2 2 Var ( X) = ∑ x k − 2 x k E ( X) + E ( X) p( X = x k ) = ∑ x k p( X = x k ) − 2 ∑ x k E ( X) p( X = x k ) + ∑ ( E ( X) ) p( X = x k )

b

a

g

x k ∈Ω

=

∑ x p( X = x

x k ∈Ω

k

) − 2 E ( X)

k

) − E ( X) = E X

x k ∈Ω

=

∑ x p( X = x

k

2

k

x k ∈Ω

∑ x p( X = x 2

k

2

k

) + ( E ( X))

b g − E ( X) 2

2

∑ p( X = x x k ∈Ω

f

x k ∈Ω

k

)=

x k ∈Ω

∑ x p( X = x 2

k

) − 2 E ( X) + ( E ( X) ) 2

k

2

x k ∈Ω

2

x k ∈Ω

page 17

SQ-20 Probabilités - Statistiques

c

h c h b

g

2

On prendra, au choix et suivant les circonstances, Var ( X) = E ( X − E( X)) 2 = E X 2 − E( X) en faisant bien attention à la place des parenthèses. Pour des raisons pratiques, on utilise aussi l’écart type σ (écart quadratique moyen) défini par la relation σ X = Var ( X) . La variance étant positive l’existence de l’écart type est assurée dès que Var(X) existe. 4°) Relations sur l’espérance et la variance On montre facilement, à partir des définitions, que, α et β étant des nombres réels quelconques : E(αX + β) = αE( X) + β, Var (αX + β) = α 2 Var ( X) et que σ αX +β =| α| σ X . X − E ( X) , de construire, σx à partir de X, une variable aléatoire Y centrée (d’espérance nulle) et réduite (de variance égale à 1). Par contre, et c’est un erreur fréquente chez les étudiants distraits et fougueux, il n’est pas question d’utiliser une relation similaire si la relation entre X et Y n’est pas affine. En particulier, et il est possi1 1 2 ≠ et E( X 2 ) ≠ E( X) , sinon toutes ble à titre d’exercice de trouver des contre-exemples, E X E ( X) les variances seraient nulles ! Si Var(X) ≠ 0, il est donc possible, moyennant la transformation affine Y =

FG IJ H K

b

g

5°) Exemples Si on reprend l’exemple de la page 16, le calcul direct donne E(X) = 0,625 et Var(X) ≈ 0,48 , ce qui signifie que sur un très grand nombre de tirages de 5 cartes, la moyenne du nombre d’As est de 0,625, environ. Exemple de variable à support dénombrable, qu’on peut faire à titre d’exercice : Dans une fournée de biscuits le nombre X de noisettes présentes dans chaque biscuit est une variable aléatoire de distribution : p ( X = k ) =

FI 3 H 3K

1 2

k

k ∈ N . On suppose de plus que la valeur d’un biscuit est propor-

tionnelle au cube du nombre de noisettes présentes (pourquoi pas ?). Les biscuits sont triés par des chimpanzés qui mangent tous ceux qui contiennent 0, 1 ou 2 noisettes. a) Calculer l’espérance et la variance de X. b) Quelle est la probabilité qu’un biscuit pris au hasard soit mangée par un chimpanzé ? c) Quelle est la part du chiffre d’affaires que les chimpanzés consomment ? d) Quelle est la probabilité qu’une noisette prise au hasard aille dans un biscuit en contenant k ? e) soit mangée par un chimpanzé ? ∞

On peut utiliser ∀x ∈ −1, + 1

∑ n=0

n x = 3

n

b

g ou démontrer cette relation.

x x + 4x + 1 2

(1 − x)

4

-III- Lois usuelles Il n’est pas question d’étudier en détail toutes les variables aléatoires discrètes, il y en a une infinité, mais certaines d’entre elles reviennent fréquemment dans la pratique, et il est intéressant d’en connaître les conditions d’application. On peut aussi en mémoriser les caractéristiques, distribution, espérance, variance quand elles existent. 1°) Loi uniforme U(n) Soit l’ensemble En ={1, 2, …, n}, n∈N* et la variable aléatoire X uniforme sur En , c’est-à-dire 1 qu’on suppose l’équiprobabilité sur En. On a donc ∀k ∈ E n p( X = k ) = . Il s’agit de ce qu’on nomme n tirage au hasard dans le langage commun. page 18

UV SQ 20 n

Calcul de l’espérance et de la variance : E( X) = ∑ k k =1

1 1 n( n + 1) n + 1 = = 2 2 n n

1 ( n + 1) 1 n( n + 1)(2 n + 1) ( n + 1) 2 n 2 − 1 − = − = 4 6 4 12 n n k =1 On remarque que si n = 1, la probabilité est concentrée sur la valeur 1 et que la variance est nulle. 2

n

Var ( X) = ∑ k 2

2°) Loi binomiale B(n, p) Une situation fréquente consiste à répéter la même expérience menant à un succès (probabilité p) ou à un échec (probabilité 1 − p) n fois et à compter le nombre X de succès. Il peut s’agir par exemple de lancer 10 fois un dé équilibré et de compter le nombre de 6, de tirer 5 fléchettes sur une cible et de compter le nombre de flèches dans le rond central. On peut aussi se référer à la planche de Galton introduite à la page 5, en prenant succès = droite et échec = gauche. Dans la pratique, on considère, pour ce genre d’expériences, que tous les lancers se font de manière indépendante, c’est à dire que les conditions de l’expérience sont identiques d’une fois à l’autre, il n’y a pas d’usure, de progrès dans la dextérité, etc. Une situation similaire (mais équivalente uniquement dans le cas où Np est entier) est le tirage avec remise de n jetons dans un ensemble de N, Np jetons blancs et N(1−p) noirs, avec N∈N* et p∈[0, +1]. X est alors le nombre de jetons blancs tirés. On a l’ensemble X(Ω)={0, 1, …, n}, et pour toute valeur de k dans X(Ω) le résultat s’écrit sous la forme d’une suite (x1, …xn) de n éléments parmi lesquels il y a k fois le résultat 1 (succès) et n − k fois 0 (échec). La probabilité d’un tel résultat est donc pk(1−p)n-k. Pour construire une telle suite, il faut choisir k rangs où placer les 0 dans {1, 2, …, n}, c’est-à-dire C kn possibilités. On a donc ∀k ∈ 0,K , n p( X = k ) = C kn p k (1 − p) n − k Les calculs de l’espérance E(X) = np s’obtient à partir de la formule du binôme. En effet :

l

q

n

E ( X) =

∑kC

n!

n

k n

p (1 − p ) k

n−k

=p

k =0

∑ k k !( n − k )! p

n

k −1

(1 − p )

n−k

= np

k =1

∑C

k −1 n −1

p

k −1

(1 − p)

n − 1− ( k − 1 )

= np ( p + (1 − p ))

n −1

= np

k =1

De même pour la variance : n

Var ( X) =

∑ k2 C

k n

p (1 − p) k

n−k

2

− ( np) =

k =0

= n ( n − 1) p

2

n!

n

∑ k ( k − 1) k !( n − k )! p

n

k −1

(1 − p )

n−k

k =2

n

∑C

k n−2

p

k −2

(1 − p)

n−k

2 2

2 2

2

+

∑kC

k n

p (1 − p) k

n−k

2 2

−n p

k =1

2 2

+ E ( X) − n p = n p − np + np − n p = n p (1 − p)

k =0

3°) Loi hypergéométrique H(N, n, p) a) Définition Pour la loi binomiale, on considère des tirages indépendants (avec remise), mais cette fois on tire les jetons simultanément, c’est-à-dire qu’on ne remet pas les jetons dans la boîte après tirage et que l’ordre de tirage n’a pas d’importance. Pour modéliser ce problème, on peut considérer une boîte séparée en deux cases contenant respectivement N p jetons blancs et N(1−p) noirs. Le nombre de tirages possibles, qu’on suppose équiprobables est alors C nN . Pour toute valeur de k dans {0,1, 2, …, n}, on extrait simultanément k jetons dans la première case, et ensuite (de manière indépendante) n − k jetons dans la seconde. On a alors : C kNp C n-k nb de tirages des jetons blancs = C kNp N(1-p) . ∀ ∈ 0 , 1 , K , ( = ) = donc k n p X k n-k n nb de tirages des jetons noirs = C N(1-p) CN Cette relation caractérise la loi hypergéométrique H(N, n, p).

l

q

Ne pas oublier la convention sur les combinaisons introduite à la page 5. Le cas n = 0 ne présente pas d’intérêt, car on ne tire pas de jeton et donc p(X = 0) = 1.

b) Propriétés Par des calculs (fastidieux) sur les combinaisons, on vérifie que la somme des probabilités est bien page 19

SQ-20 Probabilités - Statistiques

N−n . N −1 On remarque que l’espérance est la même que pour les tirages avec remise (variable binomiale), mais N−n que la variance est inférieure, avec toutefois lim np(1 − p) = np(1 − p) . n →∞ N −1 Nous allons faire le premier calcul à titre d’exemple, les autres feront (éventuellement) l’objet d’un exercice qui pourra remplir une soirée pluvieuse. Considérons n et N entiers tels que 0 < n ≤ N. égale à 1, et on montre que E(X) = n p (résultat indépendant de N) et Var ( X) = np(1 − p)

a f = a1 + xf a1 + xf

∀x ∈ R , 1 + x

N

Np

N ( 1− p )

N

⇒ ∑ C kN = k =0

C nN =

∑C

FG ∑ C H

i + j= n

j N ( 1− p )

n

j= 0

n

C Nj (1− p ) = ∑ C kNp C nN−(1k− p ) , ce qui montre que

i Np

i Np

i=0

n

IJ FG ∑ C IJ . Considérons le terme en x KH K N ( 1− p )

Np

∑ p(X = k) = 1

k =0

k=0

c) Exemples Soit un jeu de 32 cartes (4 couleurs ♠, ♥, ♦, ♣, et 8 valeurs, As, R, D, V, 10, ..., 7), duquel on extrait simultanément 5 cartes, ce qu’on appelle une main. On s’intéresse au nombre ♦ de reçus dans les cinq cartes. Toutes les conditions seront remplies pour utiliser la loi hypergéométrique quand nous aurons supposé que les cinq cartes sont tirées au hasard, c’est-à-dire que toutes les mains possibles sont équiprobables. On a donc les paramètres N = 32, n = 5, et p = 0,25. (Cf. aussi l’exemple -I- 3°) page 3) 4°) Loi géométrique G(p) On considère la situation suivante : un événement a une probabilité de succès de p∈]0, 1[. On répète la même expérience jusqu’à obtention d’un succès, et on note X le nombre d’expériences effectuées. Par exemple les shadoks (feuilleton TV des années 1960) avaient une chance sur 100 de réussir leur expérience, alors ils essayaient jusqu’au succès. N’ayant aucune connaissance de probabilités, ils se dépêchaient de rater les 99 premières afin de réussir à coup sûr la 100ème . Exercice : avaient-ils raison ?

Plus sérieusement, cette loi est utilisée dans le domaine de la sécurité. Pour tester la solidité d’un matériel, on le soumet à des chocs, ou à des surtensions si c’est un matériel électronique, et on compte le nombre de chocs avant rupture. La variable X (variable géométrique de paramètre p est définie ∀n ∈ N * p( X = n) = p(1 − p) n −1 où p∈]0, 1[. En effet, pour avoir le premier succès (probabilité p) à la nème expérience, il faut avoir raté les n−1 précédentes (chacune de probabilité 1−p). Toutes les probabilités sont positives, mais on doit quand même vérifier que la somme des probabilités est égale à 1. On peut faire la remarque que si une somme de réels positifs est égale à 1, tous ces réels sont compris entre 0 et 1.

∑ p( X = n) = ∑ p(1 − p) n ∈N

*

n ∈N

n −1

=p

*

∑ (1 − p) n ∈N

*

n −1

=

p 1 − (1 − p )

=1

(somme d’une série géométrique).

Calculons maintenant l’espérance, si elle existe. En utilisant le cours sur les séries entières, on peut montrer les résultats suivants : ∀x ∈] − 1,+1[ f ( x) = ∑ x n = n ∈N

1 1− x

, f ' ( x ) = ∑ n x n −1 = n ∈N

1 (1 − x)

2

et f " ( x) =

∑ n ( n − 1) x

n ∈N

n −1

=

*

2 (1 − x) 3

.

On a donc, avec x = 1 − p, E ( X) =

∑ np(1 − p)

n ∈N

Var ( X) =

*

n −1

= p ∑ n(1 − p) n −1 = p

∑ n 2 p(1 − p)

n ∈N

*

n ∈N

n −1

−

*

1 p

2

=p

1

a1 − (1 − p)f

∑ n( n − 1)(1 − p)

n ∈N

*

n −1

2

+p

=

1 p

∑ n(1 − p)

n ∈N

*

n −1

−

1 p

2

=

2 p(1 − p) p

3

+

1 p

−

1 p

2

=

1− p p2

5°) Loi de Poisson P(λ) a) Définition Soit une variable binomiale B(n,p) avec np = λ > 0, et étudions le cas où n tend vers l’infini, ce qui implique, avec λ constant, que p tende vers 0. Il s’agit donc, pour n assez grand, de répéter un grand page 20

UV SQ 20

nombre de fois une même expérience de probabilité faible. Pour k∈N on a : lim p ( X = k ) = lim n →∞

n →∞

F λI H nK

k

n −λ

car lim 1 − n →∞

F λ I F1 − λ I k ! ( n − k )! H n K H nK n!

= e , lim

n−k

n( n − 1)K ( n − k + 1) n

n →∞

λ

k

=

k

lim

n ( n − 1)K ( n − k + 1)

k ! n →∞

n

k

F λI H nK

n

−k

λ e k

=

−λ

k!

−k

= 1 et lim 1 − n →∞

F1 − λ I F1 − λ I H nK H nK

=1

On définit ainsi la loi de Poisson P(λ) par son support X(Ω) = N et sa distribution p( X = k ) =

λk e − λ . k!

C’est une des manières de définir la loi de Poisson, mais elle n’est pas entièrement satisfaisante car c’est une limite quand n tend vers l’infini. En fait il y en a d’autres, sans limites, que nous étudierons ultérieurement. Les impatients pourront consulter la partie relative aux relations entre variables aléatoires à la page 67.

b) Propriétés Comme pour toutes les lois, il est recommandé de vérifier que la probabilité totale est égale à 1. Pour ce faire, on utilise les résultats sur les séries entières : On sait que ∀x ∈ R, ∑ n ∈N

xn n!

= e x , donc ∑ p( X = n) = ∑ n ∈N

n ∈N

λn e − λ n!

= e−λ eλ = 1

A partir de ce même résultat sur les séries, on peut aisément calculer l’espérance et la variance : E ( X) = ∑ n

λn e − λ n!

n ∈N

= λ2 ∑ n≥2

n−2

λ

e

= λ∑ n ∈N

λn −1 e − λ ( n − 1)!

= λ et Var ( X) = ∑ n( n − 1) n≥2

λn e

−λ

n!

+∑n n ∈N

λn e − λ n!

− λ2

−λ

( n − 2)!

+ E ( X) − λ2 = λ2 − λ − λ2 = λ

On remarque que cette loi est caractérisée par l’égalité de l’espérance et de la variance, qu’on retrouve en faisant tendre n vers l’infini, np restant constant, dans la loi binomiale. c) Exemples Dans la pratique, il n’est pas question d’attendre une situation où n est infini pour approcher la loi binomiale par la loi de Poisson. En prenant les cas où n ≥ 30, p < 0,1 et np ≤ 5, les résultats sont assez proches avec les deux lois pour que l’approximation soit convenable. On peut comparer les résultats en traitant l’exercice suivant : Une expérience a une probabilité 0,08 de réussir. On la répète n fois et on note X le nombre de succès. Etudier la loi de X, et déterminer son espérance et sa variance. On décide maintenant d'effectuer 50 fois l'expérience. Déterminer la loi de X, et la probabilité d'avoir k succès pour k entier entre 0 et 5. Refaire les calculs avec une approximation binomiale et comparer les résultats. Réponses : X suit une loi binomiale, l’expérience étant répétée n fois dans les mêmes conditions En comparant, pour n = 50, les résultats avec la loi binomiale et la loi de Poisson, on obtient le tableau suivant Et on se rend compte que les résultats sont assez prok= 0 1 2 3 4 5 ches pour pouvoir, dans la pratique, utiliser cette approxibinomiale 0,0155 0,0672 0,1433 0,1993 0,2037 0,1629 mation. Poisson 0,0183 0,0733 0,1465 0,1954 0,1954 0,1563

6°) Relations entre les lois : Pour des raisons pratiques, on approche assez souvent une loi par une autre, dans le but, les mathématiciens sont paresseux, de simplifier les calculs. Il est d’ailleurs plus facile de manipuler les lois ayant peu de paramètres. Les approximations doivent répondre à certains critères pour être acceptables. Tout d’abord, on approche une loi par une autre de même espérance, ou au moins ayant une espérance proche. Ensuite, pour le calcul des probabilités, il est inutile en général d’avoir plus de deux ou trois chiffres significatifs. On compare donc les probabilités des deux distributions, pour construire des règles d’approximation, comme dans le paragraphe précédent. C’est ainsi que si N est grand par rapport à n (à partir de N ≥ 100 n) dans H(N, n, p) remettre ou non page 21

SQ-20 Probabilités - Statistiques

les objets après chaque tirage n’a pas vraiment d’importance et on peut remplacer la loi hypergéométrique par une loi binomiale. Par exemple, un prélèvement entre Audierne et la pointe de la Torche (15 kilomètres de plage) de vingt grains de sable pour compter ceux de diamètre inférieur à un millimètre sera fait indifféremment avec ou sans remise. Par contre, compter le nombre d’objets défectueux parmi dix prélevés simultanément dans une production de 30 unités, fournira des résultats sensiblement différents avec les lois binomiale et hypergéométrique. Dans la pratique, on utilise les approximations suivantes : N ≥ 10 n

Loi H(N, n, p)

Loi B(n, p)

n ≥ 30, p ≤ 0,1 et np ≤ 5

Loi de Poisson P(λ = n p)

-IV- Couples de v.a. a) Définition Considérons maintenant deux variables aléatoires X et Y définies sur le même espace probabilisé (Ω, A , p). A tout élément ω∈Ω on associe le couple (X(ω),Y(ω))∈ R². Dans ce chapitre nous n’étudierons que le cas où les deux variables sont discrètes, et par conséquent l’ensemble X(Ω)×Y(Ω) est discret, fini ou dénombrable. La distribution du couple (X, Y) est définie naturellement par p((X , Y)=(x , y)) = p((X=x)∩(Y=y)). On peut représenter cette distribution de probabiliX/Y yl y2 …… yp …… p(X = ) té sous la forme d’un tableau, comme ci-contre, ou . dans un repère cartésien, où on affecte au point de x1 p11 p12 coordonnées (xn, yp) la probabilité pnp. x2 p21 Il est possible de connaître les distributions de X et de Y connaissant la distribution du couple (X, Y) xn pnp avec les distributions marginales par : p( X = x n ) = ∑ p ( X, Y) = ( x n , y k ) et de même p(Y = ) 1 k

b

g

d

i

pour Y p(Y = y p ) = ∑ p ( X, Y) = ( x k , y p ) . k

Cette terminologie vient du vocabulaire des comptables, qui, en vérifiant les tableaux de chiffres, effectuaient les totaux en lignes, qu’ils inscrivaient dans la marge droite, puis en colonnes, et enfin le total de la dernière colonne qui devait correspondre avec le total de la dernière ligne. Dans le cas du tableau ci-dessus, le total de la dernière colonne (marge droite) est la probabilité totale, c’est-à-dire 1.

b) Indépendance : Comme ont été définies les lois marginales on peut définir les lois conditionnelles. Étant donné k∈N* tel que p(Y = yk ) ≠ 0, on définit la loi de X sachant (Y = yk) par les probabilités p ( X, y) = ( x n , y k ) et de même pour Y. conditionnelles p( X = x n | Y = y k ) = p( Y = y k ) En utilisant l’indépendance introduite page 7 on a la définition : X et Y sont indépendantes si et seu2 lement si ∀( n, p) ∈ N * p( X = x n ∩ Y = y p ) = p( X = x n ) p(Y = y p ) .

b

g

Il a été remarqué plus haut qu’à partir de la distribution du couple, on peut reconstruire les distributions de X et de Y. L’inverse n’est généralement pas possible, sauf si on connaît une relation entre X et Y, par exemple l’indépendance. Dans ce cas, on remarque que les colonnes du tableau sont proportionnelles, ainsi que les lignes, ce qui permet de voir rapidement si les variables sont indépendantes ou non.

-V- Sommes de variables aléatoires page 22

UV SQ 20

a) Définition Avec les mêmes hypothèses que pour les paragraphes précédentes on définit la variable aléatoire Z, somme de X et de Y par Z = X + Y, avec la distribution ∀z ∈ R , p( Z = z) = ∑ p ( X, Y) = ( x n , y p ) . xn +yp =z

n

d

i

s

Les variables étant discrètes, le support de Z est l’ensemble E Z = x n + y p , n ∈ N * , p ∈ N * . Si on représente le couple (X, Y) dans un repère cartésien, à toute valeur de z, on associe la droite s’équation x + y = z, et on somme les probabilités des points situés sur cette droite.

b) Exemples Le lancer de deux dés fournit deux résultats X et Y compris entre 1 et 6, et la somme Z est une variable à valeurs dans {2, …, 12}. Si les distributions de X et de Y sont uniformes (et indépendantes) avec des dés équilibrés, celle de Z ne l’est pas. Il est facile de voir que 1 1 p( Z = 2) = alors que p( Z = 7) = . Le nombre 36 de pannes dans un système 6 pendant un intervalle donné suit souvent une loi de Poisson. Si on considère deux types de pannes, par exemple X le nombre de pannes électriques et Y le nombre de pannes mécaniques, on peut étudier le nombre total Z = X + Y. Si X et Y sont des variables de Poisson indépendantes de paramètres respectifs λ et μ, on a Z qui suit aussi une loi de Poisson, mais de paramètre λ + μ. En effet : x+ y=z

=

e

−( λ+μ)

z!

z!

z

z

z

x=0

x=0

∑ p( ( X , Y ) = ( x , y ) ) = ∑ p ( X = x ) p ( Y = z − x ) = ∑

∀z ∈ N , p( Z = z) =

∑ x !( z − x)! λ μ x

z−x

=

e

− ( λ +μ )

(λ + μ)

λe x

−λ

μ

z− x

e

−μ

x ! ( z − x )!

z

z!

x=0

c) Stabilité : A la lumière des deux exemples précédents, on peut se poser la question de la nature de la loi de Z connaissant celles de X et de Y. On dira qu’une loi est stable par addition si X, Y et Z sont de même nature, éventuellement avec des paramètres différents. On montre, et ce sera étudié dans les exercices à la fin de ce chapitre que les lois uniformes, géométriques ne sont pas stables alors que les lois binomiales indépendantes de même paramètre p, les lois de Poisson indépendantes (voir ci-dessus) sont stables. En particulier, si X est B(n,p) et Y B(m,p) indépendantes, alors Z = X + Y est B(n+m , p). d) Espérances et variances Au cours de la partie statistique, les sommes de deux ou plusieurs variables seront utilisées abondamment, et il est utile de connaître les relations entre les espérances et variances et celles de la somme, pour éviter de refaire tous les calculs. Avec les mêmes notations, en supposant que les espérances existent on a : E ( X + Y) =

∑ ∑ (x *

n ∈N p ∈N

=

∑ x p( X = x n

n ∈N

*

n

n

b

g

+ y p ) p ( X, Y) = ( x n , y p ) =

*

)+

∑ x ∑ pb( X, Y) = ( x n

n ∈N

∑ y p(Y = y p

p ∈N

p

*

p ∈N

*

n

g

, yp ) +

∑ y ∑ pb ( X , Y ) = ( x p

p ∈N

*

n ∈N

*

n

, yp )

g

) = E ( X) + E ( Y)

*

En utilisant aussi le paragraphe -II- 4°) page 18, on en déduit que l’espérance est un opérateur linéaire sur les variables aléatoires. Cette relation est valable dans tous les cas, même si les variables ne sont pas indépendantes. En ce qui concerne la variance, on n’a pas toujours une relation analogue. Par contre, si X et Y sont indépendantes, on a Var(X + Y) = Var(X) + Var(Y).

-VI- Exercices page 23

SQ-20 Probabilités - Statistiques

1°) Soit une variable aléatoire X qui prend les valeurs entières entre 0 et 10 avec les probabilités : p( X = k ) = p k = a (10 − k ) k . Déterminer a pour que p soit une probabilité. Calculer E(X) et Var(X). 2°) Dans une urne il y a n boules numérotées de 0 à n−1. On tire l’une après l’autre, avec remise, 3 boules et on note X le plus petit numéro et Y le plus grand numéro. a) Définir l’espace probabilisé. Quelles sont les valeurs possibles de X et de Y. b) Pour x entier convenable, calculer les probabilité p(X < x) et p(Y < y). c) En déduire les probabilités p(X = x) et p(Y = y). (corrigé page 70) d) Calculer E(X) et Var(X) dans le cas où n=10. 3°) Soit X1, X2, ..., Xn des v. a. indépendantes de même loi telle que E(X) = 15 et Var(X)= 12. a) Déterminer les espérances et les variances des lois suivantes : n 1 n Y1 = 10X1 , Y2 = ∑ X k , Y3 = αX1 + βX 2 avec (α , β) ∈ R 2 , Y4 = ∑ X k n k =1 k =1 b) Peut-on trouver une loi binomiale correspondant à ces données (espérance = 15, variance = 12) ? 4°) Un objet vendu sur le marché peut contenir, avec la même probabilité de 0 à 3 défauts. La valeur marchande de l’objet (en €) est égale à Y = 10 − X², où X est le nombre de défauts. Des étiquettes d’un Euro sont collées sur chaque objet pour en indiquer la valeur. a) Quel est le prix moyen des objets ? b) Quelle est la probabilité qu’une étiquette prise au hasard soit collée sur un objet ayant 2 défauts ? 5°) Un télé‫ ص‬cripteur transmet 2 000 caractères par minute. On estime à 1/1 000 la proba 笔 lité d’erreur sur un quelconque de ces caractères. a) On appelle X le nombre d’erreurs commises pendant une minute. Etudier la loi de X. b) Déterminer la probabilité d’avoir moins de 5 erreurs dans un message de trois minutes. 6°) Un représentant R fait du porte à porte pour distribuer des échantillons de nourriture pour chiens. Il laisse un échantillon (une boîte) si on répond à la porte (probabilité 0,75) et si il y a un chien dans la maison (probabilité 0,4). On suppose que les événements « la porte s’ouvre » et « il y a un chien » sont indépendants. a) Calculer la probabilité qu’il donne son premier échantillon à la troisième porte. b) - - - - - deuxième échantillon à la cinquième porte. c) Sachant qu’il a donné deux échantillons à ses huit premiers essais, quelle est la probabilité qu’il donne son cinquième échantillon à la onzième porte ? d) Sachant qu’il n’a pas encore donné son deuxième échantillon à la deuxième porte, calculer la probabilité qu’il le donne à la cinquième porte. e) Le représentant doit rechercher d’autres boîtes après avoir épuisé son stock. S’il part avec deux boîtes, quelle est la probabilité qu’il assure au moins cinq portes avant de refaire son stock ? 7°) Une entreprise pharmaceutique produit en grande série des tubes de comprimés d’acide acétylsalicylique dans trois usines A, B et C qui se partagent la production à raison de 30% pour A et 20% pour B. La production, pour chacune des usines se répartit en deux catégories : le marché intérieur (60% pour A, 10% pour B et 40% pour C) et le marché international. a) On prend un tube au hasard dans la production, déterminer les probabilités des événements : E1 : Il est destiné au marché intérieur, E2 : Il vient de A sachant qu’il est destiné à l’international. b) On contrôle 5 tubes dans A et on note X le nombre de ceux destinés à la France. Etudier la loi de X, et calculer p(X > 3). c) Le tubes produits en A ont une probabilité de défaut (tube mal fermé, traces de chocs, ..) de 0,02 et sont empaquetés par caisses de 200 unités. Si Y est le nombre de tubes défectueux par caisse, étudier page 24

UV SQ 20

la loi de Y et calculer la probabilité d’avoir au maximum 5 tubes défectueux dans une caisse. 8°) Un chef d'entreprise, pour éviter l'attente des camions devant livrer, envisage, si nécessaire, de construire de nouveaux postes de déchargement. Il y en a actuellement 5. On considère pour simplifier l'étude qu'il faut une demi-journée pour décharger un camion. Une enquête préalable sur 60 jours a montré les résultats suivants: 0 1 2 3 4 5 6 7 8 9 10 xi = nombre de camions ni = nb de demi-journées 2 10 18 22 23 19 12 7 4 2 1 a) Déterminer une loi de probabilité X représentant cette enquête. En calculer l'espérance et la variance. Comparer les probabilités à celles données par une loi de Poisson de même espérance. b) Quelle est la probabilité de n'avoir aucun camion en attente ? c) Combien faudrait-il de postes pour que cette probabilité soit supérieure à 0,95 ? d) On prévoit à l'avenir un doublement de la fréquence des livraisons. Combien faudrait-il de postes pour que la probabilité de n'avoir aucun camion en attente reste supérieure à 0,95 ? 9°) Une variable aléatoire X peut prendre les valeurs −1, 0 et +1 avec les probabilités a) Calculer E(X) et Var(X). b) Soit la v.a. Y liée à X par les relations : p Y = 0| X = −1 = 13 , p Y = 1| X = −1 = 23 , p Y = −1| X = 0 = 21

b g pbY = 1| X = 0g =

b

b

g

g

b

b

g

1 3

, 21 , 16 .

g

, p Y = −1| X = 1 = 41 , p Y = 0| X = 1 = 43 Déterminer, sous forme de tableau, la loi du couple (X, Y), puis la loi de Y. Calculer les espérances de X et de Y. Les variables X et Y sont-elles indépendantes ? 1 2

10°) Soit deux variables aléatoires X et Y, indépendantes et de même loi géométrique de paramètre p. Pour 0 < p < 1, on note U = inf ( X , Y). a) Calculer, pour k entier , p(U > k). b) En déduire p(U = k) et reconnaître la loi de U. Calculer E(U) et Var(U). 11°)

Soit X et Y deux lois indépendantes uniformes sur E = {1, 2, …,n}, et leur somme Z = X + Y . a) Déterminer l’ensemble F des valeurs possibles de Z, puis, pour z ∈ F , p( Z < z ) . b) En déduire la distribution de probabilité de Z, ainsi que E(Z) et Var(Z).

12°) Deux v. a. X et Y étant définies, le tableau ci-dessous donne la loi Y\X 1 2 3 4 de probabilité du couple (X, Y): 5 0,05 0,15 0,15 0,05 a) Déterminer les lois conditionnelles 7 0,1 0,15 0,05 0,1 b) Calculer E(X), E(Y), et comparer E(X)+E(Y) et E(X+Y) 9 0,15 0 0,03 0,02 c) Calculer Var(X) et Var(Y) ainsi que la covariance de X et Y d) Les variables aléatoires X et Y sont-elles indépendantes ? 13°) Le DRH d’une entreprise doit embaucher une personne pour un poste d’ingénieur. Il convoque les candidats pour un entretien, et il s’arrête quand il a trouvé une personne qui lui convient. Les candidats ont chacun une probabilité 0,2 de convenir. a) On note X le nombre de candidats ayant subi un entretien. Étudier la loi de X. b) Un candidat est le 5ème sur la liste, quelle est sa probabilité d’avoir le poste ? c) Un entretien dure une demi-heure et la séance commence à 8 heures. Quelle est la probabilité qu’elle soit terminée avant midi ? d) On considère maintenant que l’entreprise doit embaucher deux ingénieurs. La séance d’entretiens se déroule comme précédemment, mais s’arrête après le second candidat choisi. Si on note Y le nombre d’entretiens, déterminer E(Y) et calculer p(Y = 10).

page 25

SQ-20 Probabilités - Statistiques

14°) Un fabricant de cordes de montagne soumet des cordes de nylon de ∅ 12 mm à des essais du rupture (une charge de 80 kg est lâchée depuis une hauteur de 5 mètres). Le test consiste à répéter cet essai jusqu’à rupture de la corde et on suppose (ce qui dans la réalité n’est pas tout à fait exact) que la corde ne subit aucune modification si elle ne rompt pas. La probabilité que la corde casse au cours d’un essai est p = 0,09. Soit X la variable aléatoire : nombre d’essais avant rupture. a) Déterminer la loi de X, donner son espérance et sa variance. b) Calculer les probabilités p(X > 4 ), p(X est pair) et p(X > 6 | X > 4 ). Pour quelles valeurs de n a-ton p(X ≤ n ) ≥ 0,99 ? c) Après rupture de la corde on continue le test avec une deuxième corde identique à la première et on définit ainsi une seconde variable aléatoire Y de même loi. Si on pose Z = X + Y (Nombre d’essais avant la seconde rupture). Déterminer la distribution de probabilité de Z, ainsi que son espérance et sa variance. Calculer p(Z = 10) d) On considère un lot de 50 cordes de 12 mm et on définit la variable aléatoire N = nombre de cordes ayant rompu au cours du premier essai. Déterminer la loi de N et calculer p(N < 5). NB: Des essais pratiqués sur d'anciennes cordes de chanvre ont montré qu'elles cassent toutes au premier essai !

** Soit X et Y deux v.a. à valeurs dans N. X suit une loi de Poisson de paramètre λ. Si (X = n) est réalisé, Y suit une loi B (n, p). Étudier la loi de Y. (On remarquera que Y dépend de X, donc les lois ne sont pas indépendantes, et on pourra calculer les probabilités p(Y=0), p(Y=1) et éventuellement p(Y=3) et généraliser).

15°)

On peut interpréter ce problème de la manière suivante: Parmi les clients qui attendent à un guichet, dont le nombre suit une loi de Poisson, certains, avec une probabilité p sont des gros clients (dont le temps de traitement est plus long que la normale), et dont le nombre suit une loi binomiale. (corrigé page 71)

16°) Deux systèmes de contrôle I et II sont soumis à des pannes indépendantes. Les lois de probabilités du nombre de pannes (X pour I et Y pour II) sont données dans le tableau ci-dessous. Système I x = p(X = x) Système II y = p(Y = y) 0 0,07 0 0,10 1 0,35 1 0,20 2 0,34 2 0,50 3 0,18 3 0,17 4 0,06 4 0,03 a) Calculer les probabilités suivantes : • Le système II a au moins deux pannes par jour • Il y a plus de pannes dans le système I que dans le système II • Il y trois pannes dans la journée. b) L’équipe de techniciens ne peut réparer qu’un maximum de 5 pannes par jour. Au cours d’une période d’un mois (de 30 jours) on note N le nombre de jours où l’équipe de techniciens sera débordée. Etudier la loi de N, son espérance et sa variance et calculer p(N = 3 ). 17°) Un atome radioactif émet des particules α en nombre aléatoire. Soit X ce nombre pendant un intervalle de temps donné. Un observateur ne peut pas voir toutes les particules émises mais détecte chaque particule émise avec une probabilité p ∈]0, +1[. Soit Y le nombre de particules observées pendant le temps considéré. On suppose que X suit une loi de Poisson de paramètre λ. a) Quelle est la loi conditionnelle de Y sachant X = n. b) En déduire la loi du couple (X , Y). c) Montrer que Y suit une loi de Poisson de paramètre μ = λp. d) Soit Z = X − Y. Que représente Z, et quelle est sa loi ? e) Les variables Z et Y sont-elles indépendantes ? Et en ce qui concerne X et Y ?

page 26

UV SQ 20

Chap.3

Lois continues

-I- Définition Dans le chapitre précédent, nous avons étudié les variables aléatoires à valeurs discrètes, et nous allons considérer dans celui-ci des variables réelles pouvant prendre toutes les valeurs dans un intervalle d’intérieur non vide, ou une réunion de tels intervalles. Les cas les plus fréquents sont les variables telles que X(Ω) = R+ ou [a, b] avec a < b. C’est le cas par exemple du temps d’attente avant un événement (panne, gain au loto, …) ou d’une mesure (taille, masse, distance, intensité électrique, …). 1°) Loi absolument continue

-II- Lois usuelles

-III- Loi normale Cette loi a une importance telle qu’elle mérite qu’on lui accorde un paragraphe spécial. Pour les étudiants ayant une mémoire très limitée, ou qui ont une concentration pointillée en cours : Si on ne doit retenir qu’une seule variable aléatoire dans toutes celles qui sont étudiées, c’est la variable normale. Alors pour ceux qui ont chroniquement du sommeil en retard, ce n’est pas le bon moment pour faire une petite sieste dans l’amphi !

-IV-

Couples de v.a.

-V- Fonction d'une loi: 1°) Exemple, loi de Cauchy Soit X une variable uniforme sur un demi cercle de centre O, de rayon 1 et (D) la tangente verticale à ce demi cercle. Une demi droite d’origine O et d’angle X coupe D en un point M. On considère la vapage 27

SQ-20 Probabilités - Statistiques

riable Y = ordonnée de M. On cherche à déterminer la loi de Y. Soit f et g les densités de X et Y, F et G leurs fonctions de répartition. On a alors :

OP Q

X( Ω) = −

LM N

π π 1 , et donc f ( x) = 1O π π L ( x) π PQ − 2 , 2 MN 2 2

FG H

∀y ∈ R G ( y ) = p ( Y < y ) = p −

IJ FG K H

IJ K

π π 1 1 < X < Arc tan( y) = Arc tan( y) + et donc g( y) = G '( y) = π π(1 + y 2 ) 2 2

Cette densité définit la loi de Cauchy. Cette loi, qu’on retrouve dans quelques situations, a la particularité de ne pas avoir d’espérance (et évidemment pas de va∞ y dy riance) en effet son calcul mène à l’intégrale généralisée qui n’est pas 2 −∞ π (1 + y ) convergente.

XY Z

2°) Loi d’une fonction d’une v.a. : Soit X une v.a. réelle continue de densité f et de f.r. F. Exprimer à l’aide de f et F la densité gk et la f.r. Fk des Yk définies par : Y1 = aX + b (a > 0 , b ∈ R )

Y2 = X

Y3 = X 2

Y4 = ln X

-VI- Exercices α si x ≥ 0 et f ( x) = 0 si x < 0 . ( x + 2)3 a) Déterminer α pour que f soit effectivement une densité de probabilité. b) Calculer E(X) et p(X≤ E(X)) ainsi que la variance, si ces éléments existent.

1°) Soit X la variable aléatoire de densité: f ( x) =

2°) Soit un point choisi au hasard dans un triangle de base l et de hauteur h. On définit la variable X comme la distance du point à la base du triangle. Etudier la f. r. et la densité de X. 3°) Lois des extrêmes : Soit X1 , ..., X n des v.a. indépendantes de densité f et de f.r. F. On considère les v. a . S n = sup X i , 1 ≤ i ≤ n et I n = inf X i , 1 ≤ i ≤ n de densités g et h et de f.r. G et H.

b

g

b

g

a) Exprimer les événements (In ≥ y) et (Sn < z) au moyen des Xi . En déduire g, h G et H. b) Calculer les densités et les espérances des lois In et Sn dans les cas : (C1 ) X i de densité f ( x) = 2 − 2 x sur [0, 1] 0 sinon (C2 ) X i de densité uniforme sur [0, 1] c) Si les Xi sont des v.a. uniformes sur [0, +1], calculer les limites de E(Sn) et de E(In) en +∞. 4°) Soit la variable X définie par la densité f ( t ) =

c

a t2

1+ t2

h

2

1R + ( t ) .

a) Pour quelle valeur de a f est-elle une distribution de probabilité. Calculer E(X) et Var(X). b) On appelle médiane (ou deuxième quartile) le nombre me tel que p(X < me) = 0,5. En calculer une valeur approchée (en utilisant au besoin la calculatrice). page 28

UV SQ 20

c) On appelle mode (il n'est pas nécessairement unique) le nombre mm tel qu'en mm la densité de probabilité est maximale. A-t-on E(X) = me = mm ? 5°)

R| si x ≥ 0 , a (*) Soit la variable X dont la fonction de répartition est donnée par: F( x) = S1 − e |T0 si x < 0 −

x2 2a2

étant une constante positive. X suit alors une loi de Rayleigh. a) Déterminer sa densité de probabilité ainsi que son espérance. b) Calculer sa médiane Me (définie par p(X < Me) = 0,5) et son mode (valeur pour laquelle la densité est maximale). c) Application (avec incursion dans le programme de MT 25) : Une cible est centrée sur l’origine r r d’un repère O, i , j orthonormé. Une fléchette est lancée sur cette cible, et on suppose que les coor-

d

i

données d’impact X et Y suivent des lois normales centrées réduites indépendantes. Déterminer la fonction de répartition H(d) et la densité h(d), de la variable aléatoire Z = distance du point d’impact au centre. 6°) On prend au hasard un point M à l’intérieur d'un quart de cercle trigonométrique, et on note Z = ( X , Y), où X et Y sont les coordonnées de M. a) En supposant la distribution uniforme, déterminer la densité h(x , y) de Z. b) Déterminer les fonctions de répartitions F et G et les densités f(x) et g(y) des lois marginales. c) Etudier les lois conditionnelles Y | X = x, pour x ∈ [0,+1] et X | Y = y pour y ∈ [0,+1]. d) X et Y sont-elles indépendantes ? 7°) Soit X une variable exponentielle de paramètre λ . Déterminer la loi de probabilité de la variable Y = Ent(X+1) c’est-à-dire la partie entière de X+1. a) Déterminer, pour k ∈ N* , p(Y = k). En déduire la nature de la loi de X b) En calculer l’espérance. 8°) La durée de vie, en semaines, d'un composant électronique définit une variable aléatoire exponentielle X. On a constaté que 95,12 % des composants étaient encore en état de marche au bout de 25 semaines. a) Montrer que cette constatation permet de fixer à 0,002 le paramètre λ de cette loi. b) Calculer l'espérance de cette loi. (Remarque: en fiabilité cette espérance est appelée M.T.B.F. ou Moyenne des Temps de Bon Fonctionnement, ou Mean Time Before Failure)

c) Quelle est la probabilité, pour un de ces composants d'être en état de marche au bout de 100 semaines. d) Sachant qu'un composant a bien fonctionné pendant 100 semaines, quelle est la probabilité qu'il soit encore en fonctionnement au bout de 200 semaines. e) On construit un appareil avec 10 de ces composants montés en série. Le temps de bon fonctionnement, en semaines, de l'appareil est une nouvelle v.a. Y. Déterminer p(Y ≥ 50). 9°) Un test de production normalisé utilise une variable N(150,σ=36) a) Dresser la représentation graphique de la densité. b) Dessiner chacune des probabilités par une surface sous la courbe de densité, et calculer les probabilités que les résultats • Soient plus petits que 140 • Soient plus grands que 175 • Soient plus petits que 200 et plus grands que 130. • Soient compris entre 114 et 190. c) Déterminer le premier décile et expliquer ce qu’il signifie. page 29

SQ-20 Probabilités - Statistiques

d) Le test de production est appliqué à 49 personnes indépendantes. Quelle est la probabilité d’observer une valeur moyenne inférieure à 140. Comparer ce résultat avec celui du b) 1 . Comment expliquer la différence ? 10°) Un laboratoire fabrique des pilules se composant de deux substances A et B. Pour chaque pilule on considère les masses X et Y des substances A et B. On suppose que X et Y sont des variables normales indépendantes N(Mx= 8,55, σX= 0,05) et N(MY = 5,20, σY = 0,05). a) On impose une normes de fabrication 8,45 < x < 8,70 et 5,07< y < 5,33. Déterminer le pourcentage de pilules qui sont hors norme. b) Peut-on retenir ce procédé de fabrication, sachant que le pourcentage de pilules défectueuses ne peut dépasser 1 % ? 11°) Une machine fabrique des lentilles pour systèmes optiques dont le diamètre est une variable aléatoire D normale d'espérance 32 et d'écart type 0,8 (unité 1 mm). a) Les lentilles sont refusées si leur diamètre est inférieur à 30,5 ou si il est supérieur à 33 mm. Déterminer le pourcentage de rebut dans la fabrication. b) Les meilleurs lentilles, c'est à dire les 20% les plus proches de la moyenne sont réservées à l'industrie photographique. Dans quel intervalle leur diamètres est-il situé c) ?La machine est déclarée bien réglée si la probabilité d'avoir des pièces de diamètre supérieur à 34,3 mm est inLa recette du plat de lentilles férieure à 0,04. La machine est-elle bien réglée ? d) Une pièce étant prélevée au hasard parmi celles qui ne sont pas refusées, avec quelle probabilité son diamètre est-il compris entre 31,5 et 32,5 mm ? Soit X une variable normale d'espérance 100 et de variance σ² = 16. a) Déterminer les quartiles de cette loi, c'est à dire les nombres a, b et c tels que: p(X0. Déterminer la loi de Y. e) Application numérique: Une voiture a une crevaison en moyenne tous les 20 000 kilomètres. On prévoit un voyage de 50 000 kilomètres. Quelle est la probabilité de pouvoir faire le voyage avec la seule roue de secours ? Combien doit-on emporter de roues de rechange (en plus de la roue de secours) pour pouvoir terminer le voyage avec une probabilité supérieure à 0,95 ?

page 32

UV SQ 20

Chap.4

Convergences

-I- Fonctions caractéristiques usuelles: 1°) La variable aléatoire discrète X prend les valeurs 0, 1 et 2 avec les probabilités 0,5 , 0,25 et 0,25. Calculer la fonction caractéristique ϕX(t), puis les valeurs ϕ X (0) , ϕ ' X ( 0) et ϕ"X (0) . En déduire l’espérance et la variance de X. 2°) On rappelle que la loi de Pascal (loi géométrique) de paramètre p est définie de la manière suivante: on répète une expérience menant à un succès (probabilité p) ou à un échec dans les mêmes conditions jusqu’à obtention d’un succès. On note X le nombre d’expériences nécessaires. a) Déterminer la distribution de probabilité de X. b) Déterminer sa fonction caractéristique et en déduire l’espérance et la variance. 3°) Soit X une v.a. de Poisson P (λ) de paramètre λ > 0. a) Ecrire la fonction caractéristique de X. b) En déduire la fonction caractéristique ϕY(t) de la v.a. Y définie par: Y =

X−λ . λ

c) Etudier la limite de ϕY(t) quand λ tend vers l'infini.

-II- Inégalités 1°) Au cours d'une épreuve un événement a une probabilité 0,2 de se réaliser. a) On effectue n épreuves indépendantes. Si X est le nombre de fois où l'événement se réalise, déterminer la loi de X, son espérance et sa variance. b) Montrer que par la loi de X (pour n=100) p(15 ≤ X ≤ 25) est égale à 0,832 à 0,001 près Calculer cette même probabilité: 1. par l'inégalité de Bienaymé-Tchebitcheff 2. en approchant la loi de X par une variable normale. c) Calculer, pour n = 1 000, p(170 ≤ X ≤ 230) en utilisant les méthodes 1 et 2 du b).

-III- Convergences en probabilité, en loi: Les exercices de ce paragraphe étant plus difficiles, on les réservera aux mathématiciens de compétition. Les esprits plus faibles pourront les regarder d'un air méprisant et passer au paragraphe suivant.

1°) Soit la variable aléatoire Xn à valeurs dans {−n, −n+1, . . . , n} définie par sa distribution: 1 1 p X n = 0 = 1 − et ∀k ∈ X n (Ω) \ 0 , p X n = k = 2 . n 2n a) Représenter graphiquement cette distribution pour n = 5 ainsi que sa fonction de répartition. b) Calculer E(Xn ) et Var(Xn) .

b

g

lq b

g

c) Etudier la convergence en probabilité de la suite (Xn). d)

-

-

-

-

-

-

-

loi

-

-

-

-

-. page 33

SQ-20 Probabilités - Statistiques

2°) Soit X une v. a. exponentielle de paramètre λ>0. a) Déterminer la fonction de répartition G2, puis la densité g2 de Y2 = X . n

b) Généraliser à la variable aléatoire définie par Yn = X . On note Gn et gn les f.r. et densité de Yn. c) Étude des convergences en loi et en probabilité de Yn.

c

h

• Soit ε∈]0, 1[. Calculer ϕ(n) = p Yn − 1 > ε et lim ϕ ( n) . En déduire la convergence en probabilin →∞

té • Calculer lim G n ( y) pour y ∈]0, + ∞[ . En déduire la convergence en loi.

(corrigé page 71)

n →∞

Remarque: en cas de convergence vers une variable certaine, on démontre qu'on a équivalence entre convergence en probabilité et convergence en loi.

-IV- Théorème central limite: 1°) Soit (Xk) une suite de variables indépendantes suivant une loi de Poisson de paramètre λ = 1. a) Vers quoi converge en loi la suite Yn = n

b) En déduire lim

n→∞

∑ k =0

X1 + K + X n − n ? n

nke− n 1 = . k! 2

2°) On considère 50 v. a. continues de même loi, indépendantes, d'espérance 45 et d'écart type 5. a) A quelle loi peut-on assimiler la somme S de ces variables ? S c) A l'aide de quelle loi peut-on approximer approcher la loi de la variable aléatoire S = . 50 44 ≤ S ≤ 47 et S ≤ 47. Calculer les probabilités des événements: S ≥ 44 3°) On a mélangé 5 000 roulements d'une marque A avec 10 000 de la marque B. On prélève au hasard 150 roulements. a) Quelle est la probabilité pour que la proportion de roulements A soit comprise entre 30 et 35% ? b) Quelle est la probabilité pour que le nombre de roulements A soit compris entre 45 et 60 ? 4°) Au cours d’une expérience, un événement a une probabilité p de se produire. a) On note Xn le nombre de fois où cet événement se produit sur n expériences indépendantes. Déterminer la loi de Xn et ses paramètres. Avec p = 0,15 pour quelles valeurs de n∈N* a-t-on p(X = 0) ≤ 0,01 ? c) Pour n = 500 , en prenant p = 0,6, calculer p 285 < X n < 315 . Quel résultat obtiendrait-on avec l’inégalité de Bienaymé-Tchebychev ? r r 5°) (*) Une cible est centrée sur l’origine d’un repère O, i , j orthonormé. Une fléchette est lancée sur

b

g

d

i

cette cible, et on suppose que les coordonnées d’impact X et Y suivent des lois normales centrées réduites indépendantes. Soit la variable aléatoire Z = distance du point d’impact au centre.

R|1 − e si z ≥ 0 H ( z) = S . |T0 si z < 0 −

a) Montrer que, si H est la fonction de répartition de Z, on a

z2 2

b) En déduire la densité h de Z, puis calculer E(Z) et Var(Z). (Cf. exercice Chap.3 -VI- 5°) page 29) c) On lance 150 flèches sur la cible (les lancers sont indépendants), et on note M = distance moyenne des impacts au centre de la cible. Déterminer la loi qui approche celle de M. page 34

UV SQ 20

d) Calculer les probabilités des événements : (M < 0,7), (0 . 8 < M < 1). Pour quel intervalle I centré sur l’espérance aura-t-on p(M ∈ I ) = 0,9 ? Pour des compléments sur les jeux de fléchettes, consulter le médian de novembre 2003. De même, si vous n’avez pas trouvé l’espérance et la variance de Z, vous pouvez utiliser les réponses E( Z) = π et Var ( Z) = 4 − π 2

2

-V- Convergences usuelles: 1°) Une usine fabrique des pièces en grande série en deux phases indépendantes. La première phase est susceptible de donner un défaut A avec une probabilité 0,02, et la deuxième un défaut B avec une probabilité 0,08. a) Calculer les probabilités pour qu'une même pièce tirée au hasard: • présente les deux défauts • ne présente aucun des 2 défauts • présente un seul des deux défauts • présente au moins un des défauts b) On prélève au hasard 200 pièces dans la production et on note X le nombre de pièces présentant le défaut A. Calculer: p(X = 0), p(X = 1), p(X = 10), p(X ≥ 3) Pour quelle valeur de k la probabilité p(X = k) est-elle maximale ? c) On prélève au hasard 300 pièces et on note Y le nombre de pièces présentant le défaut B. Calculer: p(Y < 24), p(20 < Y < 35), p(Y < 30⏐Y > 24) 2°) Fabrication de bouteilles: On fabrique deux types de bouteilles de masses 250 g et 1 kg destinées à recevoir des produits toxiques. La pâte de verre en fusion servant à mouler ces bouteilles contient des résidus solides appelés pierres dont la présence dans une bouteille la rend inutilisable (plus fragile et d'étanchéité approximative). On a remarqué que 100 kg de pâte en fusion contiennent en moyenne 30 pierres. Déterminer le pourcentage de rebut de la fabrication pour chacun des types de bouteille. 3°) Un fabricant de cordes de montagne soumet des cordes de nylon de ∅ 12 mm à des essais du rupture (une charge de 80 kg est lâchée depuis une hauteur de 5 mètres). Le test consiste à répéter cet essai jusqu’à rupture de la corde et on suppose (ce qui dans la réalité n’est pas tout à fait exact) que la corde ne subit aucune modification si elle ne rompt pas. La probabilité que la corde casse au cours d’un essai est p = 0,09. Soit X la variable aléatoire : nombre d’essais avant rupture. a) Déterminer la loi de X, donner son espérance et sa variance. b) Après rupture de la corde on continue le test avec une deuxième corde identique à la première et on définit ainsi une seconde variable aléatoire Y de même loi. Si on pose Z = X + Y (Nombre d’essais avant la seconde rupture). Déterminer la distribution de probabilité de Z, ainsi que son espérance et sa variance. c) On considère un lot de 50 cordes de 12 mm et on définit la variable aléatoire N = nombre de cordes ayant rompu au cours du premier essai. Déterminer la loi de N et calculer p(N < 5). NB: Des essais pratiqués sur d'anciennes cordes de chanvre ont montré qu'elles cassent toutes au premier essai !

4°) On considère une variable aléatoire X de densité f ( x) = a) Montrer que ∀n∈N , on a I n = Γ( n + 1) =

z

∞

0

RSα x e si x ≥ 0 . T0 si x < 0 3 −x

x n e − x dx = n! .

b) En déduire la valeur de α pour que f soit une densité de probabilité. c) Calculer l’espérance et la variance de X (si toutefois elles existent). page 35

SQ-20 Probabilités - Statistiques

d) Calculer les probabilités de l’événement : p(X 950 et p N 150 ≥ 5 . 6°) L’énergie d’une particule d’un système est une v. a. X de densité f ( x) =

RS2e T0

−2 x

si x > 0

sinon

. L’énergie

totale est la somme des énergies des particules, supposées indépendantes. a) Si il y a 1 600 particules dans le système, déterminer la probabilité qu’il y ait entre 780 et 840 unités d’énergie dans le système. b) Quel est le nombre maximum de particules que le système doit contenir pour que l’énergie totale soit inférieure à 440 unités avec une probabilité supérieure à 0,975 ? c) Une particule s’échappe du système si son énergie dépasse (ln 50)/2 unités. Si le système contient à l’origine 200 particules, quelle est la probabilité qu’au moins 8 particules s’échappent ?

-VI- Pour les linguistes 1°) A certain town has a Saturday night picture audience of 600 who must choose between two comparable cinemas. Assume that the pictures-going public is composed of 300 couples, each of which independently flips a fair coin to decide which cinema to patronize. a) Using a central limit theorem approximation, determine how many seats each cinema must have so that the probability of exactly one cinema running out of seats is less than 0,1. b) Repeat, assuming that each of the 600 customers make an independent decision, instead of acting in pairs. 2°) Consider the number of 3s which result from 600 tosses of a fair six-sided die. a) Determine the probability that there are exactly 100 3s, using a form of Stirling's approximation for n ! which is very accurate for these values, n ! ≈ e − n n n 2π n . b) Use the Poisson approximation to the binomial Probability Mass Function (PMF) to obtain the probability that there are exactly 100 3s. c) Repeat part (b), using the central limit theorem intelligently. d) Use the Chebyshev inequality to find a lower bound on the probability that the number of 3s is: page 36

UV SQ 20

• between 97 and 103 inclusive, • between 90 and 110 inclusive, and between 60 and 140 inclusive. e) Repeat part (d), using the central limit theorem and employing the DeMoivre-Laplace result when it appears relevant. Compare your answers with those obtained above, and comment.

page 37

SQ-20 Probabilités - Statistiques

Chap.5

Echantillonnage

-I- Statistiques sur un échantillon: 1°) Position du problème Jusqu’à présent, nous avons considéré que les lois de probabilité utilisées étaient connues, ainsi que leurs paramètres. Dans la réalité, un phénomène aléatoire étant étudié, on a généralement une idée assez précise de la loi de probabilité sous-jacente, mais on n’en connaît pas les paramètres. Par exemple, dans un sondage précédent des élections, l’opinion d’un électeur (qu’on réduit à l’alternative Oui / Non) est régie par une variable de Bernoulli B(1, p), où p est la probabilité de répondre Oui à la question. Le problème est la détermination du paramètre inconnu p. S’il était connu, il ne serait pas nécessaire de faire un sondage.

Pour la détermination d’un paramètre inconnu, on peut procéder par étude exhaustive, c’est-à-dire mesurer toute la population, ou par sondage en n’en choisissant qu’une partie, un échantillon. L’étude exhaustive a l’avantage de fournir une donnée exacte dans le cas d’une population finie, mais l’inconvénient d’être trop longue, de coûter trop cher ou de détruire la population. Prenons l’exemple de l’étude de la résistance à la surtension d’une ampoule électrique. On soumet l’ampoule à des tensions de plus en plus fortes jusqu’à ce que le filament fonde, et rende ainsi l’ampoule définitivement inutilisable. Une telle méthode sur la totalité de la production aurait pour effet de la détruire complètement, ce qui du point de vue économique serait tout à fait désastreux. On peut trouver nombre d’exemples de ce type, qu’on appelle tests destructifs.

Dans le cas d’un sondage, il faut, avant l’étude, déterminer la taille de l’échantillon permettant d’avoir la précision souhaitée. Le bon sens laisse à penser que plus la taille est grande et meilleure sera la précision de la mesure, ce qui est en général le cas. 2°) Échantillons Soit une variable aléatoire X définie sur un espace probabilisé (Ω, A , p). Pour un entier n non nul, on appelle échantillon de taille n, ou n-échantillon, le n-uplet En = (X1, X2, …., Xn), où les Xk sont des variables (indépendantes ou non) de même loi que X. Une mesure étant faite sur une population, on obtient une observation en = (x1, …., xn), qui est un élément de Rn. Il convient de ne pas confondre l’échantillon, variable aléatoire sur Ωn, et son observation, vecteur de Rn. Par exemple, lors d’un sondage d’opinion sur 1000 personnes, les réponses possibles sont 0 ou 1 (d’accord, pas d’accord) et la variable X est une variable de Bernoulli B(1, p), où p est la proportion de personnes étant d’accord. On a alors l’échantillon (X1, …, X1000) où tous les Xk sont B(1,p) et l’observation (x1, …, x1000) où les xk sont des 0 ou des 1. Dans ce cas, la population globale étant assez grande (celle d’un pays généralement) les variables Xk sont indépendantes. Un deuxième exemple : on veut tester la conformité d’une petite production par rapport au cahier des charges. Si on s’intéresse à une mesure, supposée normale N(M, σ²), on étudie un échantillon En, de variables normales. Si la taille de l’échantillon n’est pas petite par rapport à la taille de la population, les variables ne seront pas indépendantes. Dans la pratique, la variance σ² est connue, et on ne teste que l’espérance M.

3°) Statistique Une fois choisi l’échantillon, il faut le traiter, par exemple pour déterminer une estimation d’un paramètre ou pour effectuer des tests. Soit un échantillon En = (X1, X2, …., Xn) défini sur (Ω, A , p)n, on définit une statistique sur En comme étant une fonction ϕ : (X1, X2, …., Xn) → Y = ϕ(X1, X2, …., Xn). On définit de même page 38

UV SQ 20

l’observation de la statistique y = ϕ(x1, x2, …., xn).

-II- Estimation ponctuelle: 1°) Définition Soit une variable aléatoire X définie sur un espace probabilisé (Ω, A , p), de paramètre θ, inconnu. On cherche à déterminer une valeur approchée de θ à l’aide d’un échantillon En et d’une statistique Tn sur cet échantillon. Après le prélèvement de l’échantillon, on aura donc une observation en. θ valeur réelle du paramètre, qui restera inconnue On a donc trois éléments : Tn (X1 ,K , X n ) estimateur du paramètre θ θ$ = T(x ,K , x ) estimation ponctuelle de θ 1

n

Le problème est de construire un estimateur qui donne une bonne (notion restant à définir) valeur de θ et, si possible, la meilleure possible. Il faut donc définir certaines propriétés d’un estimateur. 2°) Exemples d’estimateurs Les paramètres inconnus les plus courants sont l’espérance et la variance, si ces paramètres existent. On trouve aussi leurs dérivés, paramètres d’une loi de Poisson, d’une loi géométrique et d’une loi exponentielle, qui s’expriment simplement à partir de l’espérance. Il est donc utile de trouver des estimateurs pour ces paramètres, et, si possible, des estimateurs simples à calculer. 1 n ∑ X k , alors que n k =1

Pour l’espérance, on utilise la plupart du temps la moyenne T(X1 ,K , X n ) = X = pour la variance on peut utiliser la variance empirique T(X1 , K , X n ) =

c

h

2 1 n X k − X . Il reste bien sûr ∑ n k =1

à vérifier que ce sont des bons estimateurs.

-III- Propriétés des estimateurs 1°) Biais On dira que T est un estimateur sans biais de θ si E(T) existe et E(T) = θ. En d’autres termes, l’estimateur donne le bon résultat. Dans la littérature statistique, friande d’abréviations, on trouvera souvent e.s.b. pour estimateur sans biais. Par exemple, on veut mesurer la longeur L d’une barre d’acier, exprimée en centimètres. En effectuant plusieurs mesures, on obtiendra des longeurs proches de la longeur réelle et la moyenne T(x1, ..., xn) de toutes ces mesures donnera une estimation convenable de L. C’est du moins ce que dicte le bon sens. Si toutes les mesures sont données en centimètres, on pourra penser que l’estimateur T est sans biais. Par contre, si on se trompe d’outil et qu’on effectue les mesures avec un instrument gradué en pouces, on aura aussi une estimation, mais elle sera fausse, et on aura un estimateur biaisé. Cet exemple est certes caricatural, mais il donne une idée de la notion de biais.

Sinon T est un estimateur biaisé, et T − θ est le biais de l’estimateur T. Il est possible que le biais dépende de la taille de l’échantillon, et souvent qu’il diminue quand la taille n de l’échantillon augmente, on aura alors un estimateur asymptotiquement sans biais si on a lim E(T) − θ = 0 . Un n →∞

b

g

exemple sera traité un peu plus loin. 2°) Convergence page 39

SQ-20 Probabilités - Statistiques

Le problème a été évoqué en début de chapitre, est-on en droit de penser que la précision de l’estimation croît avec la taille de l’échantillon. Dans la réalité ce n’est pas toujours le cas. On dira que l’estimateur Tn est convergent si Tn ⎯proba ⎯ ⎯→ θ quand n tend vers l’infini, c’est à dire que

c

h

∀ε > 0 lim p Tn − θ > ε = 0 . n →∞

En utilisant l’inégalité de Bienaymé-Tchebychev, on montre facilement que si la variance de Tn tend vers 0 quand n tend vers l’infini, alors l’estimateur Tn est convergent. Cela ne signifie pas qu’il soit sans biais, mais qu’il est asymptotiquement sans biais. Dans le cas d’un estimateur convergent, la précision augmente avec n, et, dans la pratique, on choisira n pour avoir la précision souhaitée par la situation. On n’augmente donc pas la taille de l’échantillon sans avoir des contreparties. A la lumière de ces paragraphes, on doit donc choisir des estimateurs sans biais et convergents, et si on a le choix entre plusieurs, on utilise celui qui a la variance la plus petite. 3°) Estimateurs usuels a) Espérance Le langage courant en statistique mélange les notions de moyenne et d’espérance, ce qui est fâcheux du point de vue de la rigueur mathématique, mais qui ne pose pas de problème insurmontable dans la pratique. Cet amalgame vient de l’estimateur de l’espérance qui est presque toujours utilisé, c’est à dire la moyenne arithmétique. Soit une variable aléatoire X d’espérance M et la statistique moyenne arithmétique 1 n T X1 ,K , X n = X = ∑ X k . T est un estimateur sans biais de M et, si Var(X) existe et les Xk indépenn k =1 dantes, c’est un estimateur convergent. En effet :

b

g

E(T) =

1 n 1 n E( X k ) = ∑ M = M ∑ n k =1 n k =1

Var (T) =

1 n2

n

∑ Var ( X k ) = k =1

1 n2

n

(linéarité de l'espérance) , de plus, si Var(X) = σ 2 et les X k indépendantes

∑ σ2 = k =1

σ2 n

avec lim Var (T) = 0 n →∞

b) Variance Soit une variable X d’espérance M et de variance σ² et un échantillon En de variables indépendantes Xk de même loi que X. 1 n 2 Si M est connue, on a un estimateur de σ² : Σ 2 = ∑ X k − M qui est un estimateur sans biais. En n k =1 ce qui concerne sa convergence, nous laisserons son étude de côté, il faudrait faire des hypothèses sur les moments d’ordre 3 et 4, et ceci dépasserait le programme de cette U.V.

b

Dem.

E( Σ 2 ) =

c

h

c

g

h

c

h

1 n 1 n 1 n 2 2 2 − = − 2 + = E ( X M ) E ( X ) M E ( X ) M ∑ ∑ ∑ E( X2k ) − M 2 = σ 2 k k k n k =1 n k =1 n k =1

Dans le cas où M est inconnue, on l’estime par X , qui n’est plus une constante comme dans le cas précédent. Si on considère l’estimateur précédent modifié, il n’est plus sans biais, et il faut donc le rectifier. On a alors : 2 1 n E ( Σ '2 ) = E ∑ X k − X n k =1

FG H

c

h IJK

n −1 2 σ n Ce qui montre que cet estimateur est biaisé. On peut en construire un autre, cette fois ci sans biais, en =

page 40

UV SQ 20

c

h

2 1 n n Σ'2 = Xk − X . ∑ n −1 n − 1 k =1 On utilisera donc Σ² quand l’espérance est connue, et S² quand l’espérance est inconnue, estimée par la moyenne.

considérant S2 =

4°) Étude d’un exemple Soit une variable X uniforme continue sur l’intervalle [0, b] où b est un paramètre positif inconnu et un échantillon En de variables Xk indépendantes de même loi que X. b b2 On sait que E( X) = et que Var ( X) = 2 12 On peut considérer la situation suivante : le réservoir d’une voiture utilisée par plusieurs personnes d’une entreprise, a une contenance inconnue de b (litres). Pour déterminer une estimation de b, on fait le plein à chaque fois qu’on emprunte la voiture, sans connaître le contenu effectif (non vide) du réservoir d’essence. On constitue ainsi un échantillon indépendant de variables uniformes de même loi que X. On peut aussi traiter l’exercice -VI- 1°) page 45.

-IV- Vraisemblance d’un échantillon La situation de l’estimation est, relativement, confortable quand on connaît un estimateur pour un paramètre d’une loi. Dans le cas contraire il serait intéressant de connaître une méthode permettant de déterminer un estimateur, sans toutefois avoir la garantie que ce soit le meilleur possible. 1°) Vraisemblance d’un échantillon Avec les mêmes notations que précédemment, on considère un paramètre inconnu θ, un échantillon En et son observation en. a) Cas d’une variable discrète La probabilité d’avoir effectivement l’observation en dépend généralement de θ, et on peut supposer que, θ étant donné, cette probabilité sera très faible pour des observations aberrantes, et au contraire plus élevés pour des observations conformes à la réalité. Par exemple, on considère une pièce équilibrée (mais on ne le sait pas) et on la lance n fois en comptant la moyenne des « Pile (=1) ». Un échantillon donnant en moyenne 5% de Pile n’est pas improbable, même si sa probabilité est très faible. Toujours est-il que l’observateur, n’ayant aucune information sur la pièce, conclura, à tort, qu’elle n’est pas équilibrée. Un deuxième échantillon donnant en moyenne environ un Pile sur deux lancers aura une probabilité plus élevée.

Ceci nous amène à la notion de vraisemblance d’un échantillon. On définit, pour un paramètre θ et un échantillon en, la fonction de vraisemblance de en par : L: R n +1 ⎯ ⎯→

0, 1

b

( x1 , x 2 ,K , x n , θ) a L(x1 , x 2 ,K , x n , θ) = p ( X1 ,K , X n ) = ( x1 ,K , x n )

g

Cette vraisemblance est donc la probabilité de l’échantillon observé. Elle dépend de θ, et la valeur la plus vraisemblable du paramètre serait celle qui maximise cette probabilité, en admettant que la fonction de θ ait un maximum. On va donc chercher la valeur de ce maximum pour en déduire un estimateur. La fonction L étant bornée, elle a une borne supérieure dans tous les cas et un maximum absolu si L est continue par rapport à θ. Pour déterminer θ, une hypothèse supplémentaire sera nécessaire, à savoir que L a des dérivées partielles d’ordre 2 par rapport à θ. On peut aussi étudier à part le cas où L est nulle pour une valeur de θ. En ce point la probabilité ne sera pas maximale, et donc la valeur correspondante de θ ne sera pas l’estimation cherchée.

La fonction logarithme étant croissante, les maxima de L et ln (L) seront obtenus pour la même vapage 41

SQ-20 Probabilités - Statistiques

leur de θ, et il est généralement plus simple d’utiliser la fonction ln(L) plutôt que L, surtout dans le cas où les variables de l’échantillon sont indépendantes. ∂L ∂ ln L =0 =0 ∂θ ∂θ ou équations de vraisemblance Alors θ sera solution des systèmes ∂2 L ∂ 2 ln L ≤0 ≤0 ∂ θ2 ∂ θ2 La solution de ces systèmes, en admettant qu’elle soit unique, sera de la forme θ$ = ϕ( x ,K , x ) , ce

R| |S || T

R| |S || T

b

1

g

n

qui permet de définir l’estimateur de maximum de vraisemblance T(E n ) = ϕ X1 ,K , X n . Dans le cas où on cherche à estimer plusieurs paramètres simultanément, par exemple espérance et variance, on est amené à déterminer le maximum d’une fonction de plusieurs variables. La méthode a déjà été étudiée dans des cours précédents et il n’est (peut-être) pas nécessaire d’y revenir. Exemple : Soit X une variable aléatoire qui suit une loi de Poisson de paramètre inconnu λ. On considère une observation d’un échantillon indépendant en = (x1, …, xn). On a donc :

b

g

n

L(x1 ,K , x n , λ ) = p ( X1 = x1 )∩K∩( X n = x n ) = ∏

bg

n

n

k =1

k =1

k =1

n e − λ λx k λx k et donc = e− n λ ∏ xk ! k =1 x k !

ln L = − n λ + ∑ x k l n ( λ ) − ∑ x k !

R| ∂ ln L = 0 R− n + ∑ x = 0 |S ∂ θ ⇔ ||S λ ⇔ λ = 1 ∑ x n || ∂ ln L ≤ 0 ||− 1 ∑ x ≤ 0 Tλ T ∂θ k

Les équations de vraisemblance s’écrivent donc :

2

2

2

k

=x

k

On a donc l’estimateur de maximum de vraisemblance de λ T(E n ) = X . Il reste à déterminer le biais et la convergence de l’estimateur trouvé, ce qui dans ce cas est facile.

b) Cas d’une variable continue La situation est différente, car la probabilité de l’observation est nulle. On remplace donc les probabilités par les densités. Pour le reste la méthode est identique. Si l’échantillon En a une densité g la fonction de vraisemblance s’écrit : L(x1, ..., xn, θ) = g(x1, ..., xn) ou f(x1) ... f(xn) si f est la densité de X et les variables Xk sont indépendantes.

-V- Exercices 1°) On considère une v. a. X de densité f ( x) = α 2 x − x 2 si x ∈ 0,+2 et f ( x) = 0 sinon . Question préliminaire : Représenter graphiquement la fonction f (en prenant α = 1) Rappel de MT 12 : intégration des fonctions de la forme f ( x) = ax 2 + bx + c Mettre le polynôme sous forme canonique et poser x = sin t , x = cht ou x = sht selon le résultat. a) Déterminer α pour que f soit effectivement une densité de probabilité. b) Montrer que E(X) = 1 et Var(X) = 0,25. page 42

UV SQ 20

b

g

c) Soit X1 , X 2 ,K , X n , n étant un entier assez grand, une suite de v.a. indépendantes de même loi n

que X, et on définit S n et X n par S n =

∑X

k

et X n =

k =1

1 Sn . n

Déterminer les lois de Sn et de X , leur espérance et leur variance.

c

h

d) Pour cette question on prend n = 250. Calculer : p(245 ≤ S250 ≤ 260) et p X250 > 1,05 .

c

h

Comparer ce dernier résultat à p X1000 > 1,05 .

c

h

e) Pour quelle valeur de n ∈ N aurait-on p 0,98 ≤ X n ≤ 1,02 = 0,95 ? 2°) Soit X une variable normale d’espérance m=1,8 et de variance σ² = 0,01. On définit les variables 40 S X k et X = avec X1 , X 2 ,K , X 40 étant une suite de variables aléatoires aléatoires Y = 40X, S = 40 k =1 indépendantes de même loi que X.

∑

b

g

a) Déterminer les espérances et les variances de Y, S et X . Il est possible de représenter les résultats sous forme de tableau. b) Calculer p(1,7 < X < 1,9), et déterminer α > 0 tel que p(1,8-α< X < 1,8+α)=0,95. c) Calculer p(68 < Y < 76), et déterminer β> 0 tel que p(72-β< X < 72+β) = 0,95. d) Calculer les probabilités p(68 < S < 76) Déterminer γ>0 vérifiant p(72 − γ < S < 72 + γ ) = 0,95 puis δ tel que p(1,8 − δ < X < 1,8 + δ ) = 0,95 . e) Calculer les rapports

β2 γ 2 α2 , et . Existe-t-il des relations entre α, β, γ et δ ? α2 α2 δ2

3°) Une machine automatique remplit des paquets. Les masses en grammes sur un échantillon de 10 paquets sont les suivantes: 297 300 295 297 300 310 300 295 310 300 . Déterminer la moyenne observée, l'écart type observé et en déduire une estimation de la moyenne et de l'écart type de la population. 4°) Un contrôle portant sur un emballage automatique de café fournit les masses suivantes: masse en g 247 248 249 250 251 252 253 254 nombre de paquets 2 6 8 13 11 5 3 2 a) Donner une estimation de la masse moyenne d’un paquet et celle de l’écart type. b) En supposant la loi normale, déterminer, à l’aide des estimations, les pourcentages de paquets de masse supérieure à 250 g, de masse comprise entre 249 et 251. 5°) Soit N une variable binomiale B(10, p) où p est un paramètre inconnu qu’on cherche à estimer. On prélève un échantillon (N1, . . .,Nn) de variables B(10, p) indépendantes d’observation (n1, . . .,nn). a) Déterminer la fonction de vraisemblance L(n1, . . .,nn ,p) de cet échantillon. b) Écrire les équations de vraisemblance et en déduire l’estimateur de max. de vraisemblance de p. c) On a obtenu, pour les nk, les résultats suivants : 1 3 3 3 3 4 4 2 6 3 3 2 3 4 3 1 1 5 3 2 Déterminer une estimation ponctuelle de p. 6°) Dans un étang se trouvent un nombre N poissons qu’on cherche à estimer. Le mode opératoire est le suivant : on pêche 100 poissons qu’on bague et qu’on remet dans l’étang. On effectue une deuxième pêche de 100 poissons et on compte le nombre X de poissons bagués. a) Soit k un entier naturel. Calculer en fonction de N la probabilité pN(X=k).

page 43

SQ-20 Probabilités - Statistiques

b) Dans le cas k = 10, calculer f ( N ) =

p N ( X = 10) . p N −1 ( X = 10)

bx − 100g c) Etudier et représenter graphiquement la fonction f définie sur R par f ( x) =

2

x 2 − 190x

d) Pour quelle valeur de N la probabilité p(X=10) est-elle maximale ? e) En déduire une estimation de N.

.

7°) Estimation du paramètre d’une loi géométrique : on considère un dé cubique dont on ne sait pas s’il est pipé ou n équilibré, et on le lance jusqu'à obtention d’un six (succès, dont la probabilité est p). On note alors X la variable aléatoire = nombre de lancers jusqu’au succès. a) Déterminer la loi de X, son espérance et sa variance.

b g = b x ,K , x g . Calculer en fonction

b) On répète n fois l’expérience précédente pour obtenir un échantillon E n = X1 ,K , X n où Xk suit la même loi que X. Une observation de cet échantillon est notée e n de p l’expression L( x1 ,K , x n , p) = p( X1 = x1 )K p( X n = x n ) .

1

n

c) En déduire les équations de vraisemblance de l’échantillon en puis l’estimateur de maximum de vraisemblance T de p. d) On a obtenu, pour n = 20 les résultats suivants pour en : 3 2 4 6 1 2 3 5 4 2 2 1 6 2 1 6 9 4 4 2 Déterminer une estimation ponctuelle de p. Peut-on dire que ce dé est pipé ? 8°) Etude d’une loi exponentielle : Soit une v. a. exponentielle X de paramètreλ =

bX ,K, X g de n variables indépendantes de même loi que X. 1

1 et un échantillon μ

n

a) Ecrire la densité, l’espérance et la variance de X en fonction de μ (et non pas λ !). b) Déterminer la fonction L(x1 , .. . ,xn , μ), puis les équations de vraisemblance. c) En déduire un estimateur de μ. Est-il sans biais, convergent ? d) Application numérique : Dix dispositifs indépendants dont la durée de vie (exprimé en mois) est exponentielle ont fonctionné pendant les temps suivants : 20 4 12 2 16 26 48 9 34 6 Déterminer une estimation de μ, puis une estimation du paramètre λ. 9°) On s'intéresse à la proportion p de personnes possédant un lecteur DVD. On tire au sort un échantillon ( X1 , X 2 ,K , X n ) de taille n dans une population très grande. À chaque personne interrogée on asso1 si possède un lecteur DVD cie la variable aléatoire Xk définie par: X k = . 0 sinon

RS T

a) Déterminer un estimateur T(X1 , X 2 ,K , X n ) de p. Etudier ses propriétés (biais, convergence). b) On prend maintenant deux échantillons ( X1 , X 2 ,K , X n1 ) et ( X'1 , X'2 ,K , X' n 2 ) (indépendants) de tailles n1 et n2 (n1 0 et β > 0 un estimateur de p. Déterminer α et β pour que F soit un estimateur sans biais de p. En déterminer la variance. c) Déterminer les coefficients α et β pour que F soit un estimateur sans biais et de variance minimale. (corrigé page 71) d) Application numérique: n1 = 500 , n 2 = 1000 f1 = 0,3 et f2 = 0,23 . 10°) Une variable a une espérance μ et une variance σ². Les variables X1,. . . , X5 étant indépendantes et de même loi que X, on considère les estimateurs de μ suivants: page 44

UV SQ 20

b

g

b

g

b

g

1 1 1 1 X1 +K+ X5 , T2 = X1 + X 2 + X 3 , T3 = X1 + X 2 , T4 = X1 +K+ X 4 + X5 et T5 = X5 5 3 8 2 a) Quels sont les estimateurs sans biais de μ ? b) Quel estimateur est le plus intéressant ? T1 =

2

1 − ( x −2m) e (loi normale réduite décalée), où le 11°) Soit une variable aléatoire X de densité f m ( x) = 2π paramètre m est inconnu. a) On considère un échantillon de n variables aléatoires indépendantes de même loi que X, d’observation x1 , x 2 ,K , x n . Déterminer la fonction de vraisemblance de cet échantillon.

b

g

b) Déterminer l’estimateur de maximum de vraisemblance de m.

(Corrigé page 72 )

-VI- Problèmes: 1°) Un événement peut se produire à tout instant X dans un intervalle I = [ 0 , b] , b inconnu. a) Déterminer la densité, l’espérance et la variance de X (uniforme) en fonction de b. b) Pour estimer la valeur de b inconnue, on considère un n-échantillon X1 , X 2 ,K , X n et la variable

b

aléatoire X =

1 n

g

n

∑X

. Calculer E( X) et construire un estimateur sans biais Y de b. En déterminer

i

i =1

l’espérance et la variance.

b

g

a) Un second estimateur de b est défini par Z = sup X1 , X 2 ,K , X n . Calculer, pour z∈[0, b], p(Z < z), et en déduire la fonction de répartition et la densité de Z. En déterminer l’espérance E(Z) et construire à partir de Z un estimateur dans biais Z’ de b. d) Comparer les variances des estimateurs Y et Z’, lequel est le meilleur ? e) Application : La procédure de départ d’un Grand Prix de Formule 1 est la suivante : Cinq feux rouges sont allumés successivement, l’extinction simultanée de ces cinq feux donne le signal du départ. Le temps qui s’écoule entre l’allumage complet et l’extinction est une variable uniforme sur [0, b]. (Ce temps est choisi par le directeur de course dans les limites du règlement) Au cours des 16 G.P. d’une saison les intervalles de temps, en secondes ont été : 0,3 0,9 2,1 2,6 2,7 0,6 1,6 0,1 1,2 2,1 0,8 0,6 1,1 0,5 1,2 2,7 Déterminer une estimation de b.

R| 1 xe si x > 0 , où θ est un 2°) Soit la variable aléatoire X dont la densité est donnée par: f ( x) = S θ |T0 sinon paramètre inconnu dont on cherche une estimation ponctuelle. On sait toutefois que θ est positif. Soit un échantillon ( E ) = b X , X ,K , X g d'observation (e ) = b x , x ,K , x g de variables indépendantes de −

2

n

1

2

n

n

1

2

x θ

n

même loi que X. a) Écrire la fonction de vraisemblance L(x1, …, xn, θ) de l’échantillon (en). Ecrire les équations de vraisemblance de l'échantillon et en déduire l'estimateur de maximum de vraisemblance T. b) Calculer E(X) en fonction de θ. En déduire que l’estimateur calculé au a) est sans biais. c) L'observation, pour n = 10 a donné les valeurs: 2,7 6,5 2 0,5 8,8 1,3 3,6 4,5 3 5,3. Déterminer une estimation ponctuelle du paramètre θ.

z

∞

d) On pourra utiliser librement le résultat ∀n ∈ N , Γ ( n + 1) = x n e − x dx = n! 0

page 45

SQ-20 Probabilités - Statistiques

Chap.6

Intervalles de confiance

-I- Introduction Dans le chapitre précédent, nous avons défini les estimateurs et l’estimation ponctuelle d’un paramètre. Le problème est que, un paramètre étant estimé, on ne dispose d’aucune précision quant à la mesure de ce paramètre. Il serait plus intéressant d’avoir un résultat de la forme : « le paramètre θ se trouve avec la probabilité 1− α dans l’intervalle Iα = ]a , b[». Dans ce cas on se donne a priori un risque α (de se tromper), la valeur de α dépendant de la précision souhaitée. Sans anticiper sur les résultats qui vont suivre, on peut penser que plus le risque est faible et plus la longueur de l’intervalle Iα est grande. Dans les cas extrêmes, si α = 1 , Iα est réduit à un point et si α = 0 , Iα = R.

-II- Variable de confiance 1°) Position du problème Soit : • X une variable aléatoire de paramètre θ inconnu qu’on cherche à estimer • Un échantillon En = (X1, …, Xn) de n variables (souvent indépendantes), de même loi que X • T(X1, …, Xn) un estimateur sans biais de θ (rappel E(T) = θ). • Une observation en = (x1, …, xn) fournissant une estimation t de θ Problème : à partir de t, déterminer un intervalle d’estimation du paramètre au niveau 1− α, c’est-à-dire un intervalle de confiance I α ,T = T − ε1 , T + ε 2 tel que p T − ε1 < θ < T + ε 2 = 1 − α avec ε1 et ε2 réels

b

g

positifs pouvant être égaux si la loi de T est centrée sur θ. On obtient ensuite une observation de l’intervalle de confiance Iα = ]t − ε1, t + ε2[. On a donc un niveau de confiance 1− α, de valeur par défaut dans la pratique 0,95 et un risque α (valeur usuelle 0,05). Pour des mesures plus sensibles ou dont les enjeux (humains ou financiers) sont très importants, il est d’usage de considérer α = 0,01. Si dans la réalité on ne prend en compte que le dernier résultat Iα = ]t − ε1, t + ε2[, il faut garder à l’esprit que les valeurs t, ε1 , ε2 et θ n’ont rien d’aléatoire, et que, par contre, Iα,T est un intervalle dont les bornes sont des variables aléatoires T − ε1 et T + ε2. Plusieurs observations donneront des estimations ponctuelles, et donc des observations d’intervalles de confiance différents, mais les mêmes intervalles de confiance. D’ailleurs, dans la pratique du calcul, on détermine l’intervalle Iα,T , puis on effectue l’observation. 2°) Mise en place du calcul : Avec les mêmes hypothèses de départ, on détermine la loi de T, d’espérance θ, et dont on suppose que l’espérance existe, puis on cherche, directement ou à l’aide de tables de valeurs numériques, les valeurs ε1 et ε2 . En fait, il existe une infinité de tels intervalles ]T − ε1, T + ε2[ , mais on choisit celui qui α vérifie p(T − ε1 < θ) = p(T − ε 2 > θ) = avant de calculer Iα = ]t − ε1, t + ε2[. 2 Si la loi de T n’est pas simple, en particulier dans le cas où on ne peut pas l’approcher par une loi normale, on construit une autre variable de confiance Y, déduite de T par des transformations, souvent affines, et dont on connaît la loi. Des exemples seront donnés pour les études les plus fréquentes, espépage 46

UV SQ 20

rance, variances, paramètres d’une loi de Poisson ou exponentielle. Remarque : Iα contient nécessairement l’estimation ponctuelle t, mais pas toujours la valeur réelle du paramètre θ. 3°)

Interprétation : Dans la pratique, on peut interpréter p T − ε1 < θ < T + ε 2 = 1 − α par :

b

g

En moyenne, sur un grand nombre d’échantillons (de même taille n) prélevés, la valeur réelle θ sera dans Iα dans 100(1− α)% des cas et, à cause des fluctuations aléatoires, sera en dehors dans les cas restants. Pour s’en convaincre, on peut faire une simulation sur ordinateur, avec une loi simple et à l’aide de la fonction random implantée dans tous les tableurs. On peut aussi interpréter graphiquement les intervalles de confiance. Prenons deux cas courants, celui où la loi de T est symétrique par rapport à θ, et le cas dissymétrique. Réalité :

observation

4°) Propriétés La longueur de l’intervalle de confiance dépend directement de certains paramètres de la loi, ainsi que des choix qui sont faits pour la taille de l’échantillon. En fait, les considérations pratiques (précision souhaitée, qualité des instruments de mesure, enjeux évoqués plus haut, …) imposent une taille pour l’intervalle de confiance, ceci ayant pour conséquence d’obliger l’expérimentateur ou la maître d’ouvrage de jouer sur les autres paramètres. Ayant choisi un estimateur sans biais, l’intervalle est construit à partir de θ, mais cela ne veut pas dire pour autant que sa longueur en dépend. Toutefois, et quand c’est possible, on choisit un estimateur convergent, de telle sorte que la taille de l’échantillon influe sur la précision de la mesure, autrement dit sur la longueur de l’intervalle. Dans ce cas, cette longueur diminue quand la taille augmente. Les autres paramètres étant constants, c’est la longueur souhaitée pour l’intervalle qui influera sur la taille n de l’échantillon et non pas l’inverse. En ce qui concerne α, tout dépend du risque qu’on est prêt à prendre. Pour des mesures sur des vaccins, ou pour l’implantation d’une chaîne de production coûteuse, le risque doit être faible, alors que pour le simple réglage d’une machine, on peut se laisser une marge d’erreur importante. Dans ce cas, le risque et la taille de l’intervalle évoluent en sens contraire. Prendre un échantillon trop grand augmente, sans utilité réelle, le coût de l’étude, et, au contraire, en prendre un trop petit ne donnera pas la précision escomptée. La variance de T est aussi à prendre en compte. La précision croît quand la variance diminue, la longueur de l’intervalle et la variance variant dans le même sens. Ayant le choix entre plusieurs estimateurs, on aura intérêt à choisir celui dont la variance est la plus faible, pour minimiser la taille de l’échantillon.

-III- Intervalle d’une variance La plupart des variables utilisées en statistique sont des variables normales, et quand elles ne le sont pas, la taille n et l’indépendance des variables des l’échantillons permettent souvent d’utiliser le théopage 47

SQ-20 Probabilités - Statistiques

rème central limite. On étudiera donc pour la variance les cas où X est normale N(M, σ²), M étant connue (cas assez rares) ou inconnue. Il n’est généralement pas très judicieux d’utiliser des petits échantillons, sauf si les tests sont destructifs et très coûteux en temps ou en argent. 1°) Cas X normale où M est connue : On suppose en outre que l’échantillon est formé de variables indépendantes. 1 n 2 D’après le chapitre précédent l’estimateur sans biais de σ² est Σ 2 = ∑ X k − M dont la loi ne fait n k =1

b

g

FG H

IJ K

2

n n Σ2 Xk − M est la = ∑ 2 σ σ k =1 somme des carrés de n variables normales centrées réduites indépendantes, et donc Y suit une loi χ² à n degrés de liberté. Sa densité et sa fonction de répartition ne sont pas particulièrement simples, mais l’importance de cette loi dans la pratique fait qu’elle est tabulée, généralement pour des valeurs de n allant jusqu’à 100.

pas partie des lois usuelles, mais par contre (transformation affine) Y =

Dans le cas où l’échantillon est de taille supérieure à 100, sachant que E(Y) = n et Var(Y) = 2n, le théorème

central limite montre que Y − n suit approximativement une loi N(0; 1) 2n

α et d’en déduire ε1 et ε2. 2 Il est rare dans la pratique qu’on puisse déplorer d’avoir une variance trop petite, puisque ce serait le signe d’une très grande régularité de production. Alors on cherche surtout à avoir une majoration de la variance. On cherche alors un intervalle unilatéral de la forme [0, ε[ avec p(Σ² > ε) = α. Il est donc facile de trouver y1 et y2 tels que p(Y < y1 ) = p(Y > y 2 ) =

2°) Cas X normale où M est inconnue :

c

h

2 1 n X k − X mais ∑ n − 1 k =1 alors les variables à l’intérieur des parenthèses ne sont plus indépendantes puisque leur somme est ( n − 1) S2 et suit une loi χ 2n-1 . Le reste de nulle. On montre que la variable de confiance devient Y = 2 σ l’étude de l’intervalle de confiance est identique.

La différence avec le cas précédent est que l’estimateur sans biais est S2 =

3°) Exemple de calculs Une entreprise utilise une matière isolante dans l’assemblage de moteurs électriques. Il est important que l’épaisseur corresponde aux normes de montage, mais aussi que les variations ne soient pas trop importantes. Un échantillon aléatoire, dont l’épaisseur est normale N(M, Var(X)=σ²), de 20 éléments a été prélevé dans une grande production et les résultats en mm, ont été les suivants : 5,5 5,8 6,1 6,5 5,8 5,8 5,5 6,1 5,7 5,4 5,5 5,9 6,2 6,1 5,8 6,1 5,9 6,1 6,2 6 a) Déterminer des estimations ponctuelles de M et de σ². b) Calculer un intervalle de confiance de σ² au niveau 0,95. Peut-on considérer que l’écart type de la production ne dépasse pas 0,5 mm ? a) D’après la calculatrice : estimation de la moyenne = 5,9, estimation de la variance : s² = 0,0821 ( n − 1)S2 19 S2 2 b) La moyenne étant estimée, on a la variable de confiance de σ² : Y = = 2 ≈ χ19 2 σ σ 2 2 19 S 19 S D’après la table du χ², on a : 0,95 = p 8,907 < Y < 32,852 = p < σ2 < 32,852 8,907

b

On a donc l’intervalle de confiance de σ² à 0,95 : I =

g FGH

IJ K

OP 19 S , 19 S LM d'observation I = 0,0475; 0,175 Q 32,852 8,907 N 2

2

On peut donc considérer que la variance ne dépasse pas 0,25 et donc que σ ne dépasse pas 0,5.

page 48

UV SQ 20

-IV- Intervalle d’une moyenne 1 ∑ Xk , n dont on sait qu’il est sans biais et, quand les variables de l’échantillon sont indépendantes, convergent. On se replace dans les conditions du début de chapitre : on a une variable aléatoire X qu’on suppose généralement normale N(M, σ²), d’espérance M qu’on cherche à estimer par un intervalle de confiance au niveau 1 − α à l’aide d’un échantillon de taille n∈N. On construit la variable de confiance à partir de X en la centrant et en la réduisant. Le problème est d’abord de savoir si on connaît σ² ou si ce paramètre doit être estimé (par S²). Pour l’estimation de l’espérance d’une variable aléatoire, on dispose de l’estimateur X =

1°)

Cas où X est normale de variance connue : Si on suppose que les variables Xk de l’échantillon sont indépendantes, on a alors le tableau ci-contre : X−M On utilise alors la variable de confiance Y = σ n dont on sait qu’elle est normale centrée réduite.

Variables Xk

Loi normale

Espérance M

- id -

nM

X

- id -

M

σ2

Y

- id -

0

1

∑X

k

Variance σ² nσ²

n

-V- Intervalle d’une proportion

-VI- Exercices 1°) Une machine fabrique des pièces en grande série. Des études antérieures ont permis de montrer que la masse, en g, de ces pièces est une v.a. normale N (m = 1 200; σ ² = 40). a) On prélève un échantillon de n = 100 pièces. 1 n X k des masses des échantillons ? Quelle est la loi suivie par la moyenne X = n k =1 Déterminer un intervalle de centre m dans lequel se trouvent 95% des moyennes d'échantillons. b) Quelle devrait être la valeur minimale de n pour que la moyenne d'échantillon se trouve dans l'intervalle [1 196, +1 204] avec la probabilité 0,95 ?

∑

2°) On rappelle que si une v. a. U est normale centrée réduite, alors U² suit une loi χ 12 . Soit la variable aléatoire X qui suit une loi χ 12 , d’espérance 1 et de variance 2, ainsi que n variables aléatoires Xi indépendantes de même loi que X et leur somme Sn. a) Quelle est la loi de Sn, en déterminer l’espérance et la variance. b) A quelle loi peut-on assimiler Sn dans le cas où n = 1000 ? Calculer alors les valeurs t1 et t2 telles que p(Sn < t2 ) = 0,975 et p(Sn < t1 ) = 0,025. c) Un tirage de 1001 pièces dans une production en grande série a donné une variance observée de 0,27. Déterminer une estimation ponctuelle de la variance σ² de la population totale. d) Déterminer un intervalle de confiance à 0,95 de σ² .

page 49

SQ-20 Probabilités - Statistiques

3°) Une usine produit des petites pièces dont le diamètre est normal. On mesure le diamètre x de 100 pièces prises au hasard dans la production et on obtient les résultats suivants: x (en mm) 6 6,1 6,2 6,3 6,4 6,5 6,6 6,7 6,8 6,9 7 nb de pièces 1 ⏐ 4 ⏐ 4 ⏐ 10 ⏐ 17 ⏐ 20 ⏐ 20 ⏐ 14 ⏐ 8 ⏐ 2 a) Calculer la moyenne et l’écart type de cet échantillon. b) Estimer par un intervalle de confiance à 95% le diamètre moyen de la production. 4°) Le temps de façonnage d’un livre dans une entreprise spécialisée dans les ouvrages d’art en petite série est une variable normale d’espérance et de variance inconnues. Une observation sur 100 livres a donné un temps moyen de 5 heures avec une estimation de la variance s² = 0,25. La production étant de 300 unités, déterminer un intervalle de confiance de M au niveau 0,95. 5°) Un constructeur automobile désire connaître les goûts de ses clients potentiels en matière de taille de véhicule. On note p la proportion de clients préférant les petites voitures. Sur un échantillon de n personnes (n assez grand), on note Xn le nombre de personnes préférant les petites voitures. n

1 a) Déterminer les lois de X n et de X = X k . Quelle est la taille minimale de l’échantillon pern k =1 mettant d’avoir sur p une précision de ± 0,02 au niveau 0,95 ? (On pourra majorer p(1-p) par 0,25). b) Un échantillon de 500 personnes étant prélevé dans une population très grande, 192 ont préféré les petites voitures. Déterminer un intervalle de confiance de p à 0,95.

∑

6°) Les deux cinémas d'une ville, le Lion et le Ballon ont une clientèle globale de 600 personnes pour les séances du samedi soir. Ces 600 personnes ont le choix entre les deux salles (le film importe peu). a) On suppose que les personnes sortent en couples et décident de la salle en lançant une pièce (on ne sait pas si les pièces sont équilibrées). Si p est la probabilité de Pile (cinéma le Lion) on note X le nombre de personnes qui se rendent au cinéma Le Lion le 21 décembre 2002. Etudier la loi de X. b) Les 300 lancers ont donné 137 Pile et 163 Face. Déterminer un intervalle de confiance de la probabilité de Pile au niveau de confiance 0,95. En déduire qu'on peut considérer que les pièces sont équilibrées c) Combien doit-il y avoir de places pour que la probabilité de refuser du monde dans une des deux salles soit inférieure à 0,05 ? d) Reprendre la même question (c) en supposant que les deux personnes de chaque couple lancent une pièce, et, de ce fait, ne choisissent pas nécessairement la même salle. 7°) Los contratos de una empresa con sus clientes estipulan que, en los envíos de piezas no debe haber más de un 8% de piezas defectuosas. Un cliente recibe un lote de piezas y constata que, de 500 piezas probadas, 65 son defectuosas. ¿Puede considerarse, con riesgo 0,01, que el envío resulta conforme al contrato ? ¿Cuál es el umbral máximo que hace que quede conforme el envío ? 8°) On classe les pièces d’une grande production en deux catégories A : « grande qualité » et B : « qualité courante », et on cherche à évaluer la proportion p de A dans la production. Un échantillon de 400 pièces a donné 85 pièces de catégorie A. a) Déterminer un intervalle de confiance de p au niveau de confiance 0,95. b) Quel est la valeur du risque α devrait-on prendre pour que l’intervalle de confiance ait une lon(corrigé page 72) gueur de 0,04 ? 9°) Pour la mise en œuvre d’un projet de développement, un pays en voie de développement doit connaître tout d’abord la proportion p des personnes vivant en dessous du revenu minimum vital. Dans une étude pilote de 50 personnes, 30 sont considérées comme « pauvres » , c'est-à-dire « en dessous du minimum vital ». a) Estimer la proportion de pauvres dans ce pays. page 50

UV SQ 20

b) Calculer un intervalle de confiance à 90% de la proportion de pauvres dans ce pays. c) Calculer un intervalle de confiance à 95% de la proportion de pauvres et comparer avec le résultat précédent. d) Un nouvel échantillon de 200 personnes est prélevé, et on observe une proportion de 0,6 de personnes en dessous du minimum vital. Calculer un intervalle de confiance à 95% de la proportion de pauvres et expliquer la différence avec les résultats précédents. Calculer la taille d’échantillon nécessaire pour avoir une précision de ± 5% sur la proportion p avec un niveau de confiance de 90%.

-VII- Exercices d’entraînement 1°) La mesure de la puissance de 5 machines à laver, issues d'une même chaîne de fabrication a donné les résultats suivants (en watts): 3 550 3 560 3 580 3 600 3 620 a) Déterminer une estimation de la moyenne et de l'écart type de la population complète. b) Calculer un intervalle de confiance au risque 5% de la moyenne de la production. Rep: m=3582 , s=28,64 Loi de Student → M∈]3 546,+3 618[

2°) Une étude sur les salaires mensuels de 50 ouvriers d'une usine a donné une moyenne de 6 000 avec un écart type de 500 (en FF). a) Quel risque prend-on en estimant la moyenne des salaires des 300 ouvriers de l'usine à 6 000 ± 100 ? b) Quel serait le risque dans le cas d'une très grande usine ? Rep: a) 12,4% b) 16,2%

3°) Une collectivité a subi une intoxication alimentaire, et on suppose que la maladie s'est déclarée de manière aléatoire. Un examen, sur 100 personnes ayant mangé ce jour là a révélé que 20 d'entre eux ont été affectés de troubles. a) Déterminer une estimation de la probabilité d'être malade au seuil de 3%. b) Quel peut être le nombre de personnes malades parmi les 2 000 personnes nourries ce jour là (au risque de 3%) ? Rep: a) p∈]0,115 ; 0,285[ b) entre 230 et 569 personnes

4°) Sur 120 pièces on a observé 20 pièces défectueuses. Déterminer un intervalle de confiance au seuil de 5% de la proportion de déchets. Rep:

0,1 < p < 0,23

page 51

SQ-20 Probabilités - Statistiques

Chap.7

Tests d'hypothèses

-I- Définitions

-II- Différents types de tests:

-III- Comparaison d'une moyenne à une norme:

-IV- Etude des proportions:

-V-

-VI-

-VII- Exercices 1°) Soit une épreuve de Bernoulli B (1,p). On effectue deux tirages et on teste: H 0 : p = 21 contre H 1: p = 23 . On accepte H1 si et seulement si on a deux succès. Calculer les valeurs des risques α et β. 2°) Soit X une v.a. normale d'écart type 4 et de moyenne M inconnue. A l'aide d'un n-échantillon on veut tester Ho: M = 30 contre H1: M = 32 au seuil 0,05. a) Pour quelles valeurs de n le domaine d'acceptation de Ho contient 32 ? b) Etudier, pour n > no la relation entre n et le risque de seconde espèce β. Faire une étude analytique ou une étude graphique. 3°) Soit X une variable N(M, σ² = 1). On veut tester Ho: E(X) = 0 contre H1: E(X) = 1 au seuil 0,05. a) Définir un test. b) A partir de quelle valeur de n le test obtenu aura-t-il une puissance 1−β ≥ 0,9 ?

b

g

4°) Soit la variable X, qui suit une loi de Poisson de paramètre λ = 0,4, un échantillon X1 ,K , X n de page 52

UV SQ 20 n

1 n ∑ Xk . n k =1 k =1 a) Ecrire l’espérance et la variance de X. Dans le cas général n entier quelconque (non nul) déterminer la loi de Sn ainsi que ses paramètres. b) Soit n = 25. Déterminer deux entiers n1 et n2 tels que p(n1 ≤ Sn ≤ n2) ≈ 0,95. Dans la cas où l’observation a donné une moyenne de 0,52, peut-on considérer que λ est effectivement égal à 0,4 ? a) Soit n = 500. Par quelle loi peut-on approcher celle de X500 . S i on suppose que λ = 0,4, déterminer un intervalle x1 , x 2 tel que p x1 < X500 < x 2 = 0,95 . Une observation d’un échantillon de 500 v.a. a donné une moyenne de 0,52. Ce résultat est-il conforme aux hypothèses ?

variables indépendantes de même loi que X et les variables S n = ∑ X k et X n =

c

h

5°) Une variable X est supposée normale, soit N(M = 20, σ² = 16) ou N(M = 20, σ² = 16) . On considère l’hypothèse nulle H0 : X ≈ N(M = 20, σ² = 16) et la variable de test T = somme de trois résultats. a) Quelle est la loi de T et calculer t tel que p(T < t ) = 0,95. En déduire le domaine D0 de H0. b) Calculer le risque β = p(accepter H0 |H1 vraie) 6°) Une machine automatique A permet de fabriquer des pièces cylindriques, dont le diamètre X suit une loi normale d'espérance M = 5 et d'écart type σ = 0,005. a) Déterminer un intervalle ]M − t , M + t[ qui contient le diamètre x d'une pièce dans 95% des cas. b) On dispose d'un échantillon de 50 pièces dont on ignore la provenance. La mesure des diamètres est consignée dans le tableau suivant: diamètre 4,965 4,975 4,985 4,995 5,005 5,015 5,025 5,035 nb de cylindres 1 ⏐ 0 ⏐ 13 ⏐ 18 ⏐ 17 ⏐ 0 ⏐ 1 Calculer le diamètre moyen et l'écart type de cet échantillon. Déterminer un intervalle de confiance à 95% du diamètre moyen. c) Peut-on faire l'hypothèse, au risque de 1%, que ces pièces proviennent de la machine A ? 7°) On considère une variable normale N(M, σ²=9) et un échantillon indépendant de 30 éléments. On veut tester les hypothèses : Ho : M= 20 contre H1 : M = Mo au niveau 0,95. a) Déterminer la zone d'acceptation de Ho dans le cas où Mo > 20. b) Pour différentes valeurs de Mo (par ex. échelonnées de pas 0,5), déterminer la puissance du test. c) Tracer les courbes de puissance et d'efficacité sur un même graphique. 8°) Etude du risque β: soit une variable aléatoire X normale N(M, σ² = 25) et un échantillon (X1, … ,Xn) de variables indépendantes de même loi que X, qui a donné une moyenne observée de 11. a) Dans le cas n =30, étudier le test H0 : M = 10 contre H1 : M > 10. En déterminer le domaine d'acceptation, ainsi que la décision. b) Toujours dans le cas n = 30, étudier le test H0 : M = 10 contre H1 : M = 11. En déterminer la décision et le risque β. c) Le risque β étant jugé trop grand, on intervient sur la taille de l'échantillon pour le diminuer, les (Solution page 73) autres données étant inchangées. Pour quelle valeur de n aurait-on β ≈ 0,1 ? 9°) Un dentifrice doit contenir 15 mg une substance chimique que nous appellerons anéthol. De nombreux échantillons de 100 doses choisies au hasard montrent une stabilité de fabrication. On constate que la concentration est normale d'espérance 15 et de variance connue σ² = 0,016 (mg²). On prélève un échantillon de 36 doses et on obtient les résultats suivants (en mg): 14,96 14,92 14,80 15,05 14,86 15,01 14,81 14,86 14,99 14,96 15,01 14,91 page 53

SQ-20 Probabilités - Statistiques

15,01 15,03 15,05 14,85

15,04 15,01 14,98 15,15

14,85 14,95 15,11 14,90

14,97 15,16 15,01 15,20

14,84 14,98 15,16 15,00

14,74 14,96 15,04 15,06

Cet échantillon est-il conforme aux normes de production ? 10°) Certaines modifications techniques apportées au carburateur d’une motoneige permettraient d’obtenir une amélioration de la consommation. Celle ci est une variable X gaussienne d’espérance M et de variance σ². Des essais ont donné les résultats suivants en miles/gallon d’essence. 20,6 20,5 20,8 20,8 20,7 20,6 21,0 20,6 20,5 20,4 20,3 20,7 a) Quelle serait l’influence sur la moyenne et la variance de la translation X’= X - 20 ? b) Calculer des intervalles de confiance de M, puis de σ², au niveau 0,99. c) Si avant la modification technique la consommation était de 20,2, peut-on conclure à une amélioration très significative ( au seuil 0,01). 11°) Les lectures photométriques suivantes représentent l’intensité lumineuse du filament principal de deux marques de lampes miniatures utilisées pour des feux clignotants d’automobiles : Fabricant A 28,64 29,28 29,20 28,92 29,51 Fabricant B 29,44 29,12 28,96 29,28 29,4 29,44 29,75 On sait par expérience que var(A) = 0,16 et var(B) = 0,2 pour B, et que les intensités sont N. Peut-on conclure au niveau de confiance 0,95, que les intensités sont les mêmes ? 12°) There are 240 students in a literature class (" Proust, Joyce, Kafka, and San Antonio"). Our model states that X, the numerical grade for any individual student, is an independent Gaussian random variable with a standard deviation σ equal to 10 2 . Assuming that our model is correct, we wish to perform a significance test on the hypothesis that E(x) is equal to 60. Determine the highest and lowest class averages which will result in the acceptance of this hypothesis: • At the 0,02 level of significance • At the 0,5 level of significance 13°) D’après une théorie sur le développement de l’intelligence dans un groupe donné de personnes, on s’attend à un QI (quotient intellectuel) moyen de 105. On s’attend donc à l’invalidité de la théorie QI moyen = 100. On obtient donc le test statistique H0 : M = 100 contre H1 : M = 105. L’écart type du QI, supposé normal est σ = 15, le seuil de risque étant fixé à 0,1. a) Déterminer, pour une taille d’échantillon de n = 25 • le domaine de refus pour ce test • le domaine d’acceptation et • le risque de deuxième espèce β. b) Quelles relations y a-t-il entre les risques de première et deuxième espèce ? c) Vous observez un QI moyen de 104. Quelle décision prenez-vous ? 14°) Une société reçoit régulièrement d'un fabricant des livraisons de boîtes de 100 composants. Un accord fixe le niveau de qualité à 1 défectueux par boîte. Un contrôle à la livraison portant sur 1 000 composants donne 15 défectueux. L'accord est-il respecté au niveau de tolérance de 95% ? 15°) A la suite d'un changement d'heure de diffusion d'une émission de télévision, on effectue un sondage auprès de 400 personnes. parmi ces personnes, 152 ont regardé l'émission. a) Déterminer un intervalle de confiance à 95% de la proportion de personnes possédant un téléviseur qui ont effectivement regardé l'émission. b) L'audience avec l'ancien horaire de diffusion était en moyenne de 30%. Peut-on dire au seuil de 5% que le changement a augmenté l'audience ?

page 54

UV SQ 20

-VIII- Etude des petits échantillons: 1°) Neuf malades auxquels fut administrée une potion accusèrent des augmentations de leur tension artérielle: 7 +3 −1 +4 −3 +5 +6 −4 +1 . Montrer que ces données n'indiquent pas que la potion soit responsable de ces augmentations. 2°) Pour juger de l'efficacité d'un nouveau semoir par rapport à l'ancien, on a partagé un terrain en 2 bandes qui ont été alternativement attribuées au nouveau et à l'ancien semoir. Pour 10 paires de ces bandes, les valeurs de l'excès de grain en faveur du nouveau semoir sont: 2,4 1,0 0,7 0,0 1,1 1,6 1,1 0,4 0,1 0,7 En supposant que ces augmentations suivent des lois normales indépendantes, déduire la supériorité du nouveau semoir par rapport à l'ancien. 3°) Un dosage de sucre dans une solution effectué sur 8 prélèvements, provenant d'une même fabrication, a donné les résultats suivants, exprimés en g/l: 19,5 19,7 19,8 20,2 20,2 20,3 20,4 20,8. a) Déterminer une estimation de la moyenne et de l'écart type de la fabrication. b) L'échantillon est-il représentatif de la production au seuil de 5%, si on admet que la concentration habituelle en sucre suit une loi normale de moyenne 19,6 g/l ?

-IX-

Problèmes: Problème 1

Une machine automatique A permet de fabriquer des pièces cylindriques. On admet que le diamètre de ces pièces suit une loi normale d'espérance M = 5 (cm) et d'écart type σ = 0,005. a) Déterminer l'intervalle ]M − α , M + α[ dans lequel le ∅ x d'une pièce se trouve dans 95% des cas. b) On dispose d'un échantillon de 50 pièces. La mesure des diamètres est consignée dans le tableau suivant, où les valeurs xi représentent les centres des classes [4,965;+4,975[; ... xi

4,97

4,98

4,99

5

5,01

5,02

5,03

ni

1

0

13

18

17

0

1

Calculer une estimation de la moyenne et de l'écart type de la production totale. Déterminer un intervalle de confiance à 95% du diamètre moyen d'une pièce de la fabrication. b) Peut-on faire l'hypothèse que les pièces de cet échantillon proviennent de A ?

-X- Exercices avec solutions: 1°) Un échantillon de 40 moteurs représentant une fabrication a donné un temps de fonctionnement moyen de 260 jours. Peut-on considérer cet échantillon comme appartenant à la fabrication habituelle dont la loi de fonctionnement, en jours, est normale d'espérance 240 et d'écart type 50 ? corrigé page 73 Faire l'étude pour des seuils de 5% et 1%. 2°) Soit X une variable aléatoire normale de moyenne m et de variance 25. Sur la base d'un échantillon de taille 9, on veut tester l'hypothèse Ho: m = 0 contre H1: m = 3. a) Construire une région critique au seuil 0,05. Rep: valeur maximale 2,742 b) β = 0,438 b) Calculer la probabilité d'erreur β. 3°) a) En jetant une pièce de monnaie 3 fois, on veut tester l'hypothèse Ho: p(pile) = 0,5 contre l'hypothèse contraire H1: p(pile) = 0,75. On convient de rejeter Ho si on obtient trois fois pile. Calculer les probabilités d'erreur de première et de deuxième espèce. b) Déterminer une région critique si on jette la pièce 25 fois et si α = 0,05. Calculer ensuite β. page 55

SQ-20 Probabilités - Statistiques Rép: a) α=1/8 β = 37/64 b) R = {X≥17} β = 0,15

4°) Lorsqu’une machine est bien réglée elle produit des pièces dont le diamètre moyen est 25 mm. Deux heures après un réglage de la machine on a prélevé au hasard un échantillon de 9 pièces. Les diamètres ont pour mesures, en mm : 22 – 23 – 21 – 25 – 24 – 23 – 22 – 26 - 21. Que peut-on conclure, au niveau de confiance 95%, quant à la qualité du réglage de la machine après deux heures de fonctionnement ? Rep: ∅ v.a. normale, moy = 23, s=1,73, n 1) Gn(y) tend vers H quand n tend vers ∞. On a donc la convergence en loi de Yn vers Y. On peut se rendre compte de cette convergence en représentant graphiquement les fonctions gn et Gn .

densités fonctions de répartition d) Vous pouvez essayer de faire le reste sans aide. A chacun son tour de travailler !. 7°) Exercice Chap.5

-V- 9°) page 44. 1 n a) Estimateur de p : F = X = ∑ X k où les Xk sont des B(1,p) indépendantes. Dans ces conditions n k =1 S = ∑ X k est binomiale B(n,p) avec E(S) = np et Var(S) = np(1-p). D'après les propriétés de l'espérance et de la

Variance, on a: page 71

SQ-20 Probabilités - Statistiques

p(1 − p) ⎯n⎯ ⎯→ 0 . F est donc un estimateur sans biais et convergent . →∞ n 1 n1 1 n2 p(1 − p) p(1 − p) D'après les données: F1 = ∑ X k , F2 = X' k , Var ( F1 ) = , Var ( F2 ) = . ∑ n 1 k =1 n 2 k =1 n1 n2 E( F) = p et Var ( F) =

F α + β IJ . F est donc un estiSi F = αF + βF on a E( F) = α p + β p = (α + β) p et Var ( F) = p(1 − p)G Hn n K mateur sans biais ssi α + β = 1 donc β = 1 − α . F α + (1 − α) IJ = f (α) minimale pour RSf '(α) = 0 . La résolug) Pour β = 1 − α on a Var ( F) = p(1 − p)G Hn n K Tf "(α) > 0 1

2

2

1

2

2

2

2

1

2

n1 n2 n1 n2 et β = et F = F1 + F2 . Tout se n1 + n 2 n1 + n 2 n1 + n 2 n1 + n 2 passe en réalité comme si on réunissait les deux échantillons pour n'en faire qu'un seul de (n1 + n2) éléments. h) Estimation ponctuelle avec les données fournies: 500 1000 f = estimation de p = × 0,3 + × 0,23 = 0,303 1500 1500

tion (facile) du système donne α =

8°) Exercice Chap.5 -V- 11°) page 45 . Fonction de vraisemblance de cet échantillon : L( x1 ,K , x n , m) =

n

∏ k =0

2

1 − ( x k −2m) e = 2π

FG H

1 2π

IJ e∑ K n

n

k =1

−

( x k − m) 2 2

n avec ln L = − ln2 π − 2

R| ∂ln L = ∑ bx − mg = 0 On a donc les équations de vraisemblance : | ∂ m ⇔ ∑x S| ∂ ln L = −n < 0 |T ∂ m

( x k − m) 2 . 2 k =1 n

∑

n

k

k =1

2

k

= nm ⇔ m =

1 n

n

∑x

k

k =1

2

L’estimateur de maximum de vraisemblance de m est donc T(X1 ,K , X n ) = 9°) Exercice Chap.6

-VI- 8°) page 50.

On a donc p estimé par f = 85/400 = 0,2125 . Variable de confiance Y =

F GH

donc p( −196 . < Y < 196 . ) = p F − 1,96 b) Pour une longueur 0,04 il faut x 10°)

n

∑X

k

k =1

F− p ≈ N (0, 1) , et p(1 − p) / 400

I et donc I = ] 0,1724 , +0,2526[ JK

0,167 = 0,02 et x = 0,979 ce qui donne 1-α/2=0,836 et α=0,33. 400

Exercice Chap.7 -VII- 7°) page 53. a) Dans le cas où Mo > 20, on est en présence d'un test unilatéral à droite. La variance étant connue, la varia-

X − 20 X − 20 = 3 0,3 30 a − 20 p( X < a ) = 0,95 ⇔ p Y < = 0,95 . 0,3

ble

0,167 0,167 < p < F + 1,96 400 400

1 n

de

test

Y=

F GH

est

N(0,

1).

On

cherche

I JK

On a donc a = 20,9, et le domaine d'acceptation de H0 est : Do = ]-∞, 20,9[ = I .

page 72

donc

a

tel

que

UV SQ 20

h FGH

IJ b K

b) Pour Mo = 21, on a β = p X < 20,9| M = 21 = p X − 21 < 20,9 − 21 = p Y < −0,183 = 0,4276 . En refaisant

c

0,3

0,3

g

le même calcul pour des valeurs différentes de Mo, on a le tableau suivant, qu'on peut compléter par symétrie / 20 : Mo 20 20,25 20,5 (19,5) 20,75 21 (19) 21,25 21,5 22 (19,75) 20,9 − M 0 0,3

1,187

1,645

0,730

0,274

- 0,183

-0,639

-1,095

0,95 0,882 0,767 0,608 0,428 0,262 0,139 β 0,05 0,118 0,233 0,392 0,572 0,738 0,861 1−β a) On a donc la représentation graphique: Courbe de puissance (sommet = minimum)

-2 0,022 0,978

1,2000 1,0000 0,8000 0,6000 0,4000

18 18,3 18,5 18,8 19 19,3 19,5 19,8 20 20,3 20,5 20,8 21 21,3 21,5 21,8 22

0,2000 0,0000

11°)

Exercice Chap.7 -VII- 8°) page 53 a) Si X est normale et les v. a. de l'échantillon indépendantes, on a X ≈ N ( M , σ 2X = 25n ) et donc on a la variable de test: (unilatéral) Y=

X − 10 25 30

F I h G X − 10 < 1,645J = 0,95 d' où (D ) = −∞;+ 11,5 . L'observation ayant H K

c

≈ N (0,1) et donc p X ∈ (D 0 ) = p

0

25 30

donné une moyenne de 11, on accepte l'hypothèse Ho. b) Le test étant unilatéral du même côté, le domaine et la décision sont les mêmes. Mais l'hypothèse (H1) étant β, avec simple, on peut définir un risque

F I h G X − 11 < 11,5 − 11J = pbN(0,1) < 0,548g = 0,708 . H K

c

β = p X ∈ D 0 | M = 11 = p

du

25 30

c) Dans cette question, on impose β = 0,1 et on cherche n. On doit donc avoir, avec un calcul identique à celui a),

OP Q

( D 0 ) = −∞,+10 + 1,96

LM N

F h G H

I JK

10 + 1,96 5n − 11 5 . et donc 0,1 = p( N (0,1) < −1,28) = p X ∈ ( D 0 )| M = 11 = p N (0,1) < 25 n n

c

On a donc la relation: −1 + 1,96 12°)

25 30

5 n

= 1,28

5 n

, ce qui nous donne un échantillon de taille n = 263 .

Corrigé de l’exercice Chap.7 -X- 1°) page 55 Échantillon de taille n = 40 et test H0 : M = 240 contre H1 : M ≠ 240 , variable de test Y = X − 240 ≈ N (0,1) . 50 40

(La loi est normale car la variance est connue)

OP Q

D0 défini par 240 − 1,96

LM N

50 50 , 240 + 1,96 = 224,5 ; 255,5 et 260 ∉ D0. , donc on rejette H0. pour α = 40 40

0,05. Pour α = 0,01, on remplace 1,96 par 2,57, ce qui agrandit D0, et cette fois-ci on accepte H0.

page 73

SQ-20 Probabilités - Statistiques

13°)

Exercice Chap.9 -II- 3°) page 63 avec les données de l'exercice Chap.9 -I- 1°) On peut effectuer des estimations par le calcul ou à l’aide de la droite de Henry x − 24,7 utilise la moyenne et la variance calculées à partir du tableau. La réduction x'i = i 1,44

Intervalles 20 21 22 23 24 25 26 27 28

21 22 23 24 25 26 27 28 29 (∞) Total

centre 20,5 21,5 22,5 23,5 24,5 25,5 26,5 27,5 28,5 n=

ni (ci-moy)² réduction loi N(0,1)

ni

ni c i

2 4 13 40 65 52 18 6 6 206

41 86 292,5 940 1592,5 1326 477 165 171 5091

35,5 41,3 63,7 58,9 3,0 32,2 57,4 46,6 86,0 424,6

x= var = écart type

24,71 2,06 1,44

moyen ne:

-2,59 -1,89 -1,19 -0,50 0,20 0,90 1,59 2,29 ∞

0,0048 0,0294 0,1163 0,3096 0,5791 0,8149 0,9444 0,9890 1,0000

page 62

pi

n pi

regr.

chi 2

0,0048 0,0245 0,0870 0,1933 0,2695 0,2358 0,1295 0,0446 0,0110

1,00 5,05 17,91 39,81 55,51 48,58 26,67 9,19 2,27

6,05 17,91 39,81 55,51 48,58 26,67 11,46

0,00 1,35 0,00 1,62 0,24 2,82 0,03 6,06

distance² d° liberté table chi 2

6,06 4,00 9,5 13,3

à 0,05 à 0,01

décision Ho

On doit donc accepter l'hypothèse nulle, c'est à dire que la série est normale d'espérance 24,7 et de variance 2,06, ce qui confirme l'étude graphique. 14°)

Corrigé de l’exercice Erreur ! Source du renvoi introuvable.page Erreur ! Signet non défini.: Tableau de gauche : résultats obtenus tableau de droite : résultats théoriques : X/Y X/Y 220 290 28 237,8 282,9 299,3 45 40 20 37,7 44,85 47,45 25 15 52 14,5 17,25 18,25 On a donc le test : H0 : indépendance contre H1 : dépendance Variable de test D² ≈ χ 24 d’observation d² = 15,58. D’après la table, on trouve 0,95 ⎯→ 9,49 et donc on rejette l’indépendance.

page 74

UV SQ 20

Chap.12

Exercices du cours

1°) On mesure la durée de vie, dans des conditions normales de 100 piles électriques et on obtient les résultats suivants: durée de vie en h 80 100 120 140 160 180 200 220 240 nb de piles 2 ⏐ 2 ⏐ 16 ⏐ 28 ⏐ 30 ⏐ 15 ⏐ 5 ⏐ 2 a) Calculer la moyenne et l'écart type de cette série. b) Peut-on considérer au seuil de 0,05 que la durée de vie des piles suit une loi normale dont les paramètres sont à déterminer. c) Vérifier graphiquement l'ajustement et retrouver les estimations de la moyenne et de σ.

page 75

SQ-20 Probabilités - Statistiques

Chap.13

Réserve d’exos

1°) On organise un sondage en vue d'une élection, en soumettant à un échantillon représentatif de 1 000 personnes le questionnaire suivant: Si votre année de naissance est bissextile répondez à (1) sinon répondez à (2). (1) Etes-vous né en mai ? (2) Voterez-vous pour Monsieur Lajoie ? Le sondage a donné 450 "OUI" et 550 "NON". Monsieur Lajoie a-t-il des chances d'être élu ? 2°) L'ensemble des professeurs qui assurent la préparation d'un examen peut-être, en première approximation, partagé en bons professeurs, et mauvais professeurs. On considère les événements suivants: A = "le professeur est bon" et B = "le candidat est reçu à son examen", ainsi que les probabilités: p(A) = 0,3 , p(A∩B) = 0,24 et p( A ∩ B) = 0,35 . a) Calculer les probabilités : p( B) , p( B A ) et p( B A ) . b) Un candidat a été reçu. Calculer la probabilité de l'événement: "le professeur était bon". c) On apprend qu'un professeur a vu au cours des dernières années 70% de ses élèves reçus à l'examen, quel est le choix le plus judicieux: • s'adresser à lui pour la préparation à l'examen ? • laisser faire le hasard pour le choix du professeur ? d) Un bon professeur considère 4 de ses élèves. Calculer la probabilité qu'au moins trois soient reçus. 3°) Une compagnie de transport envisage de s’équiper avec un nouveau modèle de pneus pour ses camions. Le propriétaire décide d’effectuer un test sur une petite partie de sa flotte de camions. S’il n’y a pas plus de trois pneus crevés sur 100 000 kilomètres, le nouveau pneu sera accepté. a) Quelle est la probabilité d’acceptation si la probabilité de crevaison est de 0,02 pour 1000 km ? b) - - - - - - - - - - - - - - - - - - 0,1 - - ?

page 76

Probabilités Statistiques

Short Description

Description

Comments

We need your help!