Les probabilités Les probabilités représentent l`essence même des

January 17, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Les probabilités Les probabilités représentent l`essence même des...

Description

Les probabilités Les probabilités représentent l’essence même des statistiques. L’approche fréquentiste et bayésienne sont basées sur la notion de probabilité. Il devient donc important de bien saisir les nuances des probabilités. A cet effet, nous attacherons une attention particulière sur l’identification des caractéristiques propres aux probabilités ainsi qu’aux différentes caractéristiques des distributions. Distinctions entre le caractère empirique et théorique des variables. Une variable est empirique lorsqu’elle est observée et elle est dite théorique lorsqu’elle anticipée. Prenons l’exemple d’un dé à six faces. Chaque coté porte un chiffre de 1 à 6. En théorie, si le dé est bien équilibré, chaque chiffre à une chance égale et connue de « sortir » à chaque tirage. Cette chance est égale à 1/6. Aussi, si nous répétons le lancé du dé 300 fois nous nous attendons, en théorie, à avoir les résultats suivants : Chiffre

Résultat théorique

1 2 3 4 5 6 Total

50 50 50 50 50 50 300

Le chiffre 50 représente 1/6 du total tel que

300 = 50 6

Ce chiffre représente la valeur théorique ou la fréquence que l’on s’attend à avoir si on répète 300 fois l’expérience. Bien entendu il est très rare que le nombre théorique est exactement le même que la fréquence observée que certains appellent également variables empiriques. Cette distinction entre la fréquence théorique et la fréquence observée nous servira éventuellement dans le calcul du Khi carré. La notion du OU et du ET

La première étape consiste à identifier les différentes situations qui peuvent se présenter. Il s’agit en fait de répondre à trois questions : 1) Est-ce que le calcul est basé sur un échantillon ou sur l’ensemble de la population? 2) Est-ce que l’ordre de sélection est important ou non? 3) Est-ce qu’il y a remise ou non? Pour ce dernier cas il s’agit de déterminer si l’élément peut être sélectionné encore. Par exemple, un individu est sélectionné au hasard pour participer à une enquête et ce dernier pourrait être sélectionné encore une fois. Le tableau récapitulatif qui suit illustre le tout :

Tableau des formules

Sans remise (NPR) Avec remise

Arrangement Permutation (ordre (ordre important et important et échantillon) population) N! N! (N-k)! Nk Nn

Combinaison (Ordre pas important) N!

k! * (N-k)! (N+k-1)! k! * (N-1)!

Légende: N = Nombre dans la population et k = Nombre de sélection (NCR)

NpR et NcR représentent les fonctions sur la calculatrice. Nous introduisons ici le symbole ! qui représente le factoriel. Le factoriel indique que le chiffre est multiplié par ses précédents. Par exemple 6! = 6*5*4*3*2*1 = 720 alors que 10! = 10*9*8*7*6*5*4*3*2*1 = 3628800 Exemple : Dans un bureau il y a quatre employés soit : André, Bernard, Carole et Denise. Le patron décide de former des équipes de deux personnes. Pour constituer les équipes le patron décide d’inscrire le nom des quatre employés sur un bout de papier et de mettre le tout dans un chapeau. Combien d’équipes de 2 personnes le patron peut–il faire avec ces 4 employés s’il n’y a aucune remise de nom, c'est-à-dire que le nom une fois sélectionné ne peut être pigé de nouveau, et que l’ordre n’est pas important ? La formule utilisée serait:

N! k!( N − k )!

Nous avons ainsi pour notre exemple : N! = k!( N − k )!

4! = 2!(4 − 2)!

4 * 3 * 2 *1 24 = =6 2*2 4

Il y aurait donc 6 équipes possibles. En utilisant la fonction NcR sur votre calculatrice vous obtiendrez ce résultat. (Vous inscrivez 6 puis la fonction NcR puis 2) On peut illustrer cette réponse de la façon suivante : André Bernard Carole Diane

André X X X X

Bernard 1 X X X

Carole 2 4 X X

Diane 3 5 6 X

L’ordre n’étant pas important les équipes André/Bernard et Bernard/André sont équivalentes et forment une seule et même équipe. Les équipes avec le même nom sont impossibles puisqu’il n’y a pas remise. Si l’ordre est important, par exemple le premier nom sélectionné doit faire une tâche supplémentaire, alors nous utiliserions la formule suivante : 4! 4 * 3 * 2 *1 24 N! = =12 = = (N − k )! (4 − 2)! 2 *1 2 On peut illustrer cette réponse de la façon suivante : André Bernard Carole Diane

André X 4 7 10

Bernard 1 X 8 11

Carole 2 5 X 12

Diane 3 6 9 X

En utilisant la fonction NpR sur votre calculatrice vous obtiendrez ce résultat. S’il est possible que l’employé sélectionné soit de nouveau éligible nous aurions alors une sélection avec remise. L’employé pourrait, théoriquement, ainsi faire équipe avec luimême. Si l’ordre est important (ne demandez pas pourquoi !) alors nous aurions Nk équipes. Dans ce cas ci 42 ou 16 équipes tel que le tableau suivant illustre. C’est 42 parce qu’il y a 4 personnes et nous désirons des équipes de deux personnes. Le tableau qui suit illustre les résultats : André Bernard Carole Diane

André 1 5 9 13

Bernard 2 6 10 14

Carole 3 7 11 15

S’il y a remise mais que l’ordre n’est pas important alors nous aurions : ( N + k − 1)! (4 + 2 − 1)! 5! 120 = = 10 = = k!( N − 1)! 2!(4 − 1)! 2!(3!) 12

Diane 4 8 12 16

On peut illustrer cette réponse de la façon suivante : André Bernard Carole Diane

André 1 X X X

Bernard 2 5 X X

Carole 3 6 8 X

Diane 4 7 9 10

Lorsqu’on utilise toute la population

Si tous les éléments d’une population sont utilisés nous utiliseront les formules qui suivent. Supposons que lors d’une réunion, le patron veut connaître le nombre de façons différentes que les employés peuvent se placer devant lui. Ici tous les employés doivent donc être sélectionnés. (toute la population est ainsi utilisée). Il y a donc N ! manières différentes de placer les employés. 4 ! = 24 Si l’employé peut être sélectionné à chaque tirage (avec remise) nous aurions alors NN manières ou 44 = 256 Il est évident que l’utilisation de l’un ou l’autre de ces calculs dépend de la situation. Les distributions

Il est important de souligner qu’il existe plusieurs types de distributions probabilistes. Également connu sous le nom de Loi discrètes, ces distributions ont un ensemble de possibilités qui respectent certaines conditions. Il s’agit donc de reconnaître ces conditions afin d’être en mesure d’appliquer correctement la loi qui s’y rattache. Nous nous attarderons cependant aux principales d’entres elles et qui sont au nombre de six. La distribution binomiale

Afin d’identifier si on a affaire à une distribution binomiale retenons les deux premières lettre soit bi. Bi veut dire deux. On a affaire à une distribution binomiale lorsqu’il y a deux possibilités de résultats. Par exemple, un appareil fonctionne ou ne fonctionne pas; soit nous sommes un homme soit une femme; la réponse à un examen est vraie ou fausse, nous sommes pour ou contre, un produit est défectueux ou fonctionne, etc. La formule d’une distribution binomiale est la suivante : n x n− x  ( p ) (1 − p )  x n x

signifie le nombre de sélection ou l’échantillon total la partie de l’échantillon qui possède la caractéristique recherchée

p 1-p n-x

la probabilité connue de la caractéristique de la partie de l’échantillon recherché la probabilité de l’autre partie de l’échantillon. Le 1 représentant ici 100% La différence entre la taille de l’échantillon et le nombre de sélection qui possède la caractéristique recherchée

Exemple : Supposons que l’on désire interroger 20 personnes. Nous voulons connaître la probabilité que sur ces 20 personnes il y ait exactement 12 femmes. Supposons également que nous savons que dans la population à l’étude 52% des personnes sont des femmes. Nous aurions donc : n = 20 (Nous désirons un échantillon de 20 personnes) x = 12 (nous désirons 12 femmes) p = ,52 (il y a 52% de femmes dans la population) 1-p = ,48 (puisqu’il il y a 52% de femmes il y a donc 48% d’hommes (100% - 52% = 48%)

Ainsi : n x  ( p ) (1 − p )n − x  x  20   (.52)12 (1 − .52)20−12 12   20  12 8  (.52) (.48) 12   20  N!   = nCr = k!( N − k )! 12  2.43290200818 20! 2.43290200818 2.43290200818 =125970 = = = = 12!(20 − 12)! 479001600(8)! 479001600 * 40320 1.93133445113

(Avec la calculatrice on obtient ce résultat en utilisant la touche NcR). Ceci signifie qu’il y a 125970 combinaisons différentes de douze femmes à partir de 20 personnes. n NOTE : Lorsque les chiffres sont entre parenthèses comme   il faut faire nCr et  x ainsi calculer le nombre de combinaisons.

Nous avons donc maintenant :

(

125970 (.52) (.48) 12

8

)

Tel que : (.52)12 = .000390877

(.48)8 = .002817928

 20  12 8 donc :  (.52) (.48) = 125970((.000390877 )(.002817928)) = 125970 (.000001101) 12  = .13875 ou 13,9%

Rappel : Pour une binomiale il faut : -

qu’il y ait deux possibilités que l’on connaisse la proportion (%) dans la population à l’étude que le total en haut des parenthèses doit être égal à l’échantillon (ici nous avons 12 + 8 = 20)

Pour notre exemple nous avons mentionné que nous désirions EXACTEMENT 12 femmes. Si la question avait été 12 OU 13 femmes alors nous aurions dû additionner les deux probabilités. Il est important de bien examiner la question et d’appliquer la règle du OU et du ET. Lorsque la question comporte la notion du OU on additionne et lorsque la question comporte ET on multiplie. Hypergéométrique

On utilise l’hypergéométrique lorsqu’on possède des informations sur la taille de la population. Ainsi, pour reprendre notre exemple précédent plutôt que de connaître la proportion de femmes (52%) nous connaissons le nombre exact de femmes dans la population à l’étude. Supposons qu’il y a 200 personnes dans une salle et que de ce nombre il y a 52% de femmes. Nous pouvons conclure qu’il y a 104 femmes (52% * 200 = 104). S’il y a 104 femmes alors il y a 96 hommes. Nous connaissons donc la population totale et les sous populations. Ainsi, pour répondre à la question quelle est la probabilité que sur un échantillon de 20 personnes nous ayons exactement 12 femmes nous procéderions de la façon suivante à l’aide la formule de l’hypergéométrique.1 Cette formule est :  N 1  N 2      x  n − x  N   n  1

Il est important de noter qu’il est possible d’utiliser l’hypergéométrique pour plus de deux sous populations.

Tel que : N1 = La sous population 1 (ici le nombre de femmes - 104) N2 = La sous population 2 (ici le nombre d’hommes - 96) n = La taille de l’échantillon total (ici un échantillon de 20 personnes) x = La taille du sous échantillon de la population 1 (ici nous désirons 12 femmes) n-x = La taille du sous échantillon de la population 2 (ici nous désirons 8 hommes (2012=8) Nous aurions donc :  N 1  N 2      x  n − x  = N   n 

104  96     12  8   200     20 

N Rappelons que l’expression entre parenthèse   signifie NcR. Aussi pour notre n  exemple nous aurions 104NcR12 multiplié par 96NcR8 (la question demande 12 femmes ET 8 hommes) et divisé par 200NcR20 ce qui nous donne : 104  96     12  8  = 0,1420 ou 14,2% On remarquera qu’il y a une différence entre le calcul de  200     20  la Binomiale (13,9%) et de l’Hypergéométrique. Plus la population N sera grande plus les deux résultats seront semblables.

Supposons que la taille de la population est de 100 plutôt que de 200. Nous aurions alors :  52  48     12  8  = 0,14529 ou 14,5% 100     20 

NOTE : Vous remarquerez que le total des deux sous populations (ici 52+48) est égal au total de la population (ici 100) et que le total des deux sous échantillons (ici 12+8) est égal à l’Échantillon total (ici 20). Il est important que les chiffres concordent. On utilise l’hypergéométrique dans le calcul de certaines loteries. Par exemple :

Nous savons que la probabilité de gagner le gros lot à la 6/49 est : 49! N! = = 13983816 = 1/13983816 = ,000000072 k!( N − k )! 6!(49 − 6)! Il n’y a qu’une seule combinaison gagnante et il y a 13983816 combinaisons au total. 6/6 = nCr =

Nous utiliserons l’hypergéométrique pour calculer la probabilité de gagner le deuxième prix soit 5 bons numéros plus le numéro complémentaire (qui représente un septième chiffre sélectionné par la société de loterie) nous aurions alors :  6 1 42      5 1 0 5/6 + =     = ,0000000429  49    6 

Si nous décomposons la formule nous avons :  6 1 42       5 1 0  tel que  49    6   6   = La société de loterie sélectionne 6 chiffres et le 5 représente cinq de ces chiffres sur 5 votre billet. Il y a donc 6NcR5 combinaisons de 5 chiffres à partir des 6 chiffres qui ont été sélectionné par la société de loterie. Habituellement on exprime 6 NcR5 de la façon suivante: C 56 . Ici, le résultat est 6. 1   = Il n’y a qu’un seul numéro complémentaire et ce numéro doit également apparaître 1 sur notre billet. Nous avons donc 1NcR1 ce qui donne 1. En fait il n’y a qu’une seule façon que cela se produise.  42    = Une fois tous les chiffres sélectionnés il reste encore 42 boules dans le boulier. 0  Cependant tous les numéros qui apparaissent sur notre billet ont été sélectionnés. Il en reste donc zéro.  49  Nous avons calculé précédemment   qui représente toutes les combinaisons possibles. 6 

Nous avons donc ici

6 *1 *1 6 = = ,000000429 13983816 13983816

Remarquez que le total de chiffre en haut de la parenthèse donne 49 (6+1+42), ce qui représente le total de boules dans le boulier, et que le total du bas de la parenthèse donne 6 (5+1+0). Ce chiffre représente le total de chiffres sur le billet. La probabilité d’avoir 5 bons chiffres mais pas le numéro complémentaire est pour sa part :  6 1  42      5 0 1 5/6 =     = ,000018021  49    6 

Rappel. On utilise l’hypergéométrique lorsque l’on connaît la population et les sous populations. Une erreur fréquente consiste à oublier des éléments dans le calcul. Pour notre exemple ci haut nous devons avoir 6+1+42 = 49 et 5+0+1 = 6 On retrouve ces deux chiffres au dénominateur. La loi géométrique

La loi géométrique contrairement à la loi binomiale ou hypergéométrique dépend des résultats obtenus. On répète l’épreuve jusqu’au moment ou on enregistre un premier succès. La formule est la suivante : P(1) = pqn-1 tel que : p représente la probabilité d’un succès q représente la probabilité d’un échec x représente le succès n représente le nombre d’essais On utilise n-1 puisque nous désirons un seul succès Nous avons également la formule suivante : P(x) = p (1-p)n-1 Reprenons notre exemple. Nous savons que 52% des personnes présentes dans une salle sont des femmes. Nous désirons poser une question à la première femme qui sera sélectionnée. Quelle est la probabilité que la première femme sélectionnée soit la troisième personne interrogée? Si tel est le cas nous savons également que les deux premières personnes interrogées seront des hommes. Nous aurons donc : P(1) (,52)1 (,48)2 = 0,1198 ou 11,98% On utilise ce calcul dans certains jeux. Supposons que deux personnes jouent à pile ou face. Le joueur gagne dès que la pièce de monnaie tombe sur face. Pour avoir le droit de jouer le participant doit mettre une mise de $2. S’il gagne il reprend son $2 plus $1.

Quelle est la probabilité que le joueur gagne au troisième tour? Le joueur aurait donc échoué aux deux premiers tours avant d’avoir un succès. Nous savons au départ que le joueur a une chance sur deux de gagner. Nous aurions donc : P(1) = (,50)1 (,50)3-1 P(1) = (,50)1 (,50)2 P(1) = (,50) (,25) P(1) = 0,125 Il y a 12,5% des chances que le joueur gagne au troisième tour. En terme de gains ou de pertes ceci se traduirait par ceci : Situation 1 Mise $2

Résultat Gain

Gain/(Perte) $3

Probabilité (,50)1 (,50)0 = ,5

Ici le joueur a dépensé $2 pour gagner $3 et il aura un dollar de plus qu’au départ. Le joueur a une chance sur deux que cela arrive. Situation 2 Mise $2 $2

Résultat Perte Gain

Gain/(Perte) ($ 2) $3

Probabilité (,50)1 (,50)1 = ,25

Ici le joueur a dépensé $4 pour gagner $3. Une perte pour le joueur de $1. Il y a 25% des chances que cela arrive. Situation 3 Mise $2 $2 $2

Résultat Perte Perte Gain

Gain/(Perte) ($ 2) ($ 2) $3

Probablité (,50)1 (,50)2 = ,125

Ici le joueur a dépensé $6 pour gagner $3. Une perte pour le joueur de $3. Il y a 12,5% des chances que cela arrive. En fait si le joueur ne gagne pas la première fois il sera perdant et la maison (casino ou autre) sera gagnant. La binomiale négative

On utilise la loi binomiale négative lorsqu’on désire un ne succès. Contrairement à la loi géométrique ou on arrête dès le premier succès. La formule est la suivante :

 x − 1 n  p (1 − p ) x − n P ( x) =   n − 1

Pour démontrer la différence entre les différentes distributions, y compris la binomiale négative, prenons l’exemple suivant. Exemple intégrant plusieurs distributions

Supposons que vous croisez une copine sur la rue. Elle est maintenant en couple et ce dernier a décidé de fonder une famille. Vous lui demandez : -

Combien d’enfants avez-vous l’intention d’avoir? Nous en voulons 4. Et mon conjoint aimerait beaucoup avoir un garçon.

Quelle est la probabilité qu’il n’y ait qu’un seul garçon parmi les enfants du couple? Ici peu importe que le garçon soit le premier, deuxième, troisième ou quatrième enfant. Enfin supposons que la probabilité d’avoir un garçon, pour notre exemple est de 48%. Telle qu’émise la question implique l’utilisation de la binomiale. Tout ce que nous voulons savoir c’est la probabilité que le couple ait un seul garçon sur les 4 enfants.2 n x n− x La formule de la binomiale est donc :  ( p ) (1 − p )  x

Telle que (pour notre exemple) : n x p 1-p n-x

signifie le nombre d’enfants (ici 4) le nombre de garçon (ici 1) la probabilité connue d’avoir un garçon (ici 48%) la probabilité d’avoir une fille (ici 1-0,48 = 52%). Le 1 représentant ici 100% La différence entre le nombre d’enfants (4) et le nombre de garçon (1)

Nous aurions également pu poser la question différemment soit : Quelle est la probabilité que le couple ait 3 filles et un garçon? Le calcul est : n x  ( p ) (1 − p )n − x  x  4  (0,48)1 (1 − 0,48)4−1 1  2

Bien entendu nous aurions pu demander une seule fille….

 4  (0,48)1 (0,52)3 1 

Il y a C14 manières différentes que la couple ait un garçon soit : 1er enfant Garçon Fille Fille Fille

2e enfant Fille Garçon Fille Fille

3e enfant Fille Fille Garçon Fille

4e enfant Fille Fille Fille Garçon

Il y a donc 4 manières différentes d’avoir un garçon sur quatre enfants. La probabilité d’avoir un garçon ET une fille ET une fille ET une fille, pour notre exemple est donc : (0,48)1 (0,52)3 = 0,48 * 0,1406083 = 0,06749184 ET ceci peut se produire 4 fois. Nous avons donc une probabilité de 0,06749184 * 4 = 0,26996736 ou 27%. N’oublions pas que le ET indique la multiplication. Si la question avait été : Quelle est la probabilité que le couple ait un OU deux garçons alors nous aurions :  4  (0,48)1 (0,52)3 = 0,26996736 1  OU  4  (0,48)2 (0,52 )2 = 0,37380096  2

La probabilité que le couple ait un OU deux garçons est donc de : 0,26996736 + 0,37380096 = 0,64376832 ou 64,38% L’ensemble de toutes les probabilités doit donner 100%. Ainsi, la probabilité d’avoir :  4 0 4 aucun garçon P(0) =  (0,48) (0,52 ) = 0,07311616 0 Détails du calcul : 4nCr0 =1 Il y a en effet une seule possibilité d’avoir aucun garçon soit : FFFF (0,48)0 = 1 (0,52)4 = 0,07311616 puisque (0,52)4 = 0,52*0,52*0,52*0,52 3

0,52 * 0,52 * 0,52 = 0,140608

 4 1 3 un garçon P(1) =  (0,48) (0,52) = 0,269967369 1   Détails du calcul : 4nCr1 =4 Il y a en effet 4 possibilités d’avoir un garçon soit :

GFFF FGFF FFGF FFFG (0,48)1 = 0,48 (0,52)3 = 0,140608 puisque (0,52)4 = 0,52*0,52*0,52 Donc : (0,48) * (0,140608) = 0,06749184 4*0,06749184 = 0,269967369 ou 27%  4 2 2 deux garçons P(2) =  (0,48) (0,52 ) = 0,37380096  2 Détails du calcul : 4nCr2 = 6 Il y a en effet 6 possibilités d’avoir deux garçons soit :

GGFF GFGF GFFG FGFG FFGG FGGF (0,48)2 = 0,2304 puisque (0,48)2 = 0,48*0,48 (0,52)2 = 0,2704 puisque (0,52)2 = 0,52*0,52 Donc : (0,2304) * (0,2704) = 0,06230016 6*0,06230016 = 0,37380096 ou 37,4%  4 3 1 trois garçons P(3) =  (0,48) (0,52 ) = 0,23003136 3 Détails du calcul : 4nCr3 = 4 Il y a en effet quatre possibilités d’avoir trois garçons soit :

GGGF GFGG GGFG FGGG (0,48)3 = 0,110592 puisque (0,48)3 = 0,48*0,48*,48 (0,52)1 = 0,52

Donc : (0,110592) * (0,52) = 0,05750784 4*0,05750784 = 0,23003136 ou 23%  4 4 0 quatre garçons P(4) =  (0,48) (0,52 ) = 0,05308416 4   Détails du calcul : 4nCr4 = 1 Il y a en effet une seule possibilité d’avoir 4 garçons soit :

GGGG (0,48)3 = 0,110592 puisque (0,48)3 = 0,48*0,48*,48 (0,52)1 = 0,52 Donc : (0,110592) * (0,52) = 0,05750784 4*0,05750784 = 0,23003136 ou 23% Nous avons donc : 0,07311616 + 0,269967369 + 0,37380096 + 0,23003136 + 0,05308416 = = 1,00 ou 100% Notez qu’il est possible de calculer les probabilités pour les filles avec les résultats précédents puisque la probabilité d’avoir 4 garçons est égale à la probabilité d’avoir aucune fille et ainsi de suite.  4 4 0 aucune fille P(0) =  (0,48) (0,52 ) = 0,05308416 0   Variation dans la situation – La Géométrique

Rappelons la situation. Vous avez croisé une copine sur la rue et vous lui avez demandé combien d’enfant(s) elle et son copain avaient l’intention d’avoir. Elle vous a répondu : - Nous en voulons 4. Et mon conjoint aimerait beaucoup avoir un garçon. Avec cette réponse le rang du garçon n’a aucune importance. Cependant si la réponse avait été : -

Mon conjoint m’a dit que l’on va arrêter aussitôt que nous aurons un garçon.

Donc ici si le premier enfant est un garçon votre copine aura un enfant. Cependant si elle vous signale qu’elle aimerait bien avoir 4 enfants alors quelle est la probabilité que votre copine ait effectivement 4 enfants compte tenu que le couple arrêtera d’avoir des enfants aussitôt qu’ils auront un garçon? Pour que cela se réalise il faut absolument que le quatrième enfant soit un garçon. Ici nous devons utiliser la loi géométrique. Nous arrêtons au premier « succès ».

La formule pour la distribution géométrique est : pqn-1 Aussi la question devient qu’elle ait la probabilité que le couple ait quatre enfants compte tenu qu’il arrêtera dès qu’il aura un garçon? Pour que cela arrive il faut que les trois premiers enfants soient des filles. En supposant que la probabilité d’avoir un garçon est de 48% et de 52% pour une fille nous avons alors :

(,48)1 (.52)3 = (,48)(.140608) = 0.06749184 . Il y a donc 6,7% des chances que le couple ait 4 enfants sachant que le quatrième enfant sera un garçon. Il n’y a pas de nCr puisqu’il n’y a qu’une seule possibilité soit FFFG. Variation dans la situation – La binomiale négative

Si dans la conversation la réponse de votre copine avait été : - Nous aurons des enfants jusqu’au moment ou nous aurons deux garçons (ou deux filles). Votre copine vous réaffirme son désir d’avoir 4 enfants. Quelle est donc la probabilité que le couple de votre copine ait 4 enfants dont deux garçons et que le 4e enfant sera un garçon puisque le couple arrêtera d’avoir des enfants au deuxième garçon. Le quatrième enfant doit être un garçon puisque le couple arrêtera d’avoir des enfants au moment de la venu d’un deuxième garçon. Par ailleurs, l’autre garçon peut, théoriquement, être le premier, le deuxième ou le troisième. Nous avons donc :  x − 1 n  p (1 − p ) x − n P ( x) =   n − 1

Tel que : x représente le nombre d’enfant (pour l’exemple 4) n représente le nombre de garçon (pour notre exemple 2) p représente la probabilité d’avoir un garçon (pour notre exemple (,5) q représente la probabilité d’avoir une fille (pour notre exemple (,5) Nous avons x-1 et n-1 parce que nous savons que le dernier enfant sera un garçon. Il s’agit alors de calculer la probabilité pour le premier garçon. Donc :  x − 1 n  p (1 − p ) x − n P ( x) =   n − 1  4 − 1 (,48)2 (1−,48)4− 2 P (4) =   2 − 1

 3 2 2 P(4) =  (,48) (,52) 1   3 P(4) =  (,2304)(,2704) 1   3 P (4) =  (0,6230016) 1  P (4) = 3(0,06230016 ) (En effet 3NcR1 = 3)

P (4) = 0,18690048 ou 18,7% Vous remarquerez que les probabilités changent en fonction de la spécificité de la question et/ou du problème. Ainsi la probabilité qu’un couple qui a 4 enfants dont 2 garçons est de 37,4% alors que la probabilité qu’un couple ait 4 enfants dont deux 2 garçons mais que le 4e enfant est un garçon est de 18,7%. La distribution de Poisson

On utilise la Poisson lorsqu’il y a une moyenne (identifiée par la lettre grecque lambda λ) qui est fixe dans l’espace ou le temps. La formule est la suivante :

e −λ * λx x!

e représente la constante 2.71828182…. λ représente la moyenne x représente l’évènement

Exemple : Supposons qu’un professeur fait le pari qu’il n’y aura pas de A+ dans son cours. Pour faire cela il déduira 2 points par fautes. Ce que le professeur omet de mentionner c’est qu’il sait qu’en moyenne les étudiants font une demi faute par page. Supposons que le professeur exige un travail de 20 pages et que pour obtenir un A+ il faut une note de 96%. Quelle est la probabilité qu’un étudiant ait 2 fautes ou moins et ait encore une chance d’obtenir un A+? Nous avons donc une moyenne par page de 0,5 faute. Pour un travail de 20 pages ceci équivaut à une moyenne de 10 fautes. Nous savons que lambda (λ) représente la moyenne de fautes pour le travail Donc λ = 10. Quelle est la probabilité qu’un étudiant ait 2 fautes ou moins. Nous devons donc calculer la probabilité de 0, 1 et 2 fautes.

e −λ * λx x! −10 e *10 0 P(0) = = .0000454 0! + e −10 *101 = .000453999 P(1) = 1! + e −10 *10 2 = ,002269996 P(2) = 2!

P(x) =

(Il existe une fonction ex sur votre calculatrice. Il est important d’inscrire la moyenne puis le signe négatif (et non le signe de la soustraction) pour exécuter la première partie de la formule) La probabilité qu’un étudiant ait 2 fautes ou moins est de .002769395 ou moins de 1%. (On doit additionner les trois résultats). Le professeur va très probablement gagner son pari : aucun étudiant aura un A+. Rappel. On utilise la Poisson lorsqu’il y a une moyenne fixe et invariable dans le temps et/ou l’espace. La multinomiale

Contrairement à la binomiale ou seul deux résultats sont possibles, la loi multinomiale s’applique lorsqu’il y a plus de deux résultats possibles. Ceci est habituellement le cas dans les sondages électoraux ou il y a plus de deux partis. La formule de la multinomiale est la suivante : n! p x1 p x2 .... p xk x1!x 2 !...x k ! Tel que n représente la taille de l’échantillon x1; x2; xk représentent le nombre dans l’échantillon qui ont la caractéristique 1, 2…k p x1 p x2 .... p xk représente les proportions des différents résultats possibles Par exemple, supposons qu’il y a trois partis politiques en lice (A,B et C) et que nous connaissons la proportion dans l’intention de vote pour chacun de ces partis (respectivement de 41%, 32% et 27%). Quelle est la probabilité que sur un échantillon de 10 personnes on retrouve exactement 4 partisans du parti A; et 3 du parti B et 3 du parti C?

Nous aurions donc n! p x1 p x2 .... p xk x1!x 2 !...x k ! 10! 3 3 (,41) 4 (,32) (,27 ) 4!3!3! 3628800 (,02825761)(,106666667 )(,019683) 864 4200 X ,000059327 = 0,2491 ou 24,9%

Ce calcul est important lors de la planification des enquêtes spécialisées. Cote Z et valeur de Z (Z)

Il y a deux utilisations au calcul du Z. La première sert à « normaliser » les observations alors que la seconde sert à calculer la probabilité d’un évènement. Dans les deux cas la formule est la même : Z=

xi − x s

Tel que : xi représente la valeur x représente la moyenne (note en utilisant la lettre grecque µ il s’agirait alors de la moyenne de la population) s représente l’écart type (note en utilisant σ il s’agirait alors de l’écart type de la population) Exemple de la cote Z

Il s’agit en fait de rendre comparable des résultats qui proviennent d’observations différentes. Supposons que vous devez analyser la performance dans un cours de statistiques de quatre étudiants qui étudient dans quatre universités différentes. Vous pourriez utiliser les résultats de ces quatre étudiants (la note finale par exemple)4. Cependant, comme ces quatre étudiants ne viennent pas de la même université il faut « normaliser » les notes ou 4

Cet exemple est tiré du livre d’Alain Gilles Éléments de méthodologie et d’analyse statistique pour les sciences sociales, McGraw Hill, 1994 pp.188-189

les rendre comparables entre elles. En effet est-ce qu’un étudiant qui a obtenu une note de 93 est, par rapport à ses confrères de classe, plus performant qu’un étudiant qui a obtenu 85 dans une autre classe? C’est ce que le Z permet de mesurer. Plus le résultat est loin de 0 plus la « performance » est supérieure quand le Z est positif ou inférieur quand le Z est négatif. Afin d’illustrer ceci supposons les quatre étudiants suivants : Étudiant

Note

Moyenne du groupe

A B C D

93 85 82 75

88 80 87 80

Écart type σ ou S 18.9 13.7 12 13.2

Quel étudiant a le mieux performé par rapport à son groupe? On utilise la formule x −x du Z : i tel que : s ZA =

(93 − 88)

= + 0,26 18,9 (85 − 80) = + 0,36 ZB = 13,7 (82 − 87 ) = - 0,42 ZC = 12 (75 − 85) = - 0,38 ZD = 13,2

On remarquera que tous les étudiants ont une différence de + ou - 5 points par rapport à la moyenne de leur groupe respectif. On ne peut donc utiliser cette différence pour identifier le plus « performant ». Cependant lorsqu’on examine les résultats des différents Z on remarque que c’est l’étudiant B qui obtient le Z le plus élevé. C’est donc lui qui a le mieux réussi par rapport à ses collègues. Ainsi, l’étudiant qui a obtenu 93 a été moins performant (avec un Z de + 0,26 comparativement à +0,36 pour l’étudiant B) Également, l’étudiant C même s’il a obtenu une note de 82 a une moins bonne cote Z (-0,42) que l’étudiant D (-0,38). Rappelons que plus le Z s’éloigne de 0 plus il y a écart dans la « performance ». Voici le tableau comparatif des résultats bruts et du Z. Étudiant

Note

A B C D

93 85 82 75

Rang selon la note 1 2 3 4

Z +0,26 +0,36 -0,42 -0,38

Rang selon Le Z 2 1 4 3

La valeur du Z

On utilise également le Z afin de mesurer la superficie en pourcentage sous une courbe normale. Remarquez qu’il est nécessaire d’avoir une courbe normale pour utiliser le Z x −x x −x dans ce cas5. On utilise la même formule soit Z = i ou Z = i s σ Exemple : Supposons que les ampoules produites par un manufacturier ont une durée de vie moyenne de 2000 heures. Supposons également que l’écart-type est de 250 heures (S). Combien d’ampoules auront une durée de vie d’au moins 1750 heures? On sait que la production suit une courbe normale. Dans une courbe normale 50% des observations se retrouvent entre la moyenne et la limite inférieure et 50% des observations se retrouvent entre la moyenne et la limite supérieure. Pour notre exemple 1750 se retrouve avant la moyenne de 2000. Il s’agit donc à l’aide du Z de calculer la superficie entre 1750 heures et 2000 heures. Si nous appliquons la formule du Z nous avons : xi − x 1750 − 2000 − 250 = = = -1 Le Z = -1. Pour interpréter ce résultat nous s 250 250 devons utiliser la table du Z (ce qui n’était pas le cas avec la cote Z). Avec un Z de +1,00 ou de -1,00, la table nous donne une superficie de 34,13%. Il y aurait donc 34,13% des ampoules dont la durée de vie se situe entre 1750 et 2000 heures. On peut illustrer cette situation par le graphique suivant :

Z =

50%

50%

34,13% 1750

2000

Si la question est de savoir quelle est la probabilité que l’ampoule dure 1750 heures ou plus alors nous avons 34,13% entre 1750 et la moyenne et 50% entre la moyenne et la limite supérieure donc 34,13% + 50% = 84,13%.

5

Dans le cas contraire, avec une courbe asymétrique, nous devrions utiliser le théorème de Chebyshev.

Si, au contraire, nous désirons savoir combien d’ampoules, en pourcentage, brûlerons 1750 heures et moins nous aurions comme résultat, toujours avec la même moyenne et le même écart-type: 50% – 34,13% = 15,87% Autre exemple : Avec les mêmes données que pour l’exemple précédent, une moyenne de 2000 heures et un écart-type de 250 heures, nous désirons savoir combien d’ampoules brûleront entre 1750 heures et 2250 heures. Nous avons donc : 1750 − 2000 = -1 250 2250 − 2000 = +1 Z2250 = 250

Z1750 =

Nous aurions donc 68,26% des ampoules entre ces mesures.

34,13% 34,13% 1750

2000 2250

Enfin si nous désirons mesurer le pourcentage entre 1750 heures et 1785 heures nous devrions faire le calcul suivant : 1750 − 2000 = -1 250 1785 − 2000 = - 0.86 Z1785 = 250

Z1750 =

Nous savons déjà que Z=1 représente 34,13% entre 1750 heures et la moyenne de 2000 heures. La table nous indique que pour un Z de -0,86 la superficie est de 30,51%. Il y aurait donc entre 1785 heures et 2000 heures 30,51% des ampoules. Nous désirons connaître combien, toujours en pourcentage, il y a d’ampoules entre 1750 et 1785 heures tel qu’illustré dans le graphique ci bas. Il s’agit donc de calculer la différence entre les deux Z tel que : 34,13% - 30,51% = 3,62%. Il y a donc 3,62% des ampoules entre 1750 et 1785 heures.

30,51% 3,62% 34,13 1750

2000 1785

Nous aurons l’occasion de revenir sur l’utilité du Z ultérieurement. Mentionnons seulement que + ou – 1 Z = 68,26% de la superficie et que +ou- 2 Z = 95,44%. Ces deux chiffres sont d’importants points de références à la fois pour les tests statistiques et pour les sondages.

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF