StatL3S5 Statistiques appliquées à la psychologie 3

January 12, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download StatL3S5 Statistiques appliquées à la psychologie 3...

Description

StatL3S5 Statistiques appliquées à la psychologie 3 C. Trottier Université Paul Valéry - Montpellier 3

Année universitaire 2009-2010

(UPV)

StatL3S5

2009/2010

1 / 81

Nouvelle évaluation 2009 - 2010 3 évaluations au cours du semestre : - contrôle continu 1 (CC1) : le jeudi 22 octobre à partir de 17h15 jusqu’à 20h00 - contrôle continu 2 (CC2) : le jeudi 26 novembre à partir de 17h15 jusqu’à 20h00 - le devoir final (DF) : en semaine 16 du semestre 1 note de présence et participation (P) note 1 = DF note 2 = (P + 2 × CC1 + 2 × CC2 + 5 × DF)/10 note = max(note1, note2) Il n’y a plus de 2e session.

(UPV)

StatL3S5

2009/2010

2 / 81

Briques de base en probabilité pour la statistique inférencielle.

Hasard

???

• résumer • modéliser et tester

(UPV)

StatL3S5

2009/2010

3 / 81

Chapitre 1 : Introduction La statistique est une discipline qui, à partir de la répétition d’observations, permet de mettre en évidence des phénomènes tout en ne fournissant en aucun cas d’explication. L’explication, l’interprétation ... sont l’affaire du praticien, du psychologue, du médecin, du sociologue. Elle est un outil précieux d’aide à l’analyse, qu’il est nécessaire de connaître suffisamment pour s’en servir, i.e. comprendre ses principales notions, la logique qui les sous-tend pour mettre en œuvre des techniques sans pour autant en connaître les détails des fondements mathématiques. En particulier se familiariser avec : • les méthodes de synthèse et de résumé • la recherche des liens entre variables • la question du hasard • la modélisation (UPV)

StatL3S5

2009/2010

4 / 81

Les statistiques se prêtent bien à l’étude de phénomènes de masse tels que : • la réussite sociale • les choix électoraux • la consommation toute situation où l’on peut considérer, en première approximation, que les individus sont confrontés indépendamment les uns des autres à des conditions semblables.

La statistique peut schématiquement se diviser en 2 catégories : • la statistique descriptive • la statistique inférencielle ou décisionnelle

(UPV)

StatL3S5

2009/2010

5 / 81

⊲ La statistique descriptive : Démarche : à partir d’une question posée et de la sélection de la (ou des) variable(s) pertinente(s), et après avoir réalisé l’observation, on dispose d’un tableau de données plus ou moins complexe qu’il est nécessaire de décrire. La statistique descriptive consiste alors à synthétiser, à résumer (en la structurant) l’information contenue dans les données : • par des indices simples ou graphiques pour une variable : la moyenne, le mode, la médiane, les quantiles l’étendue, l’intervalle inter-quartiles, l’écart-type, la variance, le skewness, le kurtosis le diagramme en barres, en bâtons, l’histogramme, le box-plot la fonction de répartition • par des outils adaptés à la statistique multidimentionnelle le coefficient de corrélation linéaire les méthodes factorielles les méthodes de classification. (UPV)

StatL3S5

2009/2010

6 / 81

Définition des indices numériques classiques : RAPPEL Sur un échantillon de n individus extrait de la population d’intérêt et sur lequel on mesure une variable X , on note x1 , x2 , . . . , xi , . . . , xn les observations : • la moyenne n

x¯ =

1 1X (x1 + x2 + · · · + xi + · · · + xn ) = xi n n i=1

• la variance (empirique) σx2 =

n n 1 X 2 1X xi ) − x¯2 (xi − x¯)2 = ( n n i=1

i=1

• l’écart-type (empirique) v u n u1 X σx = t (xi − x¯)2 n i=1

(UPV)

StatL3S5

2009/2010

7 / 81

• les observations centrées (de moyenne nulle) et réduites (de variance 1) de la variable X sont : xi − x¯ zi = σx • le skewness (empirique) n

n

i=1

i=1

1X 3 1 X xi − x¯ 3 skx = ) zi = ( n n σx le skewness empirique d’une distribution symétrique est proche de 0. • le kurtosis (empirique) n

n

i=1

i=1

1 X xi − x¯ 4 1X 4 ) zi = ( kx = n n σx le kurtosis empirique d’une distribution symétrique "classique" est proche de 3. (UPV)

StatL3S5

2009/2010

8 / 81

• l’histogramme Exemple 1 : 2 variables continues (1000 observations) taille d’une population masculine précipitations pluvieuses X1 X2 250

400

200 300 150 200 100

100 50

0

0 0.0195151 37.5558702 75.0922254 112.6285805 150.1649356 187.7012908 18.7876927 56.3240478 93.8604029 131.3967581 168.9331132

152.41522 162.12319 171.83116 181.53913 191.24710 200.95507 157.26921 166.97717 176.68514 186.39311 196.10108 Y

moyenne : variance : écart-type : skewness : kurtosis : (UPV)

174.9 51.2 7.16 0.047 2.95

30.3 856.6 29.3 1.85 7.88 StatL3S5

2009/2010

9 / 81

Exemple 2 : 2 variables continues symétriques (1000 observations et 20 classes) X1 X3

120

300

80

200

40

100

0

0 152.41522 162.12319 171.83116 181.53913 191.24710 200.95507 157.26921 166.97717 176.68514 186.39311 196.10108 Y

moyenne : variance : écart-type : skewness : kurtosis : (UPV)

109.7920 130.7054 151.6188 172.5322 193.4455 214.3589 120.2487 141.1621 162.0755 182.9888 203.9022 Yta

174.9 51.2 7.16 0.047 2.95

174.7 47.5 6.89 -0.94 13.5 StatL3S5

2009/2010

10 / 81

• le box-plot (empirique) X1

X2

X3 220

200 190 200

150

170

Yta

180

Ye

Y

180

100

160

140

160 50

120 150 0

100

140

Min : 1st Qu. : Median : 3rd Qu. : Max :

147.46 169.82 174.85 179.85 195.54

(UPV)

0.091 9.109 21.97 42.74 211.71 StatL3S5

109.79 171.20 174.98 178.56 214.36 2009/2010

11 / 81

• la fonction de répartition empirique

150

160

170 sort(Y)

(UPV)

180

190

0.8 0.0

0.2

0.4

Prob

0.6

0.8 0.6 Prob 0.4 0.2 0.0

0.0

0.2

0.4

Prob

0.6

0.8

1.0

X3

1.0

X2

1.0

X1

0

50

100 sort(Ye)

StatL3S5

150

200

120

140

160

180

200

sort(Yta)

2009/2010

12 / 81

• la covariance

n

1X cov (X , Y ) = (xi − x¯)(yi − y¯ ) n i=1

• la corrélation linéaire

cov (X , Y ) σx × σy

ρ(X , Y ) =

ρ = 0.0988

ρ = −0.6181

y

y

3

4

5 x

(UPV)

6

7

3

−14

10

−12

4

−10

y

5

15

−8

6

−6

20

−4

Exemples ρ = 0.9276

3

4

5 x

StatL3S5

6

7

3

4

5

6

7

x

2009/2010

13 / 81

⊲ la statistique inférencielle ou décisionnelle Démarche : à partir de l’information relevée sur un échantillon et représentée par un jeu de données plus ou moins complexe, il s’agit de chercher à prendre une décision au sujet de la population toute entière. Une décision c’est par exemple : - proposer une estimation (ex : le sondage) - donner une prédiction (ex : la météo) - répondre à une question : y-a-t-il une différence entre 2 situations ? telle sous-population est-elle “meilleure” que telle autre ? - vérifier (confirmer ou infirmer) une hypothèse Modélisation : pour prendre cette décision, il est nécessaire de tenir compte des fluctuations liées à l’observation (aléa d’échantillonnage), i.e. de séparer la part systématique inhérente au phénomène observé de l’aléa propre à chaque individu. On construit ainsi, à l’aide des observations faites sur l’échantillon, un modèle du phénomène observé. (UPV)

StatL3S5

2009/2010

14 / 81

Ce modèle est ajusté aux données de l’échantillon mais doit toutefois garder des propriétés de généralisation. Ainsi il n’est jamais en parfaite adéquation et la décision prise sera donc toujours entachée d’incertitude. Pour contrôler et quantifier cette incertitude, on fait appel aux probabilités. Toute inférence (passage de propriétés observées sur un échantillon à des conclusions portant sur la population toute entière) devra donc faire appel à des outils de calcul de probabilité. Nous en verrons les briques de base nécessaires à l’inférence dans ce cours.

(UPV)

StatL3S5

2009/2010

15 / 81

Chapitre 2 : Notions élémentaires en probabilité I - Vocabulaire • Expérience aléatoire une expérience est dite aléatoire lorsqu’elle est susceptible d’avoir plusieurs résultats (ou issues) différent(e)s sans que l’on puisse être capable de prédire avec certitude lequel (laquelle) se réalisera. • Univers des possibles l’ensemble de toutes les issues possibles à une expérience aléatoire constitue un ensemble que l’on désigne par Ω et que l’on appelle univers des possibles. • Événement un événement est une propriété énoncée sur le résultat de l’expérience. On dit que l’événement est réalisé ou non selon que la propriété est vérifiée ou non à l’issue de l’expérience. (UPV)

StatL3S5

2009/2010

16 / 81

Exemple 1 : Candidater à un job Ω = {obtenir le job, ne pas obtenir le job} Événement A : “l’individu obtient le job” A = {obtenir le job} Remarque : situation particulière - d’une expérience aléatoire à seulement 2 résultats possibles, on l’appelle expérience de Bernoulli - d’un événement qui ne correspond qu’à une seule issue possible, on l’appelle événement élémentaire Exemple 2 : Lancer d’un dé Ω = {1, 2, .., 6} Événement A : “obtenir un nombre pair” A = {2, 4, 6}

(UPV)

StatL3S5

2009/2010

17 / 81

Exemple 3 : Compter le nombre de fautes de français dans une copie d’examen Ω=N Événement A : “il y a strictement moins de 6 fautes” A = {0, 1, 2, 3, 4, 5} Exemple 4 : Mesurer la taille d’un individu Ω = R+ Événement A : “mesurer plus d’1,50 m” A = [1, 50; +∞[ Remarque : À chaque événement, on a fait correspondre le sous-ensemble des issues de Ω pour lesquelles l’événement est réalisé, i.e. pour lesquelles la propriété est vraie. C’est une autre façon de définir un événement comme une partie de Ω.

(UPV)

StatL3S5

2009/2010

18 / 81

• Probabilité C’est une évaluation des chances qu’a un événement d’être réalisé à l’issue de l’expérience. On calcule toujours la probabilité d’un événement. Une probabilité est un réel compris entre 0 et 1. De façon générale, dans la vie courante, l’évaluation de ces probabilités n’a rien d’immédiat et reste très subjective. → Quelle est la probabilité qu’il fasse beau demain ? ⊲ Cependant, il existe un type de situation pour lequel ce calcul peut être réalisé de manière exacte et justifié de façon précise. C’est le cas où l’expérience aléatoire n’a qu’un nombre fini d’issues possibles, sans qu’aucune de ces issues n’ait plus de chances qu’une autre de se réaliser : elles sont toutes équiprobables. Exemple : Lancer d’un dé - Ω = {1, 2, 3, 4, 5, 6} Événement élémentaire A : “obtenir un 6” Événement B : “obtenir un nombre pair” 1 3 1 P(A) = P({6}) = et P(B) = = 6 6 2 (UPV)

StatL3S5

2009/2010

19 / 81

Dans une telle situation d’équiprobabilité, le calcul de la probabilité d’un événement quelconque A consiste toujours à compter le nombre d’issues favorables à A (pour lesquelles A est réalisé) ramené au nombre total d’issues possibles. Ainsi : P(A) =

card (A) Nb cas favorables = Nb cas possibles card (Ω)

Remarque : intérêt historique (jeu de dénombrement) et théorique ⊲ En pratique, beaucoup plus fréquemment, on approche ce calcul le plus finement possible en construisant un modèle à partir d’observations déjà réalisées de l’expérience aléatoire. Exemple : Guérison d’une maladie grave → Quelle est la probabilité de guérison ? Cette probabilité existe de manière intrinsèque mais, contrairement au cas précédent, n’est pas connue a priori, i.e. avant toute observation de réalisations de l’expérience. (UPV)

StatL3S5

2009/2010

20 / 81

Si les médecins évaluent à 0.2 la probabilité de guérison c’est que sur les 250 cas observés jusqu’à présent de cette maladie, 50 ont guéri complètement.

(UPV)

StatL3S5

2009/2010

21 / 81

II - Propriétés des événements et probabilités • Événement certain et événement impossible On appelle événement certain, un événement qui se réalise quelle que soit l’issue de l’expérience aléatoire. On le désigne par Ω. On appelle événement impossible, un événement qui ne se réalise jamais quelle que soit l’issue de l’expérience. On le désigne par ∅. P(Ω) = 1

et

P(∅) = 0

Exemple : Lancer d’un dé Événement certain : “obtenir un nombre entre 1 et 6” Événement impossible : “obtenir 0” • Événement contraire L’événement contraire d’un événement A est l’événement qui se réalise si et seulement si A ne se réalise pas. On le désigne par A. P(A) = 1 − P(A) (UPV)

StatL3S5

2009/2010

22 / 81

Exemple : Lancer d’un dé A : “obtenir un nombre pair” - A = {2, 4, 6} A : “obtenir un nombre impair” - A = {1, 3, 5} ⊲ En termes d’ensemble, l’événement contraire de A est donc représenté par le complémentaire dans Ω de A. • Événement “A ou B” “A et B” L’événement “A ou B” se réalise lorsque l’un au moins des deux événements A et B se réalise. On le désigne par A ∪ B. L’événement “A et B” se réalise lorsque les deux événements A et B se réalisent simultanément. On le désigne par A ∩ B. Exemple : Tirer une carte dans un jeu de 32 cartes Événement A : “obtenir un roi” - A = {R♦, R♥, R♣, R♠} Événement B : “obtenir un cœur”B = {7♥, 8♥, 9♥, 10♥, V ♥, D♥, R♥, A♥} Événement A ou B : “obtenir un roi ou un cœur” A ∪ B = {7♥, 8♥, 9♥, 10♥, V ♥, D♥, R♥, A♥, R♦, R♣, R♠} Événement A et B : “obtenir le roi de cœur” - A ∩ B = {R♥} (UPV)

StatL3S5

2009/2010

23 / 81

⊲ A ∪ B est réalisé lorsque : - A est réalisé et B ne l’est pas : A ∩ B - B est réalisé et A ne l’est pas : A ∩ B - A et B sont réalisés tous les deux : A ∩ B Ainsi A ∩ B ⊂ A ∪ B et P(A ∩ B) ≤ P(A ∪ B) ⊲ Lois sur les ensembles : A∪B A∩B

= A∩B = A∪B

A ∪ (B ∩ C ) = (A ∪ B) ∩ (A ∪ C ) A ∩ (B ∪ C ) = (A ∩ B) ∪ (A ∩ C ) ⊲ Quels que soient les événements A et B : P(A ∪ B) = P(A) + P(B) − P(A ∩ B) (UPV)

StatL3S5

2009/2010

24 / 81

Exemple : Tirer une carte dans un jeu de 32 cartes 1 8 1 4 = P(B) = = P(A) = 32 8 32 4 11 1 P(A ∪ B) = P(A ∩ B) = 32 32 4 8 1 11 = + − 32 32 32 32 • Événements incompatibles et partition de Ω A et B sont dits incompatibles s’ils ne peuvent pas se réaliser en même temps A∩B =∅ Remarque : Cela implique que P(A ∩ B) = 0 et P(A ∪ B) = P(A) + P(B)

(UPV)

StatL3S5

2009/2010

25 / 81

Un ensemble de s événements B1 , B2 , ..., Bs incompatibles 2 à 2 et tels que leur réunion est l’événement certain forment une partition de Ω. Exemple : Se faire vacciner pour l’hiver contre la grippe On dispose de 3 vaccins différents. Chaque personne ne peut être vaccinée qu’une seule fois (par l’utilisation d’un seul vaccin) et on définit les événements : A : “ ne pas attraper la grippe pendant l’hiver ” B1 : “ être vacciné par le vaccin 1 ” B2 : “ être vacciné par le vaccin 2 ” B3 : “ être vacciné par le vaccin 3 ” Ω = B1 ∪ B2 ∪ B3

et

A = (A ∩ B1 ) ∪ (A ∩ B2 ) ∪ (A ∩ B3 )

(UPV)

StatL3S5

2009/2010

26 / 81

Un événement quelconque C et son contraire C forment la partition la plus simple de Ω et on a : A = (A ∩ C ) ∪ (A ∩ C ) P(A) = P(A ∩ C ) + P(A ∩ C ) De même, pour une partition B1 , B2 , ..., Bs de Ω, on a : P(A) = P(A ∩ B1 ) + P(A ∩ B2 ) + ... + P(A ∩ Bs ) =

s X i=1

P(A ∩ Bi )

=⇒ théorème des probabilités totales

(UPV)

StatL3S5

2009/2010

27 / 81

Chapitre 3 : Probabilités conditionnelles et indépendance I - Définition de la probabilité conditionnelle Vous vous réveillez le matin et les yeux encore clos, vous évaluez la probabilité qu’il pleuve dans la matinée. Supposez maintenant que vous avez eu le courage de vous lever, d’ouvrir vos volets et de vous apercevoir que le ciel est très gris avec de gros nuages, votre évaluation de cette probabilité reste-t-elle identique ? Lorsque l’on dispose d’une information supplémentaire sur l’expérience aléatoire, le calcul de probabilité peut s’en trouver modifié. Souvent l’univers des possibles est même restreint par cette information : imaginez que vous devez deviner le résultat d’un dé, si vous savez qu’il est pair alors il n’y a plus que 3 possibilités ! Cette information constitue une condition dans laquelle l’expérience va se dérouler. Cette condition est traduite par un événement de Ω, qui ne doit évidemment pas être impossible. (UPV)

StatL3S5

2009/2010

28 / 81

• Probabilité conditionnelle Soit B un événement de probabilité 6= 0, on appelle probabilité conditionnelle de A sachant B la quantité : PB (A) =

P(A ∩ B) P(B)

Exemple : Sexe des enfants d’une famille de 2 enfants Ω = {(F , F ); (F , G ); (G , F ); (G , G )} (issues toutes équiprobables) Événement C : “avoir deux filles” = {(F , F )} Événement D : “avoir au moins une fille” = {(F , F ); (F , G ); (G , F )} C ∩D =C 1 3 P(D) = 4 4 P(C ) 1/4 1 P(C ∩ D) = = = PD (C ) = P(D) P(D) 3/4 3 P(C ) =

(UPV)

StatL3S5

2009/2010

29 / 81

Remarque 1 : et PC (D) = 1 ... c’est une propriété : Soient 2 événements A et B avec B de probabilité non nulle et B ⊂ A alors PB (A) = 1 Remarque 2 : attention ! ! ! On rencontre très souvent (voire beaucoup plus fréquemment) la notation P(A|B) pour désigner PB (A). Danger : A|B n’est pas un événement ... inutile de chercher à envisager son complémentaire ou son intersection ou réunion avec un autre événement. C’est bien l’événement A dont on cherche à évaluer la probabilité mais cette probabilité est modifiée par l’information contenue dans l’événement B. Remarque 3 : si l’on conditionne par rapport à l’événement certain ...

(UPV)

StatL3S5

2009/2010

30 / 81

II - Propriétés • La probabilité conditionnelle conserve toutes les propriétés énoncées précédemment : PB (Ω) = 1 PB (∅) = 0 PB (A) = 1 − PB (A) PB (A ∪ C ) = PB (A) + PB (C ) − PB (A ∩ C ) ou encore

P(A|B) = 1 − P(A|B) P(A ∪ C |B) = P(A|B) + P(C |B) − P(A ∩ C |B)

• Si A et B sont incompatibles alors ...

(UPV)

StatL3S5

2009/2010

31 / 81

III - Formules de Bayes Formule 1 ... ou comment “renverser” le conditionnement !

Soient A et B deux événements de probabilités non nulles : PA (B) =

PB (A) P(B) P(A)

Formule 2 ... la vraie !

On considère un événement A et un ensemble d’événements B1 , B2 , ...Bs qui forment une partition de Ω. On suppose connaître les probabilités P(Bi ) (toutes non nulles) ainsi que les probabilités conditionnelles PBi (A). Pour un événement quelconque Bj de la partition, on a : PA (Bj ) =

PBj (A) P(Bj ) PB (A) P(Bj ) = s j X P(A) PBi (A) P(Bi ) i=1

(UPV)

StatL3S5

2009/2010

32 / 81

Exemple 1 : État d’un produit à la sortie d’une usine de fabrication Deux machines M1 et M2 produisent respectivement 100 et 200 objets. M1 produit 5% de pièces défectueuses, et M2 en produit 6%. Quelle est la probabilité pour qu’un objet défectueux ait été fabriqué par la machine M1 ? Soit A l’événement “l’objet est défectueux” et M1 (resp. M2 ) l’événement “l’objet est fabriqué par la machine M1 (resp M2 )”. −→ calcul de PA (M1 ) Compte tenu des productions de ces machines, on a 100 1 2 P(M1 ) = = P(M2 ) = 300 3 3 6 5 et PM2 (A) = . De plus, on sait que PM1 (A) = 100 100 Remarque : M2 = M1 , donc M1 et M2 forment une partition de Ω On obtient alors grâce à la formule de Bayes : 1 5 × 100 3 ≃ 0.29 PA (M1 ) = 5 1 6 2 ( × )+( × ) 100 3 100 3 (UPV)

StatL3S5

2009/2010

33 / 81

Exemple 2 : Vaccination contre une maladie Le vaccin B1 est administré à 10 % des patients, B2 à 55 % et B3 à 35 %. La probabilité de ne pas attraper la maladie quand on a été vacciné par B1 (resp. B2 et B3 ) est de 0.8 (resp. 0.6 et 0.7). Un patient qui a été vacciné attrappe malgré tout la maladie, avec quelle probabilité a-t-il reçu le vaccin B2 ? Définissons les 3 événements : A : “attraper la maladie” Bi : “être vacciné par le vaccin Bi ” (i = 1, 2, 3) On sait que : P(B1 ) = 0.1 P(B2 ) = 0.55 P(B3 ) = 0.35 PB1 (A) = 0.8 PB2 (A) = 0.6 PB3 (A) = 0.7 donc PB1 (A) = 0.2 PB2 (A) = 0.4 PB3 (A) = 0.3

(UPV)

StatL3S5

2009/2010

34 / 81

−→ calcul de PA (B2 ) PA (B2 ) =

PB2 (A) P(B2 ) PB (A) P(B2 ) = 3 2 P(A) X PBi (A) P(Bi ) i=1

=

0.4 × 0.55 (0.2 × 0.1) + (0.4 × 0.55) + (0.3 × 0.35)

= 0.64

(UPV)

StatL3S5

2009/2010

35 / 81

IV - Probabilités conditionnelles dans la démarche diagnostique médicale On suppose qu’un test a été mis en place comme signe diagnostic d’une maladie. On note les 4 événements suivants : M+ : M− : T+ : T− :

“être malade” “ne pas être malade” “le résultat du test est positif” “le résultat du test est négatif”

M− = M+ T− = T+

La qualité du signe diagnostic dépend de sa capacité à révéler la réalité de l’état du patient.

(UPV)

StatL3S5

2009/2010

36 / 81

On définit alors les 2 notions suivantes : • Sensibilité du test : Se Se = PM+ (T+ ) = P(T+ |M+ ) • Spécificité du test : Sp Sp = PM− (T− ) = P(T− |M− ) Le test idéal est alors bien sûr celui où : Se = . . . et

Sp = . . .

Malheureusement un tel signe diagnostic n’exite pas ! !

(UPV)

StatL3S5

2009/2010

37 / 81

• Indice de Youden : Y Y = Se + Sp − 1 L’indice de Youden varie entre ... et ... Un indice de Youden négatif révèle une mauvaise qualité du test : il n’a aucune valeur informationnelle. La valeur diagnostique d’un test est d’autant plus grande que l’indice de Youden est proche de ...

(UPV)

StatL3S5

2009/2010

38 / 81

Après avoir recueilli une information sur la présence de la maladie dans la population concernée : • Prévalence : Prev

Prev = P(M+ )

... d’autres notions sont alors définies : • Valeur prédictive positive : VPP VPP = PT+ (M+ ) = P(M+ |T+ ) • Valeur prédictive négative : VPN VPN = PT− (M− ) = P(M− |T− ) VPP et VPN s’exprime en fonction de Se, Sp et Prev ... (UPV)

StatL3S5

2009/2010

39 / 81

V - Indépendance Deux événements A et B sont indépendants, si l’information apportée par l’un n’influence pas le calcul de probabilité de l’autre PB (A) = P(A)

ou

PA (B) = P(B)

Mais pour cela, on doit supposer que A ou B sont de probabilités non nulles. Une définition plus générale est donc : deux événements quelconques A et B sont indépendants ssi P(A ∩ B) = P(A) × P(B) Attention : ne pas confondre indépendance et incompatibilité ! ! ! Deux événements incompatibles sont-ils en général indépendants ? La propriété d’indépendance est une propriété sur le calcul de probabilité à ne pas confondre avec la propriété d’incompatibilité qui est une propriété sur les ensembles et n’a rien à voir avec les probabilités ! (UPV)

StatL3S5

2009/2010

40 / 81

Exemple : Tirer une carte dans un jeu de 32 cartes Situation d’équiprobabilité (toutes les cartes ont la même chance d’être choisie). Événement A : “obtenir un roi” - A = {R♦, R♥, R♣, R♠} 4 1 P(A) = = 32 8 Événement B : “obtenir un cœur” B = {7♥, 8♥, 9♥, 10♥, V ♥, D♥, R♥, A♥} 8 1 P(B) = = 32 4 Événement A et B : “obtenir le roi de cœur” - A ∩ B = {R♥} 1 1 1 = × = P(A) × P(B) P(A ∩ B) = 32 4 8 1 1/32 = = P(A) PB (A) = 1/4 8 −→ A et B sont indépendants. Et il y a aussi indépendance entre A et B, A et B, et A et B ! ! ! (UPV)

StatL3S5

2009/2010

41 / 81

Chapitre 4 : Variables aléatoires et loi de probabilité I - Définition Une variable aléatoire est une variable qui associe une valeur numérique déterminée à chaque issue d’une expérience aléatoire. Bien sûr, avant la réalisation de l’expérience, la valeur prise par cette variable est aléatoire mais une fois l’expérience réalisée, sa valeur est connue et unique. On note X (Ω) l’ensemble des valeurs possibles pour la variable aléatoire X : X (Ω) = {v1X , v2X , ...}

... ou lorsqu’il n’y a pas d’ambiguïté sur le nom de la variable : X (Ω) = {v1 , v2 , ...}. Exemple 1 : Obtenir un job Définissons la variable aléatoire X par ses valeurs : elle vaut 1 si l’individu obtient le job et 0 sinon. (UPV)

StatL3S5

2009/2010

42 / 81

Alors : X (Ω) = {0, 1} X = 1 est équivalent à “il obtient le job” X = 0 est équivalent à “il n’obtient pas le job” Exemple 2 : Lancer d’un dé Sachant que s’il obtient un nombre pair, le joueur gagne 10 fois le résultat du dé, sinon il perd 10 fois le résultat du dé, définissons alors la variable aléatoire X correspondant au gain du joueur. X (Ω) = {−50, −30, −10, 20, 40, 60} X ≥ 30 est équivalent à X = 40 ou X = 60. Remarque : Dans cette situation une autre variable aléatoire simple Y peut être définie par “le double du résultat du dé”. Y (Ω) = {2, 4, 6, 8, 10, 12} Propriété : Pour une expérience aléatoire donnée, d’univers des possibles Ω, on peut définir une infinité de variables aléatoires. (UPV)

StatL3S5

2009/2010

43 / 81

Exemple 3 : Compter le nombre de fautes de français dans une copie d’examen On s’intéresse à la variable aléatoire X qui représente la penalité dûe aux fautes de français. La pénalité intervient à partir de 6 fautes : de 6 à 10 fautes, la pénalité est de 1, de 11 à 20 fautes pénalité de 2 et au delà de 20 fautes, 3 points de pénalité. X (Ω) = {0, 1, 2, 3} X = 0 est équivalent à “il y a strictement moins de 6 fautes” = A. Exemple 4 : Taille d’un individu Soit X la variable aléatoire qui stocke la mesure de la taille en centimètres. X (Ω) = R+ “160 < X < 180” est équivalent à “mesurer entre 160 et 180 cm” qui peut aussi s’écrire “|X − 170| < 10”.

(UPV)

StatL3S5

2009/2010

44 / 81

⊲ Une variable aléatoire est dite discrète si elle ne peut prendre qu’un nombre fini (ou dénombrable) de valeurs isolées. Exemple : - Obtenir un job : X (Ω) = {0, 1} - Gain au lancer de dé : X (Ω) = {−50, −30, −10, 20, 40, 60} - Pénalité copie d’examen : X (Ω) = {0, 1, 2, 3}. ⊲ Une variable aléatoire est dite continue si au contraire elle prend ses valeurs dans des intervalles (nombre infini de valeurs numériques non isolées). Exemple : Taille d’un individu : X (Ω) = R+ .

(UPV)

StatL3S5

2009/2010

45 / 81

II - Événements et variables aléatoires ⊲ Lorsqu’on s’intéresse à certaines valeurs de X particulières, on fixe un sous-ensemble de X (Ω). On peut alors lui associer le sous-ensemble de Ω constitué de toutes les issues dont la valeur associée par X fait partie de celles sélectionnées. Exemple : Lancer d’un dé Au sous-ensemble {40, 60} de X (Ω), on peut associer le sous-ensemble {4, 6} de Ω ⊲ Par extension, tout sous-ensemble de X (Ω) définit un événement. Exemple : Lancer d’un dé X ≤ 0 = {−50, −30, −10} est un événement équivalent à {1, 3, 5} de Ω. Exemple : Fautes de français ¯ X > 0 = {1, 2, 3} est un événement équivalent à A. (UPV)

StatL3S5

2009/2010

46 / 81

⊲ On peut ainsi utiliser toutes les propriétés classiques sur les ensembles (∪, ∩, complémentaire) pour les événements définis à l’aide d’une variable aléatoire X . Exemple : Lancer d’un dé “X ≥ 0” ∪ “X = −30” = {−30, 20, 40, 60} Exemple : Fautes de français “X ≥ 1” = “X = 0” Exemple : Taille d’un individu “X ≤ 175” ∪ “X ≤ 180” = “X ≤ 180” “X ≤ 175” ∩ “X ≤ 180” = “X ≤ 175” “X ≤ 175” ∩ “X ≥ 180” = ∅ “X ≤ 175” = “X > 175” “X ≤ 175”∩ “X ≤ 180” = “175 < X ≤ 180” Remarque : Par commodité d’écriture, on omet ensuite les guillemets. (UPV)

StatL3S5

2009/2010

47 / 81

III - Loi de probabilité Pour définir la loi de probabilité d’une variable aléatoire, on distingue le cas discret du cas continu. • Loi de probabilité d’une variable aléatoire discrète Elle est définie par un tableau donnant la probabilité associée à chaque valeur possible de la variable X . Autrement dit, la loi de probabilité de la variable aléatoire X est l’ensemble des couples (v , P(X = v )) pour toutes les valeurs v de X (Ω). Exemple : Jeu de loterie La roue d’une loterie possède 10 secteurs : 4 verts, 3 bleus, 2 jaunes et 1 rouge. Lorsqu’on tire un secteur bleu ou vert, on perd 10. Lorsqu’il est jaune, on gagne 20 et rouge 100. Soit G la variable aléatoire “gain du joueur” : G (Ω) = {−10, 20, 100} 7 P(G = −10) = P(“tirer secteur bleu ou vert”) = 10 2 1 P(G = 20) = P(G = 100) = 10 10 (UPV)

StatL3S5

2009/2010

48 / 81

Ainsi le tableau :

vG

−10

20

100

P(G = v G )

7 10

2 10

1 10

constitue la loi de probabilité de G . Elle est représentée par le diagramme en bâtons suivant : 1 0.9 0.8

Probabilité

0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

−10

20

100

Gain du joueur

(UPV)

StatL3S5

2009/2010

49 / 81

⊲ Les événements X = v forment une partition de Ω. Ainsi la somme des probabilités associées à toutes les valeurs possibles de X est égale à 1 : X P(X = v ) = 1 v ∈X (Ω)

Remarque : On peut aussi calculer les probabilités de tous les événements exprimés à l’aide de X . 2 1 3 P(X > 0) = P(X = 20) + P(X = 100) = + = 10 10 10 Mais aussi P(X > 5) = P(X = 20) + P(X = 100) P(X < 20) = P(X = −10) P(X ≤ 20) = P(X = −10) + P(X = 20) P(X ≤ 25) = P(X = −10) + P(X = 20) ⊲ On appelle fonction de répartition de la variable aléatoire X , la fonction définie pour n’importe quelle valeur de R par : F (x) = P(X ≤ x) (UPV)

StatL3S5

2009/2010

50 / 81

Cela représente donc la probabilité que X prenne une valeur plus petite qu’une valeur donnée. C’est donc un cumul des probabilités des valeurs de X (Ω) plus petites que x. On représente graphiquement la fonction de répartition par : 1 0.9

Fonction de répartition

0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

−20

0

20

40

60

80

100

120

Gain du joueur

C’est une fonction définie sur R en escalier et croissante de 0 à 1. (UPV)

StatL3S5

2009/2010

51 / 81

⊲ L’espérance d’une variable aléatoire discrète mesure la tendance de cette variable. Elle est définie par la quantité : X E (X ) = v P(X = v ) v ∈X (Ω)

Exemple : Jeu de loterie (suite) E (G ) = (−10 × =

7 2 1 ) + (20 × ) + (100 × ) 10 10 10

−70 + 40 + 100 =7 10

Remarque : Sans observation relative à la variable aléatoire, on utilise cette espérance (ou valeur espérée) comme prédiction de la variable aléatoire. Attention cette prédiction ne fait pas forcément partie des valeurs possibles de la variable ! ! ! (UPV)

StatL3S5

2009/2010

52 / 81

⊲ La variance d’une variable aléatoire discrète mesure la dispersion des valeurs de la variable autour de l’espérance. Elle est définie par la quantité : X V (X ) = E [(X − E (X ))2 ] = (v − E (X ))2 P(X = v ) v ∈X (Ω)

= E (X 2 ) − (E (X ))2 =

X

v ∈X (Ω)

L’écart-type est donné par : σ(X ) =

p

v 2 P(X = v ) − (E (X ))2

V (X )

Exemple : Jeu de loterie (suite) 2 1 7 ) + ((20)2 × ) + ((100)2 × ) 10 10 10 700 + 800 + 10000 = 1150 = 10 = 1150 − 72 = 1101 = 33.18

E (G 2 ) = ((−10)2 × V (G ) σ(G ) (UPV)

StatL3S5

2009/2010

53 / 81

• Loi de probabilité d’une variable aléatoire continue Exemple : On s’intéresse à la variable aléatoire T mesurant le temps de réponse d’un individu à un stimulus. Sachant qu’il n’est pas possible de dépasser un délai de 2 minutes, l’ensemble des valeurs possibles pour cette variable aléatoire (en secondes) est : T (Ω) = [0, 120]. Remarque : attention ! ! ! - il est alors impossible de présenter les valeurs dans un tableau ! - comme il y a une infinité de valeurs, la probabilité d’une unique valeur est réduite à 0 ! ! ! ... P(T = 34) = 0 - on ne peut calculer que des probabilités sur des intervalles : P(30 < T ≤ 40) Pour une variable aléatoire continue, on ne peut parler que de densité de probabilité. C’est une sorte de probabilité ramenée à une unité d’intervalle très petite !

(UPV)

StatL3S5

2009/2010

54 / 81

Ainsi à chaque valeur x d’une variable aléatoire continue X , on associe une densité f (x) représentant la densité de probabilité d’un intervalle infiniment petit autour de x : f (x) ≥ 0, pour tout x. 0.03

0.025

Densité

0.02

0.015

0.01

0.005

0 −20

0

20

40

60

80

100

120

140

Temps de réponse au stimulus

⊲ Lorsqu’on somme les probabilités associées à toutes les valeurs possibles de X , on obtient 1. Pour une variable aléatoire continue : Z f (x)dx = 1 R

la surface totale sous la courbe d’une densité est toujours égale à 1. (UPV)

StatL3S5

2009/2010

55 / 81

Calculons la probabilité que le temps de réponse soit compris entre 20 et 40 secondes : P(20 ≤ T ≤ 40) = P(20 < T < 40) = P(20 < T ≤ 40) Remarque 1 : < ou ≤ ... peu importe car rappelons que quel que soit la valeur t de la variable aléatoire T : P(T = t) = 0 ... mais cela n’est vrai que pour une variable aléatoire continue ! ! ! Remarque 2 : P(0 ≤ T ≤ 40) = P(T ≤ 40) car sur l’intervalle ] − ∞; 0[ la densité de probabilité de cette variable aléatoire T est nulle

(UPV)

StatL3S5

2009/2010

56 / 81

0.03

P ( 20 < T < 40 ) 0.025

Densité

0.02

0.015

0.01

0.005

0 −20

0

20

40

60

80

100

120

140

Temps de réponse au stimulus

P(20 < T < 40) =

Z

40

f (t)dt

20

= P(T < 40) − P(T < 20) Z 20 Z 40 f (t)dt f (t)dt − = −∞

(UPV)

StatL3S5

−∞

2009/2010

57 / 81

⊲ La fonction de répartition de la variable aléatoire continue X est donc définie pour n’importe quelle valeur x par : Z x f (t)dt F (x) = P(X ≤ x) = −∞

c’est donc la surface sous la courbe “à gauche” de x. 0.03

F(40) = P ( T < 40 ) 0.025

Densité

0.02

0.015

0.01

0.005

0 −20

0

20

40

60

80

100

120

140

Temps de réponse au stimulus

(UPV)

StatL3S5

2009/2010

58 / 81

C’est toujours une fonction croissante de 0 à 1 mais qui n’est plus une fonction en escalier ! 1

0.03

0.9

P(a
View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF