ch. 3.1

January 12, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités

Short Description

Download ch. 3.1...

Description

Statistique 1e année bachelor, 2009-10

Chapitre 3 : INFERENCE 3.1

L’ÉCHANTILLONNAGE

3.1.1 3.1.2 3.1.3 3.1.4 3.1.5

Introduction L’échantillonnage aléatoire Estimation ponctuelle Distributions d’échantillonnage Intervalles de probabilité

Chapitre 3.1 L’échantillonnage

1 / 41

Statistique 1e année bachelor, 2009-10

Chapitre 3 : INFERENCE 3.1

L’ÉCHANTILLONNAGE

3.1.1 3.1.2 3.1.3 3.1.4 3.1.5

Introduction L’échantillonnage aléatoire Estimation ponctuelle Distributions d’échantillonnage Intervalles de probabilité

Chapitre 3.1 L’échantillonnage

2 / 41

Statistique 1e année bachelor, 2009-10

Définitions  En général, l’inférence est définie comme une opération mentale qui consiste à tirer une conclusion d’une série de propositions reconnues pour vraies. Ces conclusions sont tirées à partir de règles de base.  L’inférence statistique est définie comme le processus d’utilisation des données d’un échantillon pour estimer ou tester des hypothèses sur les caractéristiques numériques (« paramètres ») d’une population.  Une population (ou « population mère ») est définie comme l’ensemble de tous les éléments d’intérêt dans une étude particulière.  Un échantillon est défini comme un sous-ensemble de la population. Chapitre 3.1 L’échantillonnage

3 / 41

Statistique 1e année bachelor, 2009-10

Pourquoi prendre un échantillon ?  Le coût : recenser toute la population coûte trop cher et/ou prend trop de temps → Recensement de la population 2010 : recensement traditionnel (questionnaire à tous les ménages) coûterait 200 millions ; proposition du Conseil fédéral (échantillonnage + recensement fondé sur les registres coûtera 124 millions [estimations faites en 2006]) → Etant donné l’impossibilité d’examiner chaque être humain, toute étude empirique d’hypothèses générales en sciences sociales doit être basée sur des échantillons, soit d’individus soit de groupes d’individus (ménages, firmes, industries, pays,...) Chapitre 3.1 L’échantillonnage

4 / 41

Statistique 1e année bachelor, 2009-10

Un exemple fictif : Statville  Commune Statville : 2500 habitants adultes (= population)  Syndic s’intéresse à la distribution des revenus parmi ces habitants et à la participation des habitants à la dernière assemblée communale (ils étaient trop nombreux pour être comptés)  Interroger tous les 2500 habitants serait trop cher  Budget permet d’interroger un échantillon de 30 habitants  Paramètres de la population (inconnus par le syndic !) : o Revenu moyen (): 51800 francs o Ecart-type du revenu (): 4000 francs o Taux de participation à la dernière assemblée (p) : 60%  Que devrait faire le syndic ? Chapitre 3.1 L’échantillonnage

5 / 41

Statistique 1e année bachelor, 2009-10

Chapitre 3 : INFERENCE 3.1

L’ÉCHANTILLONNAGE

3.1.1 3.1.2 3.1.3 3.1.4 3.1.5

Introduction L’échantillonnage aléatoire Estimation ponctuelle Distributions d’échantillonnage Intervalles de probabilité

Chapitre 3.1 L’échantillonnage

6 / 41

Statistique 1e année bachelor, 2009-10

L’échantillonnage aléatoire simple  Population de N éléments ; échantillon de n éléments  Définition pour une population finie (N connu): tous les éléments de la population ont la même probabilité de faire partie de l’échantillon → Probabilité qu’un élément de la population soit contenu dans l’échantillon est n/N.  Définition pour une population infinie (N inconnu): les éléments de l’échantillon sont sélectionnés indépendamment de la même population  Echantillonnage sans remise (chaque élément ne peut être sélectionné qu’une fois) : o Nombre d’échantillons possibles = C = N!/(n!(N-n)!) o Probabilité qu’un échantillon particulier soit tiré = 1/C o Exemple Statville : C ≈ 2.75 * 1069 Chapitre 3.1 L’échantillonnage

7 / 41

Statistique 1e année bachelor, 2009-10

Comment obtenir un échantillon aléatoire simple ?  Critère : probabilité de sélection indépendante de toute caractéristique des éléments de la population  Population finie :  Tirage au sort  Choix avec nombres aléatoires à partir d’une liste des éléments [Excel : =ALEA() génère des nombres aléatoires entre 0 et 1]  Population infinie (processus continu dans le temps) : → Sélectionner selon une loi de Bernoulli [Excel : =SI(ALEA()>=P;″oui″;″non″) répond « oui » dans (1 P) pourcent de cas] → Trouver astuce (exemple contrôle douanier : examiner chaque voiture arrivant après une voiture orange) Chapitre 3.1 L’échantillonnage

8 / 41

Statistique 1e année bachelor, 2009-10

Autres types d’échantillon  Echantillon aléatoire stratifié → Critère : strates homogènes → Difficulté de la pondération représentative des strates → Statville : sélectionner aléatoirement des individus selon le niveau d’éducation  Échantillon aléatoire par grappes o Critère : grappes composées de façon hétérogène et donc représentative o Statville : sélectionner aléatoirement des ménages/quartiers  Échantillonnage subjectif → Critère : échantillon qui semble représentatif → Statville : syndic choisit 30 individus qui lui semblent représentatifs de la population municipale → Évidemment problématique (danger de biais de sélection) ! Chapitre 3.1 L’échantillonnage

9 / 41

Statistique 1e année bachelor, 2009-10

Chapitre 3 : INFERENCE 3.1

L’ÉCHANTILLONNAGE

3.1.1 3.1.2 3.1.3 3.1.4 3.1.5

Introduction L’échantillonnage aléatoire Estimation ponctuelle Distributions d’échantillonnage Intervalles de probabilité

Chapitre 3.1 L’échantillonnage

10 / 41

Statistique 1e année bachelor, 2009-10

Bases  But : estimer la valeur d’un paramètre de la population (« estimation ponctuelle »)  Méthode : calculer la statistique d’échantillon correspondante → « Méthode des moments » : prendre moment de l’échantillon comme estimateur du moment de la population → Statistiques d’échantillon : toute mesure de tendance centrale, de dispersion, etc.

Chapitre 3.1 L’échantillonnage

11 / 41

Statistique 1e année bachelor, 2009-10

Exemple Statville (1) Échantillon aléatoire de 30 individus

Chapitre 3.1 L’échantillonnage

ind. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

revenu 49094.3 53263.9 49643.5 49894.9 47621.6 55924.0 49092.3 51404.4 50957.7 55109.7 45922.6 57268.4 55688.8 51564.7 56188.2 51766.0 52541.3 44980.0 51932.6 52973.0 45120.9 51753.0 54391.8 50164.2 52973.6 50241.3 52793.9 50979.4 55860.9 57309.1

participation 1 1 1 1 0 1 1 1 1 1 1 0 1 0 0 1 0 1 1 1 1 1 0 0 0 0 0 1 1 0

Somme Moyenne Ecart type

revenu 1554420 51814 3347.7

participation 19 0.63 0.49

12 / 41

Statistique 1e année bachelor, 2009-10

Exemple Statville (2)  Revenu : moyenne de l’échantillon revenui 1554420  x   51814    51800 n 30  Revenu : écart type de l’échantillon 2 ( revenu x ) 325009260  i s   3348    4000 n -1 29  Participation : moyenne de l’échantillon participationi 19  p   0.63  p  0.60 n 30  Les estimations ponctuelles ne correspondent pas exactement aux paramètres de la population  que faire ?

Chapitre 3.1 L’échantillonnage

13 / 41

Statistique 1e année bachelor, 2009-10

Chapitre 3 : INFERENCE 3.1

L’ÉCHANTILLONNAGE

3.1.1 3.1.2 3.1.3 3.1.4 3.1.5

Introduction L’échantillonnage aléatoire Estimation ponctuelle Distributions d’échantillonnage Intervalles de probabilité

Chapitre 3.1 L’échantillonnage

14 / 41

Statistique 1e année bachelor, 2009-10

Bases  Idée de départ : répéter la sélection d’un échantillon multiples fois et étudier comment se comportent les statistiques de l’échantillon par rapport aux paramètres correspondants de la population → En moyenne, la statistique de l’échantillon a-t-elle tendance à être proche du paramètre « vrai » correspondant, ou y a-til une divergence systématique (c.à.d. un « biais ») ?  Distribution d’échantillonnage = distribution de probabilité de toutes les valeurs possibles d’une statistique de l’échantillon → Puisque la sélection d’échantillons suit un processus aléatoire, les statistiques de l’échantillon sont elles-aussi des variables aléatoires et suivent donc un distribution de probabilité Chapitre 3.1 L’échantillonnage

15 / 41

Statistique 1e année bachelor, 2009-10

Exemple Statville (1)  Supposons (pour fixer les idées, pas parce-que ce serait réaliste ou intelligent) que le syndic ait les moyens de répéter l’expérience initiale multiples fois, c.à.d. de resélectionner des échantillons aléatoires de taille 30 parmi les habitants de Statville.  Pour chacun de ces échantillons, il calcule x , s et p.  Ensuite il résume les valeurs de chacune de ces trois statistiques d’échantillon p.ex. sous forme d’un histogramme  approximation empirique de la distribution d’échantillonnage  Excel : un histogramme peut être dessiné via les menus Outils – Utilitaire d’analyse (installer via Macro complémentaire) – Histogramme (Représentation graphique) voir aussi Utilitaire d’analyse – Génération de nombres aléatoires et Échantillonnage Chapitre 3.1 L’échantillonnage

16 / 41

Statistique 1e année bachelor, 2009-10

Exemple Statville (2)  Valeurs de x , s et p obtenues à partir de 500 échantillons aléatoires simples de 30 habitants échantillon 1 2 3 4 ... 500 moyenne écart type ( sx x, ,spp) Chapitre 3.1 L’échantillonnage

revenu: moyenne ( x )

revenu: participation: écart type (s ) moyenne ( p )

51814 52670 51780 51588 ... 51752

3347.7 4239.1 4433.4 3985.3 ... 3857.8

0.63 0.70 0.67 0.53 ... 0.50

51808 729.4

3995.4

0.61 0.0896 17 / 41

Statistique 1e année bachelor, 2009-10

Exemple Statville (3)  Distribution de fréquence de x obtenue à partir des 500 échantillons revenu: moyenne 49500-49999 50000-50499 50500-50999 51000-51499 51500-51999 52000-52499 52500-52999 53000-53499 53500-53999 Total Chapitre 3.1 L’échantillonnage

2 16 52 101 133 110 54 26 6

fréquence relative 0.004 0.032 0.104 0.202 0.266 0.220 0.108 0.052 0.012

500

1

fréquence

18 / 41

Statistique 1e année bachelor, 2009-10

Exemple Statville (4)

 Approximation empirique de la distribution d’échantillonnage de x !

0.3

0.25

fréquence relative

 Histogramme de la fréquence relative des valeurs de x obtenues à partir des 500 échantillons

0.2

0.15

0.1

0.05

0 4950049999

Chapitre 3.1 L’échantillonnage

5000050499

5050050999

5100051499

5150051999

5200052499

5250052999

5300053499

5350053999

19 / 41

Statistique 1e année bachelor, 2009-10

L’espérance  La moyenne de la variable aléatoire x si le nombre d’échantillons tend vers l’infini (« moyenne des moyennes ») correspond à l’espérance mathématique de x , E( x ).  Rappel :  = moyenne de la population (le paramètre « vrai »)  On peut montrer que E( x ) =  .  La moyenne d’un échantillon aléatoire est un estimateur non-biaisé de la moyenne de la population.

Chapitre 3.1 L’échantillonnage

20 / 41

Statistique 1e année bachelor, 2009-10

L’erreur type  Soit  x l’écart type de la distribution d’échantillonnage de x , désormais dénommé « erreur type ».    N n  On peut montrer que  x   .   n  N 1

 Pour une population infinie (N  ), on a  x = ( 

n) .

N n = « facteur de correction pour une population finie » N 1

 Règle pratique : ( n ) est une approximation satisfaisante si la population est finie et nN  0.05. → Statville : nN = 302500 = 0.012  Chapitre 3.1 L’échantillonnage

N n  0.994  1 N 1 21 / 41

Statistique 1e année bachelor, 2009-10

La distribution d’échantillonnage toute entière (1)  Nous avons défini la moyenne et l’écart type de la distribution d’échantillonnage de la moyenne. Pouvons nous définir la distribution d’échantillonnage toute entière ? Oui !  Résultat 1 : Si les données de la population suivent une distribution normale, la distribution d’échantillonnage de x est normale elle aussi, quelle que soit la taille de l’échantillon n. o Cas plutôt rare o Inspecter histogramme o On peut tester formellement l’hypothèse selon laquelle un certain échantillon est tiré d’une population qui suit une distribution normale (p.ex. test du Khi-deux, ch. 3.3.5) Chapitre 3.1 L’échantillonnage

22 / 41

Statistique 1e année bachelor, 2009-10

La distribution d’échantillonnage toute entière (2)  Résultat 2 : Si les données de la population ne sont pas distribuées selon une loi normale, on peut appliquer le théorème centrale limite : Pour des échantillons aléatoires simples, la distribution d’échantillonnage de x peut être approchée par une distribution de probabilité normale, lorsque la taille de l’échantillon devient importante.

Chapitre 3.1 L’échantillonnage

23 / 41

Statistique 1e année bachelor, 2009-10

La distribution d’échantillonnage toute entière (3)  Formellement, avec un échantillon aléatoire simple : x   x  N (  , x ) ,   z   N (0,1) ,  x   x   0.5   x 

où

1 x  N (  , x )  f  x   e  x 2

et

1 0.5 z 2 z  N (0,1)  f  z   e . 2

2

,

 Règle pratique approximative : le théorème centrale limite peut être invoqué pour des échantillons de taille n  30. Chapitre 3.1 L’échantillonnage

24 / 41

Statistique 1e année bachelor, 2009-10

Illustration du théorème centrale limite (1)

Chapitre 3.1 L’échantillonnage

25 / 41

Statistique 1e année bachelor, 2009-10

Illustration du théorème centrale limite (2)

Chapitre 3.1 L’échantillonnage

26 / 41

Statistique 1e année bachelor, 2009-10

Illustration du théorème centrale limite (3)

Chapitre 3.1 L’échantillonnage

27 / 41

Statistique 1e année bachelor, 2009-10

Illustration du théorème centrale limite (4)

Chapitre 3.1 L’échantillonnage

28 / 41

Statistique 1e année bachelor, 2009-10

Illustration du théorème centrale limite (5)

Chapitre 3.1 L’échantillonnage

29 / 41

Statistique 1e année bachelor, 2009-10

Illustration du théorème centrale limite (6)

Chapitre 3.1 L’échantillonnage

30 / 41

Statistique 1e année bachelor, 2009-10

Le cas de p  Continuons à supposer qu’on ait un échantillon aléatoire simple.  L’espérance mathématique de la variable aléatoire p (moyenne dans l’échantillon de la mesure de proportion p) est donnée par : E( p ) = p  p est un estimateur non-biaisé de p p(1  p ) N  n  L’erreur type de p est donné par :  p  ; n N 1 p(1  p ) et, pour une population infinie, par :  p  . n

 La distribution d’échantillonnage toute entière peut être approchée par une distribution de probabilité normale lorsque np  5 et n(1  p )  5 (règle pratique approximative ; basée sur la convergenence de la loi binomiale avec la loi normale). Chapitre 3.1 L’échantillonnage

31 / 41

Statistique 1e année bachelor, 2009-10

Exemple Statville : distribution d’échantillonnage de la moyenne

Chapitre 3.1 L’échantillonnage

32 / 41

Statistique 1e année bachelor, 2009-10

Exemple Statville : distribution d’échantillonnage d’une proportion

Chapitre 3.1 L’échantillonnage

33 / 41

Statistique 1e année bachelor, 2009-10

Exemple Statville : erreur type et taille de l’échantillon

Chapitre 3.1 L’échantillonnage

34 / 41

Statistique 1e année bachelor, 2009-10

Chapitre 3 : INFERENCE 3.1

L’ÉCHANTILLONNAGE

3.1.1 3.1.2 3.1.3 3.1.4 3.1.5

Introduction L’échantillonnage aléatoire Estimation ponctuelle Distributions d’échantillonnage Intervalles de probabilité

Chapitre 3.1 L’échantillonnage

35 / 41

Statistique 1e année bachelor, 2009-10

Base  Lorsqu’on a un échantillon, il est hautement improbable que les statistiques de l’échantillon ( x , p ) correspondent exactement aux paramètres de la population (, p)  Que peut-on dire sur la probabilité que la valeur d’une statistique particulière soit « proche » du paramètre de la population, ou « proche » signifie un écart maximum de M ?  Les distributions d’échantillonnage contiennent la réponse !  Statville : o Quelle est la probabilité que le revenu moyen de l’échantillon, x , soit à 500 francs près du revenu moyen de la commune,  ?  (M = 500) o Quelle est la probabilité que la proportion des participants de l’échantillon, p , soit à 5 points de pourcentage près de la proportion totale, p ?  (M = 0.05) Chapitre 3.1 L’échantillonnage

36 / 41

Statistique 1e année bachelor, 2009-10

Exemple Statville (1)  Probabilité que le revenu moyen d’un échantillon de taille 30 soit à  500 francs près du revenu moyen de la population  ? x   Rappel :   N (0,1)   x   x    M  500  4000  n  30 :  x    730.3 n 30

(inconnu par le syndic !)

500  500     P (   500  x    500 n  30)  P  Z    P Z   730.3 730.3    

Chapitre 3.1 L’échantillonnage

37 / 41

Statistique 1e année bachelor, 2009-10

Exemple Statville (2)

 500 730.3

 Moyenne : M  500, n  30  P (   500  x    500 n  30)  P ( 0.68  Z  0.68)  0.50

*

*

* voir la Table 1, p. 730, du manuel de Anderson et al., où F(z)  P(0 < Z < z)

Chapitre 3.1 L’échantillonnage

38 / 41

Statistique 1e année bachelor, 2009-10

Exemple Statville (3)

 500 400

 Moyenne : M  500, n  100  P (   500  x    500 n  100)  P ( 1.25  Z  1.25)  0.79

*

*

* voir la Table 1, p. 730, du manuel de Anderson et al., où F(z)  P(0 < Z < z)

Chapitre 3.1 L’échantillonnage

39 / 41

Statistique 1e année bachelor, 2009-10

Exemple Statville (4)

 0.05 0.089

 Proportion : M  0.05, n  30  P ( p  0.05  p  p  0.05 n  30)  ( 0.56  Z  0.56)  0.42

*

*

* voir la Table 1, p. 730, du manuel de Anderson et al., où F(z)  P(0 < Z < z)

Chapitre 3.1 L’échantillonnage

40 / 41

Statistique 1e année bachelor, 2009-10

Exemple Statville (4)  Grand problème : le syndic ne connaît pas   Que faire pour juger de la fiabilité des estimations basées sur son échantillon?  Attendre le chapitre prochain...

Chapitre 3.1 L’échantillonnage

41 / 41

ch. 3.1

Short Description

Description

Comments

We need your help!