k - Cedric/CNAM

January 14, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download k - Cedric/CNAM...

Description

Plans à probabilités inégales Sommaire 1. Pourquoi échantillonner à probabilités inégales ? a. Intérêts b. Un petit exemple c. Le choix des probabilités d’inclusion : cas des plans proportionnels à la taille 2. Comment estimer un total ? a. Définition de l’estimateur de Horvitz-Thompson b. Espérance de l’estimateur de Horvitz-Thompson c. Variance de l’estimateur de Horvitz-Thompson d. Estimation de la variance de l’estimateur de HorvitzThompson 3. Comment estimer une moyenne ? a. L’estimateur de Horvitz-Thompson b. L’estimateur de Hájek 4. Comment construire des intervalles de confiance pour le total ou la moyenne ?

_________________________________________________________________________ Plans à probabilités inégales - Module B8-CNAM 29/10/2004 - S.Rousseau

1

1. Pourquoi échantillonner à probabilités inégales ? a. Intérêts Lorsque les unités de la population étudiée contribuent inégalement à un total, échantillonner à probabilités inégales est souhaitable parce que cela permet de retenir de préférence les unités les plus porteuses de l’information. Il en résulte des estimations plus précises par rapport à la situation où toutes les unités sont échantillonnées comme si elles possédaient la même importance. Exemple : pour estimer la production d’un secteur que l’on sait assurée par 2 géants du secteur et des centaines de PME, il est légitime de sélectionner d’office les 2 grandes entreprises et d’échantillonner de manière aléatoire quelques PME.

Le principe est d’aller chercher l’information là où elle se trouve. Ce qui suppose de disposer avant l’échantillonnage d’information auxiliaire connue sur toute la population et liée avec le caractère d’intérêt.

_________________________________________________________________________ Plans à probabilités inégales - Module B8-CNAM 29/10/2004 - S.Rousseau

2

b. Un petit exemple Soit une population de 4 entreprises A, B, C et D comptant respectivement 500, 100, 30 et 20 salariés. Admettons que l'on veuille estimer le nombre total de salariés (certes connu : 650) à partir d'un échantillon de taille 2 et comparons les 2 tirages suivants : q q

un sondage aléatoire simple sans remise, un échantillonnage à probabilités inégales avec les probabilités ci-dessous :

Entreprise k Effectif salarié Xk A B C D

500 100 30 20

Probabilité d'inclusion pk 1 0,5 0,25 0,25

Avec le sondage aléatoire simple, il y a C42 = 6 échantillons possibles : Probabilité Echantillon s de tirage p(s)

(1)

{A, B} {A, C} {A, D} {B, C} {B, D} {C, D}

1/6

1 200 = 4 ¸ 2 ´ ( 500 + 100 )

Estimation du nombre total de salariés des 4 entreprises 1 200 (1) 1 060 1 040 260 240 100

En moyenne, on estime parfaitement bien le vrai effectif total de 650 salariés. Mais l'estimateur est très dispersé : sa variance vaut 207 567 (CV @ 70%). Avec le plan à probabilités inégales, seuls 3 échantillons sont possibles : Probabilité Echantillon s de tirage p(s) {A, B} {A, C} {A, D} (2)

0,5 0,25 0,25

Estimation du nombre total de salariés des 4 entreprises 700 (2) 620 580

700 = 500 + ( 100 ¸ 0,5 )

En moyenne, l'estimateur est aussi sans biais. Et sa variance est beaucoup plus faible, elle vaut 2 700 (CV @ 8%). _________________________________________________________________________ Plans à probabilités inégales - Module B8-CNAM 29/10/2004 - S.Rousseau

3

Mais si les probabilités d’inclusion avaient été respectivement 0.25, 0.25, 0.5 et 1 pour les entreprises A à D, alors la qualité de l’estimation aurait été moindre qu’avec le sondage aléatoire simple sans remise. En effet, on obtient dans ce cas comme échantillons possibles et estimations associées: Probabilité Echantillon s de tirage p(s) {A, D} {B, D} {C, D} (3)

0,25 0,25 0,5

Estimation du nombre total de salariés des 4 entreprises 2 020 (3) 420 80

2 020 = ( 500 ¸ 0,25 ) + ( 20 ¸1)

Une nouvelle fois, en moyenne l'estimateur est sans biais. Mais il s’avère extrêmement dispersé : sa variance vaut 644 900 (CV @ 124%).

Il peut donc s’avèrer très intéressant de sélectionner les unités avec des probabilités d’inclusion proportionnelles aux valeurs prises pour un caractère x, lié positivement avec le caractère d’intérêt et connu pour tous les individus de la base de sondage.

_________________________________________________________________________ Plans à probabilités inégales - Module B8-CNAM 29/10/2004 - S.Rousseau

4

c. Le choix des probabilités d’inclusion : cas des plans proportionnels à la taille (ppt) Considérons par exemple une enquête qui s’intéresse au chiffre d’affaires d’entreprises d’un secteur donné. Si l’on dispose du nombre de salariés de toutes les entreprises de ce secteur et si on pressent que le chiffre d’affaires est plus ou moins proportionnel au nombre de salariés, il est légitime de calculer les probabilités d’inclusion de toutes les entreprises de manière proportionnelle à leur effectif salarié : on parle de plans proportionnels à la taille. Pour un échantillon de taille fixe n, on calcule la probabilité de sélectionner la kème entreprise selon : "k Î U , π k = P(k Î S ) = n

Xk å Xk

kÎU

où Xk désigne la variable de taille, ici le nombre de salariés de la kème entreprise de la population U. On vérifie que :

åπ

k

=n

kÎU

(plan de taille fixe).

On voit cependant que certaines probabilités d’inclusion pk peuvent dépasser 1. Dans ce cas, -

-

on sélectionne d’office les unités en question : on pose pk = 1 pour ces unités (elles constituent une strate dite exhaustive) on recalcule les probabilités d’inclusion des autres individus proportionnellement à la taille de l’échantillon restant à sélectionner et à leur contribution dans le nouveau total (quitte à réitèrer la démarche jusqu’à ce que pk £ 1, " kÎU) .

_________________________________________________________________________ Plans à probabilités inégales - Module B8-CNAM 29/10/2004 - S.Rousseau

5

Les notations : Ÿ

Population : U = {1,..., k ,..., N } N

tY = å Yk = å Yk

Ÿ

Total de la variable Y :

Ÿ

1 m = Moyenne de la variable Y : Y N

Ÿ

Probabilité d’inclusion d’un individu k de U dans S :

k =1

kÎU

N

å Yk = k =1

tY N

π k = P(k Î S) = E (I k ) ì1 si k Î S I = où k í î0 sinon

ie I k ~ B(p k )

(variable indicatrice introduite par Cornfield en 1944)

Ÿ

Probabilité d’inclusion de 2 individus k et l de U dans S : π kl = P(k Î S et l Î S) = E (I kl ) = (I k I l ) ì1 si k Î S et l Î S î0 sinon

où I kl = I k ´ I l = í

Ÿ

Covariance entre

Ik

et

Il

pour k et l de U :

D kl = E (I kl ) - E (I k )E (I l ) = p kl - p k p l

_________________________________________________________________________ Plans à probabilités inégales - Module B8-CNAM 29/10/2004 - S.Rousseau

6

2. Comment estimer un total ? a. L’estimateur de Horvitz et Thompson ou p-estimateur ou estimateur par les valeurs dilatées En 1952, Horvitz et Thompson ont proposé l’estimateur suivant du total ty de la variable Y : Y tˆYp = å k kÎs p k Remarques : · C’est un estimateur linéaire, les poids de sondage ne dépendent pas de l’échantillon. · Il permet d’estimer la taille N de la population, qu’elle soit connue ou non : 1 Nˆ p = å kÎs p k

· Il est valable quel que soit le plan de sondage. · Il généralise les résultats du sondage aléatoire simple sans remise de taille fixe n, où p k =

n pour tout k de U. N

_________________________________________________________________________ Plans à probabilités inégales - Module B8-CNAM 29/10/2004 - S.Rousseau

7

b. L’espérance de l’estimateur de Horvitz et Thompson Propriété 1 : Si pk > 0 pour tout individu k de la population U, alors l’estimateur d’Horvitz et Thompson du total est sans biais. Démonstration : æ Y E( tˆYp ) = E çç å k è kÎs p k

æ ö Yk ö Yk ÷= å ÷÷ = E ç å I Yk = t Y - å Yk k ÷ kÎU / p >0 p E (I k ) = kÎUå ç kÎU / p >0 p / p kÎU / p k = 0 k k ø k k k >0 ø è

Si certaines probabilités d’inclusion sont nulles, alors l’estimateur est biaisé. Ce biais ne dépend que des unités qui ont aucune chance d’être échantillonnées : on parle de problème de couverture.

c. La variance de l’estimateur d’Horvitz et Thompson i.

Dans le cas général

Propriété 2 : Si pk > 0 pour tout k de U, alors la variance de l’estimateur d’Horvitz et Thompson du total vaut : Yk Yl D kl kÎU lÎU p k p l

Var ( tˆYp ) = åå Démonstration : æ Y Var ( tˆYp ) = Var çç å k è kÎs p k æY = å Var çç k kÎU èp k

ö æ Y ö ÷÷ = Var çç å k I k ÷÷ ø è kÎU p k ø ö æY Y ö I k ÷÷ + åå Covçç k I k , l I l ÷÷ pl ø ø kÎU llιUk èp k

2

æY = å çç k kÎU è p k

ö Y Y ÷÷ Var (I k ) + åå k l Cov(I k , I l ) kÎU lÎU p k p l ø l ¹k

æY = å çç k kÎU è p k

ö Y Y ÷÷ p k (1 - p k ) + åå k l D kl kÎU lÎU p k p l ø

2

Yk Yl D kl kÎU lÎU p k p l

= åå

l ¹k

car D kk = p k (1 - p k )

_________________________________________________________________________ Plans à probabilités inégales - Module B8-CNAM 29/10/2004 - S.Rousseau

8

ii.

Dans le cas d’un plan de taille fixe

Propriété 3 : Si pk > 0 pour tout k de U et si le plan est de taille fixe, alors Sen, Yates et Grundy ont montré que la variance de l’estimateur d’Horvitz et Thompson du total peut aussi s’écrire: 2

æY Y ö 1 Var ( tˆYp ) = - åå çç k - l ÷÷ D kl 2 kÎU lÎU è p k p l ø

Démonstration : 2 éæ Y æ Yk Yl ö 1 1 - åå çç - ÷÷ D kl = - åå êçç k 2 kÎU lÎU è p k p l ø 2 kÎU lÎU êè p k ë

æY = - åå çç k kÎU lÎU è p k æY = å çç k kÎU è p k

ö ÷÷ ø

2 2 ö æ Yl ö Y Y ù ÷÷ + çç ÷÷ - 2 k l úD kl pk pl ú ø èpl ø û

2

ö Y Y ÷÷ D kl + åå k l D kl kÎU lÎU p k p l ø

2

åD lÎU

kl

Yk Yl D kl kÎU lÎU p k p l

+ åå

Yk Yl D kl kÎU lÎU p k p l = Var (tˆYp )

= 0 + åå

car pour k fixé, å D kl = 0 avec un plan de taille fixe lÎU

_________________________________________________________________________ Plans à probabilités inégales - Module B8-CNAM 29/10/2004 - S.Rousseau

9

d. Estimation de la variance de l’estimateur d’Horvitz et Thompson Propriété 4 : Si pkl > 0 pour tous k et l de U, alors la variance de l’estimateur d’Horvitz et Thompson du total peut être estimée sans biais par : Y Y D Vˆ ar1 ( tˆYp ) = å å k l kl kÎs lÎs p k p l p kl

Si de plus, le plan est de taille fixe, la variance de l’estimateur d’Horvitz et Thompson du total peut aussi être estimée sans biais par : 2

æY Y ö D kl 1 Vˆ ar2 ( tˆYp ) = - å å çç k - l ÷÷ 2 kÎs lÎs è p k p l ø p kl

Comparaison de ces 2 estimateurs i.Le 1er estimateur est valable dans le cas général. ii.Le 2ème estimateur n’est valable que si le plan est de taille fixe. iii.Dans le cas où est le plan est de taille fixe, on dispose généralement de 2 estimateurs concurrents et différents. iv.Ils sont tous les 2 sans biais dès que tous les pkl sont strictement positifs quels que soient les individus k et l de la population. v.Les 2 estimateurs peuvent prendre des valeurs négatives, mais il existe une condition suffisante pour que le second estimateur soit positif. Cette condition , dite condition de Sen-Yates-Grundy , est : " k , l ÎU , D kl > 0 soit : " k , l Î U , p kl - p k p l > 0

_________________________________________________________________________ Plans à probabilités inégales - Module B8-CNAM 29/10/2004 - S.Rousseau

10

3. Comment estimer une moyenne ? a. L’estimateur de Horvitz et Thompson d’une moyenne i.

Définition

Lorsque la taille de la population est connue, on peut estimer la moyenne de Y avec l’estimateur de Horvitz et Thompson : mˆ Yp =

1 N

Yk tˆYp = å p N kÎs k

Dans le cas particulier où la variable d’intérêt Y est dichotomique et vaut 1 dans p% des cas, le p-estimateur de la proportion p vaut : pˆ p =

ii.

Yk 1 å N kÎs p k

Propriétés

Les propriétés 1 à 4 vues pour l’estimateur de Horvitz et Thompson d’un total s’appliquent à une moyenne, en adaptant les formules pour tenir compte du coefficient N.

_________________________________________________________________________ Plans à probabilités inégales - Module B8-CNAM 29/10/2004 - S.Rousseau

11

b. L’estimateur de Hájek d’une moyenne i.

Définition

L’estimateur de Hájek (1971) de la moyenne de Y est défini par : Yk å Yk k Îs p k tˆyp 1 mˆ YH = = = å ˆ ˆ 1 p N p k Îs k å p Np k Îs k ii. Ÿ Ÿ

Propriétés

L’estimateur de Hájek est un ratio de 2 p- estimateurs. Il est biaisé : on montre que le biais est asymptotiquement nul et on le considéra négligeable lorsque la taille de l’échantillon est grande.

Ÿ

Sa précision peut s’avèrer supérieure à celle du p-estimateur.

Ÿ

Si " kÎU, Yk = a avec a constante réelle quelconque , alors ìmˆ YH = a = m y ï í Nˆ p ïmˆ Yp = a N î

_________________________________________________________________________ Plans à probabilités inégales - Module B8-CNAM 29/10/2004 - S.Rousseau

12

4. Comment construire des intervalles de confiance pour le total ou la moyenne ? Pour construire un intervalle de confiance à partir du p-estimateur, il faut connaître sa distribution de probabilité, du moins dans le cadre asymptotique. En général, on considère que le p-estimateur suit approximativement une loi normale lorsque la taille de l’échantillon est grande. L’intervalle de confiance au niveau de confiance 1-a pour le total ty est donc donné par :

IC1-a (t y ) = étˆyp - u1- a Vˆar (tˆyp ) ; tˆyp + u1- a Vˆar (tˆyp ) ù êë úû 2 2 où u1- a2 désigne le fractile d’ordre

1-

a 2

de la loi N ( 0,1) .

De même, en supposant la taille de la population N connue, l’intervalle de confiance pour la moyenne est donnée par : IC1-a ( m y ) = é mˆ yp - u1- a Vˆar ( mˆ yp ) ; mˆ yp + u1- a Vˆar ( mˆ yp ) ù êë úû 2 2

_________________________________________________________________________ Plans à probabilités inégales - Module B8-CNAM 29/10/2004 - S.Rousseau

13

Exemple de Basu (1971) Basu relate l’exemple suivant : le propriétaire d’un cirque souhaite estimer le poids total de son troupeau de 50 éléphants. Il y a 3 années de cela Sambo représentait le poids moyen du troupeau. En présumant que c’est toujours le cas, il propose de peser à nouveau Sambo et d’en déduire l’estimation suivante du poids du troupeau : Yˆ = 50 ´ (Poids de Sambo )

Le statisticien du cirque propose quant à lui d’estimer sans biais le poids total en échantillonnant un éléphant à probabilités inégales avec : ìp Sambo = 99 100 = 0,99 í 1 1 1 îp Autres = 100 ´ 49 = 4900

et en calculant : Yˆ = (Poids de Sambo ) / 0,99 Yˆ = 4900 ´ (Poids de l' éléphant tiré)

si Sambo est échantillonné sinon

_________________________________________________________________________ Plans à probabilités inégales - Module B8-CNAM 29/10/2004 - S.Rousseau

14

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF