QUELQUES TESTS DE LA LOI DE POISSON CONTRE

January 9, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download QUELQUES TESTS DE LA LOI DE POISSON CONTRE...

Description

QUELQUES TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES BASÉS SUR L’INDICE DE DISPERSION DE FISHER S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)

R ÉSUMÉ . La principale motivation de ce travail est d’évaluer les performances de quelques procédures de test destinées à valider l’adéquation de la loi de Poisson avec des données de comptage contre des alternatives générales. Ainsi nous comparons le test du Khi-Deux de Pearson à des tests construits à partir de statistiques obtenues par l’application d’une transformation de Box-Cox à l’indice de dispersion de Fisher.

1. I NTRODUCTION 1.1. Données de comptage. Les données de comptage résultent généralement du dénombrement des occurences d’évènements contemporains ou voisins dans l’espace. Bien que le modèle poissonnien soit le cadre probabiliste le plus utilisé pour l’analyse des données de comptage, ce modèle est approprié seulement si le processus sous-jacent à l’occurence des évènements considérés vérifient les hypothèses suivantes : (1) la probabilité de l’occurence simultanée de deux évènements est nulle ; (2) aucune occurence d’évènement au commencement de la période d’observation ; (3) la probabilité d’une occurrence pendant la période d’observation est – indépendante des occurences d’évènement antérieures à la date de cette occurence dans la période d’observation ; – indépendante de la date de cette occurence (hypothèse d’homogénéité). 1.2. Famille exponentielle des lois de Poisson. Cette famille est constituée de lois de probabilités p, de support égal à N, associées chacune de manière injective à un paramètre canonique θ ∈ R par la relation p (x, θ) = où :

  1 exp xθ − eθ x! +∞ X

1 exp (xθ) x! x=0

exp (θ) = log est appelé fonction cumulante. On a d’une part :

!

Date: Février 2004. Mots-clés: . Données de comptage, surdispersion, sousdispersion, bon ajustement. 1

2

S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)

λ = exp (θ) =

+∞ X

xp (x, θ)

x=0

et d’autre part

λ =

+∞ X x=0

(x − λ)2 p (x, θ) .

L’égalité entre la moyenne et la variance d’une loi de Poisson exprimée par les expressions ci-dessus caractérise la famille des lois de Poisson parmi les familles exponentielles de lois de probabilités. 1.3. Familles de lois de probabilités alternatives à la famille des lois de Poisson. Lorsque le modèle poissonnien n’est pas approprié, principalement parce que les résultats issus du traitement des données ne permettent pas de le valider, la question se pose de trouver un modèle probabiliste alternatif pour décrire les variations observées dans les données étudiées. Il est courant de chercher ces variance familles alternatives de lois de probabilités en se fondant sur la position du rapport moyenne relativement à 1 : – lorsque ce rapport est significativement supérieur à 1 la situation est qualifiée de sur-dispersion – si par contre ce rapport est inférieur à 1 on est en situation de sous-dispersion. Définition 1. Soit F une famille de lois de probabilité. On dira que la famille F est sur-dispersée (resp. sous dispersée) relativement à la famille des lois de Poisson si pour toute distribution de pro2 2 babilité appartenant à cette famille, de moyenne µ et de variance σ 2 on a σµ > 1 (resp. σµ < 1). La sur-dispersion a retenu beaucoup l’attention et a été étudiée de manière extensive : détection de la sur-dispersion et modélisation de la sur-dispersion. Par contre, la sous-dispersion demeure peu étudiée et les travaux convainquants en matière de modélisation de la sous-dispersion ne sont pas nombreux. Les résultats du présent travail concernent les différents aspects de l’inadéquation de la loi de Poisson avec des données, la surdispersion comme la sous dispersion. Dans la section 2 qui vient, nous étudions quelques statistiques en rapport avec l’indice de dispersion de Fisher. La section 3 est conscrée à une comparaison empirique des performances des tests construits à partir des statistiques étudiées dans la section qui précède. 2. S TATISTIQUE

DES DONNÉES DE COMPTAGE

On considère (xi )i=1:n une série de n dénombrements indépendants des occurences d’un certain type d’évènement. On note n 1X xi xn = n i=1

Sous l’hypothèse que la série statistique est constituée par les réalisations de variables aléatoire indépendantes distribuées suivant la même loi de Poisson de moyenne λ, x n est l’estimation de λ par la méthode du maximum de vraisemblance. Notons par ailleurs la variance empirique des données par

TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES

3

n

s2n =

1X (xi − xn )2 n i=1

Une question récurrente du traitement statistique des données de comptage est la validation ou non l’hypothèse que les données sont compatibles avec le modèle poissonnien. On considère dans la suite comme hypothèse nulle, H0 , l’hypothèse que les dénombrements observés sont des réalisations indépendantes d’une même loi de Poisson. 2.1. Indice de dispersion de Fisher. L’indice de dispersion de Fisher est une des statistiques les plus utilisées pour discriminer le modèle poissonnien par rapport à des modèles alternatifs. Il est défini par n

s2

n n 2 le quotient n−1 xn . On peut observer que le numérateur n−1 sn mesure la variabilité observée dans les données et que xn est l’estimation de cette variabilité prévue par le modèle poissonnien. Il parait donc raisonnable de considérer un écart trop important entre ces deux mesures de dispersion comme l’évidence de l’inadéquation du modèle poissonien avec les données.

2.1.1. Distribution de probabilités de l’indice de dispersion de Fisher. Soit (X i )i=1:n une suite de variables aléatoires indépendantes identiquement distribuées à valeurs dans N. On pose n X Xi Xn = i=1

n

Sn2

=

2 1X Xi − X n n i=1

n

S2

n pour un échanOn ne connaît pas d’expression algébrique de la distribution de la statistique n−1 Xn tillon de taille n donnée. Sous l’hypothèse que les dénombrements observés sont des réalisations indé2 n pendantes de variables de Poisson de même moyenne, nS Xn apparaît comme la statistique de Pearson et on montre que cette statistique est approximativement égale à celle du rapport de vraisemblance sous 2 n est asymptotiquement distribué comme la loi du Chi−Deux l’hypothèse nulle. On en déduit que nS Xn à n − 1 degrés de liberté si l’échantillon observée est générée par une loi de Poisson. On peut montrer que plus généralement :

Proposition 1. Si (Xi )i=1:n une suite de variables aléatoires indépendantes distribuées suivant la même loi de probabilité de moyenne µ et de variance σ 2 alors la convergence en loi de la statistique  2 2 2 nSn nX n σ vers U. vers une variable aléatoire U entraîne celle de la statistique µ S2 X n

n

2.1.2. Tests du Chi − Deux pour discriminer la famille des lois de Poisson par rapport à des familles alternatives de lois de probabilité. Nous ne considérons ici que les tests du Chi − Deux basés sur l’indice de dispersion. Effet, si on dispose d’un échantilon de taille suffisante, on peut envisager de tester l’hypothèse nulle que la distribution est une loi de Poisson contre les alternatives de surdispersion ou de sous-dispersion et même l’alternative bilatérale. Malheureusement on ne connait pas 2 n n de manière explicite le comportement asymptotique de nS et nX sous des hypothèses alternatives 2 Sn Xn générales pour pouvoir comparer ces procédures de test de point de vue de leurs puissances. Soit χ2n−1,α et χ2n−1,1−α respectivement les quantiles d’ordre α et 1 − α de la distribution du Chi − Deux à n − 1 degré de liberté.

4

S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)

– Hypothèse alternative d’une famille sur-dispersée De nombreuses procédures de test ont été proposées, même récemment encore [2, 4], pour tester l’hypothèse nulle contre l’alternative de sur-dispersion. Pour une valeur nominale de la probabilité d’erreur de première espèce fixée à α, on peut envisager l’une des deux procédures suivantes : Rejet de H0 si

2 nSn Xn

Rejet de H0 si

nX n 2 Sn

> χ2n−1,1−α

ou < χ2n−1,α

– Hypothèse alternative d’une famille sous-dispersées De la même manière que ci-dessus, on peut envisager de tester l’hypothèse nulle de la distribution de Poisson contre l’alternative de sous-dispersion en considérant l’un des tests de régions critiques suivantes : Rejet de H0 si

2 nSn Xn

Rejet de H0 si

nX n 2 Sn

< χ2n−1,α

ou > χ2n−1,1−α

– Hypothèse bilatérale A l’évidence on peut envisager également un test bilatéral de l’hypothèse nulle contre son contraire basé sur l’indice de dispersion de la manière suivante, pour une probabilité d’erreur de première espèce α : Rejet de H0 si

2 nSn Xn

< χ2n−1, α ou 2

2 nSn Xn

> χ2n−1,1− α 2

2.2. Autres statistiques en rapport avec l’indice de dispersion de Fisher. Tiago de Oliveira [6] a n Sn2 − X n , l’utilisation de la statistique suggéré, à partir de l’étude de la variance de la statistique n−1 n 2 n−1 Sn

1

TO = n 2 

− Xn

1

1 − 2X n2 + 3X n

 12

pour construire un test de l’hypothèse nulle contre l’aternative de sur-dispersion. n Sn2 −X n obtenue par Tiago de Après avoir observé que l’expression de la variance de la statistique n−1 Oliveira sous l’hypothèse nulle était fausse, Böhning [1] a donné l’expression correcte de la variance n Sn2 − X n et proposé la statistique suivante de n−1

TB =

r

n−1 2

n 2 n−1 Sn

− Xn

Xn

!

pour construire un test de l’hypothèse nulle de la loi de Poisson contre l’alternative de la sur-dispersion. Böhning [1] n’a pas explicitement étudié la distribution de la statistique T B qu’il a proposée ni sous l’hypothèse nulle, ni sous l’hypothèse de sur-dispersion. Comme la statistique T B est fondée sur Sn2 n Sn2 − X n = Sn2 − X n + , n−1 n−1

TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES

5

poursuivant en cela l’idée de Tiago de Oliveira, nous allons étudier le comportement asymptotique de Sn2 − X n dans la section qui va suivre. 2.2.1. Comportement asymptotique de la statistique S n2 − X n . Considérons une suite (Xi )i=1:n de n variables aléatoires indépendantes de même loi. On supposera que cette loi admet des moments jusqu’a l’ordre 4. Soit : µ = E (X1 ) σ 2 = E (X1 − µ)2

µk = E (X1 − µ)k , k ≥ 3  o   √ n n 2 √  2−µ Proposition 2. Les statistiques n Sn2 − X n − σ 2 − µ et n S − − σ X n n n−1  2 convergent en loi vers la distribution gaussienne centrée et de variance µ4 − 2µ3 + σ 2 − σ 2 Démonstration.

n

Sn2



2

− Xn − σ − µ



=

2  1X (Xi − µ)2 − X n − µ − X n − µ n i=1

=

n o 2 1 Xn (Xi − µ)2 − (Xi − µ) − σ 2 − X n − µ n i=1

(Xi − µ)2 − (Xi − µ) est une variable aléatoire de moyenne égale à σ 2 et de variance égale à µ4 − 2 2µ3 + σ 2 − σ 2 . Il s’ensuit que √ n

1 n

n n X i=1

o (Xi − µ)2 − (Xi − µ) − σ 2

q (µ4 − 2µ3 + σ 2 ) − (σ 2 )2

converge en loi vers la loi gaussienne centrée et réduite.  √ Comme n X n − µ converge en loi d’après le théorème limite central et X n −µ converge presque  2 √ √  sûrement vers 0, alors n X n − µ converge en probabilité vers 0. On en déduit que n Sn2 − X n − σ 2 − µ 2  converge en loi vers la loi gaussiennce centrée et de variance µ4 − 2µ3 + σ 2 − σ 2 . Par ailleurs     √ √ Sn2 n 2 2 = n n Sn − X n + S − Xn n−1 n n−1 √ Sn2 et n n−1 converge presque-sûrement vers 0.    √ n n 2 o √  2 2 2 Il s’ensuit que les statistiques n Sn − X n − σ − µ et n n−1 Sn − X n − σ − µ ont la même distribution asymptotique.  Corollaire 1. Si les variables aléatoires X i , i = 1 : n sont indépendantes et distribuées suivant la loi p 2 n converge en loi vers la loi gaussienne centrée réduite. de Poisson de moyenne λ alors n2 Sn −X λ

6

S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)

Démonstration. Sous l’hypothèse que les variables aléatoires X i , i = 1 : n sont distribuées suivant la loi de Poisson de moyenne λ, µ4 = 3λ2 + λ, µ3 = λ et σ 2 = λ. D’où  2 µ4 − 2µ3 + σ 2 − σ 2 = 2λ2 On obtient la proposition comme une conséquence de la précédente



Corollaire 2. Si les variables aléatoires X i , i = 1q : n sont indépendantes et distribuées suivant la loi n n 2 −X p n n−1 Sn S 2 −X n n n−1 n et n−1 convergent en loi respectivement de Poisson de moyenne λ, alors 2 λ 2 λ vers la loi gaussienne centrée réduite. Démonstration. Comme n Sn2 − X n √ n−1 √ n λ 2

√ n =

2



Sn2 Sn2 − X n √ −√ 2λ 2λ (n − 1)



Sn converge presque-sûrement vers 0, le corollaire se déduit de la proposition 2 de façon imet λ(n−1) médiate.    n 2   2 √ (Sn2 −X n )−(σ2 −µ) √ ( n−1 Sn −X n )−(σ −µ) Corollaire 3. Les statistiques n et n convergent en X X n

n

(µ4 −2µ3 +σ2 )−(σ2 ) µ2

2

. loi vers la distribution gaussienne centrée et de variance    n 2  √ ( √ (Sn2 −X n )−(σ2 −µ) S −X n )−(σ 2 −µ) et n n−1 n n S 2 Corollaire 4. n convergent en loi vers la distriS2 n

bution gaussienne centrée et de variance

n−1

n

(µ4 −2µ3 +σ2 )−(σ2 ) (σ 2 )2

2

.

Démonstration. On obtient ce corollaire à partir de la proposition 2 et en tenant compte que X n et Sn2 convergent presque-sûrement vers µ et σ 2 respectivement.     p n 2 p  Sn2 Sn Corollaire 5. Sous l’hypothèse nulle, les statistiques n2 X − 1 et n2 n−1 − 1 convergent X n

en loi vers la distribution gaussienne centrée et reduite.  p  p  n et n2 1 − Corollaire 6. De même les statistiques n2 1 − X 2 S

distribution gaussienne centrée et reduite.

n

n

Xn n S2 n−1 n



convergent en loi vers la

Démonstration. Le résultat vient de l’énoncé qui le précède en tenant compte que sous l’hypothèse nulle µ4 = 3λ2 + λ, µ3 = λ et σ 2 = λ     n 2 q Sn − g (1) Lemme 1. Soit g une fonction dérivable. Sous l’hypothèse nulle, la statistique 2 g0n(1) g n−1 Xn | | converge en loi vers la distribution gaussienne centrée et réduite. Démonstration. g étant dérivable, la proposition résulte de la méthode ‘delta’   n 2  Sn La statistique n−1 − 1 est cas particulier de la statistique de Box-Cox appliquée à l’indice de X n

n S2 n−1 n

dispersion X . Ceci suggère de s’intéresser aux statistiques obtenues en appliquant à l’indice de n dispersion les transformations de Box-Cox en général.

TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES

7

Proposition 3. Considérons γ ∈ R et les statistiques,   „ n S 2 «γ    n−1 n −1   p Xn  n  si γ 6= 0 2  γ  Un,γ =  n   o    p n log n S 2 − log X n  si γ = 0 n 2 n−1 Alors Un,λ converge en loi vers la distribution gaussienne centrée et réduite. Démonstration. La proposition résulte du lemme qui précède  n 2  q q S n−1 n−1 n − 1 = n−1 On a TB = 2 n Un,1 et on en déduit que X



n

Proposition 4. Sous l’hypothèse nulle que l’échantillon est poissonnien, T B est asymptotiquement gaussienne centrée et de variance 1 . Par ailleurs, on peut écrire aussi que

TB

=

En tenant que la distribution asymptotique de l’expression TB =

2 nSn Xn



−(n−1)

2(n−1)

2 nSn Xn

− (n − 1) p 2 (n − 1)

2 nSn Xn

est un Chi − Deux à n − 1 degrés de liberté,

montre que asymptotiquement TB correspond à l’approximation de

Paul Levy d’une distribution du Chi − Deux par une distribution gaussienne. On sait aussi que cette approximation est l’une des moins bonnes. On pourrait donc envisager les corrections suivantes de la statistique de Böhning afin d’améliorer la vitesse de convergence :

0

TB

=

s

2

nSn2 √ − 2n − 3 Xn

suggérée par l’approximation de Fisher pour une variable de Chi − Deux ([5], p.31) ; q 3

TB”

=

 − 1− q

2 n Sn n−1 X n

2 9(n−1)

suggérée par l’approximation de Wilson-Hilferty ([5], p.31). Proposition 5. (i) (ii) (iii)

q

∀γ > 1, TB ≤ n−1 n Un,γ q q n−1 n−1 ∀γ ∈ ]0, 1[ , n Un,0 ≤ n Un,γ ≤ TB q q n−1 ∀γ < 0, n−1 n Un,γ ≤ n Un,0 .

2 9(n−1)



8

S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)

  2 Sn Démonstration. La fonction x 7→ log (x) étant concave, il s’ensuit que log Sn2 −log X n ≤ X −1 n q et n−1 n Un,0 ≤ TB .  2  2 γ Sn Sn . − 1 ≥ γ log X Pour tout réel x > 0, la fonction γ 7→ xγ est convexe et il en résulte que X n n  2 γ Sn −1≥ Par ailleurs, la fonction x 7→ xγ est convexe pour tout γ ∈ / ]0 , 1[, ce qui implique que X n h 2 i Sn γ X −1 n h 2  2 γ i Sn Sn −1 ≤ γ X −1 Enfin, la fonction x 7→ xγ est concave pour tout γ ∈ ]0 , 1[et il s’ensuit que X n n  Corollaire 7. Soit z ∈ R  q n−1 U > z ∀γ > 1 Pr (TB > z)≤ Pr n,γ n q  q  n−1 n−1 γ ∈ ]0 , 1[ Pr U > z ≤ Pr U > z ≤ Pr (TB > z) n,0 n,γ n n  q  q n−1 n−1 ∀γ < 0 Pr n Un,γ > z ≤ Pr n Un,0 > z

(i) (ii) (ii)

q 2 2.3. Tests basés sur les statistiques nSnn , TB et n−1 n Un,γ . Puisque les distributions exactes des q 2 statistiques nSnn , TB et n−1 n Un,γ ne sont pas explicitement connues, on peut s’appuyer sur les distributions asymptotiques pour déterminer les régions critiques pour des tests d’adéquation à la distribution de Poisson. Notons z1−α et zα = −z1−α respectivement les quantiles d’ordre 1 − α et α de la loi gaussienne centrée réduite. Nous considérons les tests asymptotiques définis ci-dessous : (1) pour l’alternative de sur-dispersion (a) Rejet de H0 si TB

> z1−α

(b) Rejet de H0 si

r

n−1 Un,γ n

> z1−α

(2) pour l’alternative de sous-dispersion (a) Rejet de H0 si TB

< zα

(b) Rejet de H0 si

r

n−1 Un,γ n

< zα

TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES

2.3.1. Equivalence asymptotique des tests basés sur les statistiques T B , et

q

9

n−1 n Un,γ .

Proposition 6. q Lorsque l’hypothèse alternative est la sur-dispersion, les tests de régions critiques TB > z1−α , et n−1 n Un,γ > z1−α sont asymptotiquement équivalents.

Lorsque l’hypothèse alternative est la sous-dispersion, les tests de régions critiques T B < zα et q n−1 n Un,γ < zα sont asymptotiquement équivalents.

Démonstration. Considérons tout d’abord le cas de sur-dispersion. On obtient comme une conséquence du lemme 5 précédent que pour γ 6= 1 prob TB ≤ z1−α et

r

n−1 Un,γ > z1−α n

!

= 0

prob TB > z1−α et

r

n−1 Un,γ ≤ z1−α n

!

= 0

Le résultat est obtenu dans le cas de la sous-dispersion en suivant la même démarche



Donc pour n grand, la probabilité de rejeter l’hypothèse nulle avec l’un des deux tests et de l’accepter avec l’autre est faible. q 2.3.2. Equivalence asymptotique des tests basés sur T B et n−1 n Un,γ avec les tests du Chi − Deux basés sur

2 nSn . Xn

χ2

n−1 Considérons tout d’abord le cas de la sur-dispersion. On sait que √

totiquement gaussienne centrée et réduite, d’où "

χ2n−1 − (n − 1) p lim prob < z1−α n→+∞ 2 (n − 1)

et on en déduit que lim

χ2n−1,1−α −n+1

n→+∞

1 p 2 (n − 1)



2(n−1)



−n+1

2(n−1)

#

= prob [N (0, 1) < z1−α ] = 1 − α

= z1−α . Par ailleurs, on a

nSn2 − (n − 1) Xn



n−1 = p 2 (n − 1) = TB

n 2 n−1 Sn

− Xn

Xn

!

Ainsi pour n grand, on a : (i) prob



nSn2 Xn

< χ2n−1,1−α





2 nSn Xn

− (n − 1)

χ2n−1,1−α



−n+1  p = prob  p < 2 (n − 1) 2 (n − 1) " # χ2n−1,1−α − n + 1 p = prob TB < ; 2 (n − 1)

est asymp-

10

S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)

(ii)

prob



nSn2 ≤ χ2n−1,1−α et TB > z1−α Xn

On obtient ainsi que lim prob

n→+∞





χ2n−1,1−α − n + 1 p et TB > z1−α = prob TB ≤ 2 (n − 1) ! χ2n−1,1−α − n + 1 p = prob z1−α ≤ TB < 2 (n − 1) ! χ2n−1,α − n + 1 = prob z1−α ≤ TB < p . 2 (n − 1)

nSn2 ≤ χ2n−1,1−α et TB > z1−α Xn



!

= 0

On montre de manière analogue que  2  nSn 2 > χn−1,α et TB ≤ z1−α prob = 0 Xn ce qui signifie que si l’hypothèse nulle est vraie, la probabilité de la rejeter avec le test de région cri2 n > χ2n−1,α et de l’accepter avec le test de région critique T B > z1−α est asymptotiquement tique nS Xn nulle. En tenant compte de la convexité (resp. concavité) de la fonction x 7→ x γ lorsque γ ∈ / [0 , 1[ (resp. γ ∈ [0 , 1[, on obtient à partir des résultats précédents que ! r n−1 nSn2 2 > χn−1,α et Un,γ ≤ z1−α = 0 lim prob n→+∞ n Xn et lim prob

n→+∞

nSn2 ≤ χ2n−1,α et Xn

r

n−1 Un,γ > z1−α n

!

= 0

2.3.3. Probabilités d’erreur de second espèce des tests basés sur les statistiques T B et

q

n−1 n Un,γ .

Proposition 7. Lorsque l’hypothèse alternative est la sur-dispersion, la probabilité d’erreur de seconde espèce q est plus faible pour le test de région critique T B > z1−α que pour les tests de région critique

n−1 n Un,γ

> z1−α si γ < 1

Lorsque l’hypothèse alternative est la sous-dispersion, la probabilité d’erreur de seconde espèce est q

plus faible pour le test de région critique lorsque γ < 1.

n−1 n Un,γ

< zα que pour celui de région critique TB < zα

Démonstration. Les résultats de cette proposition sont obtenus en s’appuyant, comme dans les soussections qui précèdent, sur la propostion 5 et le corollaire 7qui le suit. 

TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES

11

Proposition 8. (i) Lorsque l’hypothèse alternative est la sur dispersion, la probabilité d’erreur de seconde q n−1 espèce du test de région critique n Un,γ > zα est plus faible que celui du test de région critique q   n−1 log Sn2 − log X n > zα 2 (ii) Lorsque l’hypothèse alternative est la sous-dispersion pour tout γ < 0, la probabilité d’erq

reur de seconde espèce du test de région critique q   log Sn2 − log X n < zα . critique n−1 2

n−1 n Un,γ

< zα est plus faible que le test de région

Démonstration. Cette proposition s’obtient également à partir des résultats énoncés à la proposition 5. 

3. A NALYSE

EMPIRIQUE DES PERFORMANCES DES TESTS D ’ HYPOTHÈSES PROPOSÉS

Les quantiles extrêmes de la distribution d’une statistique de test sont souvent celles qui sont intéressantes pour la mise en oeuvre d’un test d’hypothèse basé sur cette statistique. On a donc besoin d’avoir de bonnes approximations pour ces quantiles extrêmes lorsque la distribution exacte de la statistique de test n’est pas connue. L’objectif des simulations dont les résultats sont présentés ci-après est d’évaluer empiriquement la qualité de l’approximation des quantiles extrêmes des distributions des q 2

n , TB , n−1 statistiques nS n Un,γ (avec γ = −1, .1, 0, −.1) par les quantiles nominales correspondant Xn aux lois limites en fonction des tailles d’échantillon.

3.1. Probabilités empiriques d’erreur de première espèce. Dans la mesure où les régions critiques des tests sont déterminées à partir de distributions asymptotiques des statistiques de test, on peut s’attendre à ce que les probabilités effectives d’erreur de première espèce s’écartent de la valeur nominale correspondante à ces régions critiques. Une probabilité d’erreur de première espèce significativement supérieur à la valeur nominale de 5% indiquerait que la précision de l’approximation des quantiles extrêmes de la distribution de la statistique de test par celles de sa distribution limite n’est pas suffisante. Pour étudier le problème posé ci-dessus nous avons simulé 10000 échantillons pour chaque couple (n, µ) de taille d’échantillon (n) et de moyenne de loi de Poisson (µ). Nous avons considéré trois cas pour la moyenne µ de la loi de Poisson : – les petites moyennes : {0.5, .75, 1} ; – les moyennes de niveau intermédiaire {2, 5, 8} ; – les grandes moyennes {10, 15, 20}. Les tailles n des échantillons examinées sont : 30, 50, 100, 200. Si on tient compte que les variances des probabilités d’erreur de première espèce sont majorées par .25 −5 et par conséquent l’amplitude des intervalles de confiance à 95% est inférieure à 10000 = 2.5 × 10 2 × 0.0098.

12

S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)

3.1.1. Tests bilatéraux. On considère une test bilatéral lorsque les informations à priori disponbles sur le phénomène étudié ne permettent pas de choisir entre choisir entre la sousdispersion et la surdispersion comme situation alternative à l’inadéquation de la loi de Poisson. Les résultats reportés dans les tableaux 1, 2 et 3 suggèrent les observations suivantes pour un test bilatéral : (1) Les q probabilités d’erreur de première espèce sont supérieures à 0.05 pour la statistique de test n−1 n Un,−1 lorsque l’échantillon est de petite taille (n ≤ 50) ; les quantiles extrêmes de la distribution de cette statistique ne sont donc pas approximées avec une précision suffisante par celles de la loi gaussienne centrée et reduite. (2) Pour toutes les autres statistiques de test, et quelle que soit de la taille de l’échantillon, les probabilités d’erreur de première espèce sont inférieures à la valeur nominale de 5% ou non significativement différentes de cette valeur nominale.

TAB . 1. Test bilatéral : probabilités empiriques d’erreur de première espèce n=30 µ=0.5 µ=1 µ=5 µ=10 µ=20 2 nSn 0.0357 0.0434 0.0470 0.0467 0.0460 Xn TB 0.0393 0.0423 0.0426 0.0439 0.0421 TB0 0.0324 0.0434 0.0455 0.0442 0.0441 T ” 0.0357 0.0434 0.0470 0.0466 0.0458 B q n−1 2 (1

q



Xn n S2 n−1 n

n−1 n Un,0.1

0.0355 0.0453 0.0525 0.0524 0.0492

n−1 n Un,−0.1 n S2 n−1 n−1 n log 2 Xn

0.0347 0.0521 0.0570 0.0569 0.0554

q

q

2 nSn Xn TB TB0 T ”B

n−1 2 (1

q

Xn n S2 n−1 n

µ=10 0.0487 0.0467 0.0481 0.0486

µ=20 0.0458 0.0437 0.0446 0.0457

) 0.0490 0.0653 0.0656 0.0683 0.0678

n−1 n Un,0.1

0.0415 0.0465 0.0516 0.0519 0.0490

n−1 n Un,−0.1 n S2 n−1 n−1 n 2 log X n

0.0430 0.0475 0.0534 0.0546 0.0527

q

q



0.0360 0.0487 0.0539 0.0548 0.0505

TAB . 2. Test bilatéral (suite) µ=0.5 µ=1 µ=5 0.0425 0.0455 0.0511 0.0461 0.0472 0.0461 0.0442 0.0455 0.0495 0.0425 0.0455 0.0507

n=50

q

) 0.0647 0.0736 0.0791 0.0786 0.0799

0.0428 0.0464 0.0517 0.0531 0.0499

TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES

TAB . 3. Test bilatéral (fin) µ=0.5 µ=1 µ=5 0.0439 0.0454 0.0477 0.0450 0.0470 0.0480 0.0438 0.0454 0.0492 0.0439 0.0454 0.0477

n=100 2 nSn Xn TB TB0 T ”B

q

n−1 2 (1

q



Xn n S2 n−1 n

n−1 n Un,0.1

q

n−1 Un,−0.1 q n n S2 n−1 n−1 n log 2 Xn

µ=10 0.0496 0.0487 0.0493 0.0495

13

µ=20 0.0482 0.0494 0.0479 0.0482

) 0.0521 0.0556 0.0604 0.0602 0.0580 0.0438 0.0478 0.0502 0.0525 0.0504 0.0446 0.0491 0.0523 0.0533 0.0516 0.0442 0.0486 0.0506 0.0524 0.0511

3.1.2. Tests unilatéraux de surdispersion. Pour les tests unilatéraux où l’hypothèse alternative est la surdispersion, on observe que à partir des résultats de simulation présentés dans les tableaux 4, 5 et 4 :

(1) Les probabilités d’erreur q de première espèce sont inférieures à 5% lorsque la statistique de test est de la famille n−1 n Un,γ , quelle que soit la taille de l’échantillon.

(2) La probabilité d’erreur de première espèce pour le test du Chi-Deux basé sur la statistique de Pearson est de l’ordre de 5%, de même pour les tests basés sur la statistique de Böhning et ses dérivées.

TAB . 4. Test unilatéral de surdispersion : probabilités empiriques mière espèce n=30 µ=0.5 µ=1 µ=5 µ=10 2 nSn 0.0482 0.0512 0.0487 0.0473 Xn TB 0.0529 0.0598 0.0608 0.0588 TB0 0.0482 0.0541 0.0517 0.0498 T ” 0.0482 0.0512 0.0488 0.0476 B q n−1 2 (1

q

Xn n S2 n−1 n

µ=20 0.0482 0.0622 0.0522 0.0482

) 0.0093 0.0087 0.0050 0.0074 0.0064

n−1 n Un,0.1

0.0321 0.0355 0.0322 0.0332 0.0316

n−1 n Un,−0.1 n S2 n−1 n−1 n 2 log X n

0.0269 0.0302 0.0271 0.0274 0.0264

q

q



d’erreur de pre-

0.0309 0.0327 0.0295 0.0296 0.0289

14

S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)

TAB . 5. Test unilatéral de surdispersion (suite) n=50 µ=0.5 µ=1 µ=5 µ=10 2 nSn 0.0538 0.0529 0.0506 0.0475 Xn TB 0.0633 0.0599 0.0598 0.0570 0 TB 0.0597 0.0544 0.0536 0.0499 T ” 0.0538 0.0529 0.0506 0.0475 B q Xn n−1 0.0195 0.0155 0.0151 0.0145 n 2) 2 (1 − n−1 Sn q n−1 Un,0.1 0.0429 0.0406 0.0380 0.0366 q n n−1 Un,−0.1 0.0405 0.0369 0.0328 0.0322 q n n 2 S n n−1 n−1 0.0420 0.0392 0.0350 0.0339 2 log X n

n=100

q

TAB . 6. Test unilatéral de surdispersion (fin) µ=0.5 µ=1 µ=5 µ=10 2 nSn 0.0493 0.0503 0.0504 0.0523 Xn TB 0.0568 0.0584 0.0568 0.0581 0 TB 0.0493 0.0524 0.0522 0.0541 T ”B 0.0493 0.0503 0.0504 0.0524

n−1 2 (1

q

Xn n S2 n−1 n

0.0137 0.0366 0.0318 0.0349

µ=20 0.0521 0.0589 0.0541 0.0521

) 0.0253 0.0248 0.0236 0.0230 0.0238

n−1 n Un,0.1

0.0413 0.0418 0.0413 0.0435 0.0429

n−1 n Un,−0.1 n S2 n−1 n−1 n log 2 Xn

0.0370 0.0380 0.0384 0.0386 0.0396

q

q



µ=20 0.0493 0.0603 0.0520 0.0493

0.0377 0.0394 0.0402 0.0411 0.0417

3.1.3. Tests unilatéraux de sousdispersion. Les résultats des simulations (tableaux 7, 8 et 9) suggèrent que pour les tests unilatéraux où l’hypothèse alternative est la sousdispersion :

(1) La probabilité d’erreur de première espèce est majorée par la valeur nominale de 5% pour le test du Chi − Deux de Pearson ainsi que pour les tests basés sur la statistique de Böhning et les corrections associées. (2) La probabilité d’erreur de première espèce est significativement supérieure à la valeur nomiq nale de 5% lorsque la statistique de test est de la forme

n−1 n Un,γ .

TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES

TAB . 7. Test unilatéral de sousdispersion : probabilités empiriques d’erreur de première espèces n=30 µ=0.5 µ=1 µ=5 µ=10 µ=20 2 nSn 0.0228 0.0410 0.0483 0.0474 0.0477 Xn TB 0.0102 0.0214 0.0297 0.0273 0.0275 TB0 0.0201 0.0365 0.0444 0.0424 0.0417 T ” 0.0228 0.0410 0.0483 0.0474 0.0477 B q n−1 2 (1

q



Xn n S2 n−1 n

n−1 n Un,0.1

0.0369 0.0553 0.0673 0.0669 0.0679

n−1 n Un,−0.1 n S2 n−1 n−1 n log 2 Xn

0.0411 0.0641 0.0757 0.0748 0.0764

q

q

n−1 2 (1

q



Xn n S2 n−1 n

n−1 n Un,−0.1 n S2 n−1 n−1 n log 2 Xn

0.0471 0.0663 0.0648 0.0688 0.0691

q

0.0460 0.0636 0.0627 0.0655 0.0659

TAB . 9. Test unilatéral de sousdispersion (fin) µ=0.5 µ=1 µ=5 µ=10 2 nSn 0.0379 0.0415 0.0500 0.0480 Xn TB 0.0308 0.0344 0.0396 0.0393 TB0 0.0364 0.0393 0.0470 0.0455 T ”B 0.0379 0.0415 0.0500 0.0480

n−1 2 (1



Xn n S2 n−1 n

µ=20 0.0496 0.0392 0.0471 0.0496

) 0.0732 0.0742 0.0857 0.0791 0.0837

n−1 n Un,0.1

0.0496 0.0510 0.0617 0.0585 0.0606

n−1 n Un,−0.1 n S2 n−1 n−1 n 2 log X n

0.0545 0.0549 0.0663 0.0626 0.0648

q

q

) 0.0720 0.0931 0.0909 0.0960 0.0963 0.0396 0.0576 0.0595 0.0620 0.0625

n=100

q

µ=20 0.0481 0.0325 0.0442 0.0481

n−1 n Un,0.1

q

q

0.0400 0.0585 0.0713 0.0706 0.0720

TAB . 8. Test unilatéral de sousdispersion (suite) µ=0.5 µ=1 µ=5 µ=10 2 nSn 0.0293 0.0431 0.0466 0.0474 Xn TB 0.0199 0.0274 0.0330 0.0334 TB0 0.0265 0.0398 0.0429 0.0443 T ”B 0.0293 0.0431 0.0465 0.0474

n=50

q

) 0.0839 0.0959 0.1115 0.1126 0.1110

0.0506 0.0530 0.0643 0.0602 0.0624

15

16

S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)

3.2. Analyse empirique des probabilités d’erreur de seconde espèce. Nous avons considérés trois modèles pour pour l’étude empirique de la probabilité d’erreur de seconde espèce, donc de la puissance : – le modèle de Poisson tronqué en zéro qui est un cas de sous dispersion ; – le modèle binomial négatif pour la sur dispersion. 3.2.1. Modèle poissonnien contre le modèle de Poisson tronqué en zéro. Le modèle de Poisson tronqué en zéro est défini par la famille des lois de probabilités p, à support égal à N ∗ et tel que n   o 1 exp θx − log −1 + exp eθ p (x, θ) = x! où ) ( +∞    X 1 θ = log log −1 + exp e exp (xθ) x! x=1

et θ ∈ R

La moyenne et la variance de la loi de Poisson tronquée en zéro sont respectivement : µ (θ) = =

σ 2 (θ) =

+∞ X x=1

+∞ X

xp (x, θ)

x=1 eθ

 exp eθ −1 + exp (eθ )

  (x − µ)2 p (x, θ) = µ (θ) − exp −eθ µ (θ)2

De plus, on a : lim

θ→+∞

n

  o e−θ log −1 + exp eθ = 1 lim µ (θ) e−θ = 1

θ→+∞

et lim σ (θ)2 = µ (θ)

θ→+∞

Ces résultats signifient que pour les grandes valeurs de θ la loi de Poisson tronquée en zéro converge vers la loi de Poisson de même moyenne, comme on peut le noter dans le tableau 10 ci-dessous. Les simulations dont les résultats sont présentés ci-dessous ont été réalisées en considérant les lois de moyenne µ = 1, 2, 5, 10 pour les tailles d’échantillon n = 30, 50, 100. 10000 répliques ont été effectuées pour chaque combinaison (n, µ).

TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES

17

TAB . 10. variance et indice de dispersion en fonction de la moyenne Indices de Moyennes Variances dispersion 1 .632 .632 2 1.457 .729 5 4.831 .966 10 9.995 .999

Les résultats présentés dans le tableau 11 ci-dessous suggèrent que pour une même valeur nominale de la probabilité d’erreur de première espèce le test de sous-dispersion q ayant la probabilité d’erreur de

seconde espèce la plus faible est celui construit avec la statistique n−1 n Un,−1 . Le test du Chi−Deux et le test de Böhning ont les probabilités d’erreur de seconde espèce les plus élevées. Aucun des tests etudiés dans ce travail ne permet de discriminer entre le modèle de Poisson et le modèle de Poisson tronqué en zéro si la moyenne théorique est élévée (µ ≥ 5). TAB . 11. Loi de Poisson tronqué en zéro : probabilités empiriques d’erreur de seconde espèce

2 nSn Xn

TB 0 TB T ”B q

n−1 (1 2



Xn n S2 n−1 n

q

n−1 Un,0.1 q n n−1 Un,−0.1 n

q

n−1 2

log

n S2 n−1 n

Xn

)

n=30

µ=1 n=50

n=100

n=30

µ=2 n=50

n=100

n=30

µ=5 n=50

n=100

n=30

µ=10 n=50

n=100

0.1322

0.0271

0.0004

0.7324

0.5708

0.2691

0.9602

0.9516

0.9494

0.9469

0.9547

0.9515

0.2445 0.1542 0.1322

0.0500 0.0323 0.0271

0.0006 0.0004 0.0004

0.8530 0.7708 0.7324

0.6884 0.5922 0.5708

0.3338 0.2821 0.2691

0.9687 0.9626 0.9602

0.9625 0.9549 0.9517

0.9589 0.9515 0.9494

0.9537 0.9493 0.9472

0.9565 0.9546 0.9548

0.9527 0.9508 0.9515

0.0475

0.0087

0.0002

0.4949

0.3685

0.1608

0.9086

0.9110

0.9195

0.9185

0.9318

0.9399

0.0967

0.0208

0.0003

0.6618

0.4947

0.2313

0.9472

0.9449

0.9419

0.9456

0.9508

0.9495

0.0820

0.0184

0.0002

0.6227

0.4695

0.2164

0.9406

0.9381

0.9370

0.9403

0.9459

0.9479

0.0877

0.0200

0.0002

0.6447

0.4801

0.2243

0.9457

0.9416

0.9391

0.9431

0.9483

0.9487

3.2.2. Modèle poissonnien contre le modèle binomial négatif. On a souvent recours à la loi binomiales négative comme alternative à la loi de Poisson lorsqu’il s’avère que la variabilité observées dans les données est significativement supérieure à celle que prévoit le modèle poissonnien. Les simulations dont les résultats sont présentés ci-dessous (tableau 13) ont été réalisées en considérant les lois binomiales négatives de moyenne µ = 0.5, 5, 10, avec le même paramètre de dispersion φ = 0.1, pour les tailles d’échantillon n = 30, 50, 100. 10000 répliques ont été effectuées pour chaque combinaison (n, µ).

18

S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)

TAB . 12. Lois binomiales négatives de paramètre de dispersion φ = 0.1 Indices de Moyennes Variances dispersion 0.5 .525 1.05 1 1.1 1.1 5 7.5 1.5 10 20 2

Aucun des tests examinés dans ce travail ne permet de discriminer entre la loi de Poisson et la loi binomiale négative lorsque la moyenne est faible et l’indice de dispersion théorique est proche de 1. Par ailleurs, les résultats ci-dessous montrent q à l’évidence qu’avec l’alternative de la loi binomiale né-

gative le test construit avec la statistique n−1 n Un,−1 est celui dont la probabilité d’erreur de seconde espèce est la plus élevée. Pour les petits échantillons (n ≤ 50), le test construit avec la statistique de Böhning est celui pour lequel la probabilité d’erreur de seconde espèce est la plus faible pour une même valeur nominale de la probabilité d’erreur de première espèce. TAB . 13. Lois binomiales négatives : probabilités d’erreur de seconde espèce 2 nSn Xn

TB 0 TB T ”B q

n−1 (1 2



Xn n S2 n−1 n

q

n−1 Un,0.1 q n n−1 Un,−0.1 n q n S2 n−1 n−1 n 2

log

Xn

)

n=30

µ=0.5 n=50

n=100

n=30

µ=5 n=50

n=100

n=30

µ=10 n=50

n=100

0.9463

0.9471

0.9287

0.6222

0.4343

0.1815

0.2309

0.0785

0.0032

0.9339 0.9464 0.9463

0.9379 0.9454 0.9471

0.9184 0.9268 0.9287

0.5655 0.6072 0.6222

0.3889 0.4222 0.4343

0.1537 0.1730 0.1816

0.1941 0.2212 0.2309

0.0635 0.0739 0.0785

0.0024 0.0030 0.0032

0.9512

0.9568

0.9546

0.9051

0.7103

0.3230

0.5881

0.2175

0.0106

0.9582

0.9550

0.9393

0.6854

0.4889

0.2068

0.2834

0.0969

0.0040

0.9647

0.9557

0.9432

0.7215

0.5187

0.2216

0.3135

0.1083

0.0045

0.9602

0.9559

0.9413

0.7026

0.5022

0.2144

0.2985

0.1024

0.0042

4. E N GUISE

DE CONCLUSION

Les résultats empiriques présentés ci-dessus montrent que le risque de seconde espèce est élevé pour tous les tests d’hypothèse étudiés dans ce travail si l’indice de dispersion de Fisher théorique est voisin de 1. Ces résultats suggèrent également que les performances des tests étudiés dépendent de l’hypothèse alternative considérée, tant du point de vue de l’erreur de première espèce que l’erreur de seconde espèce. Le test du Chi − Deux de Pearson ainsi que les tests construits à partir d’une transformation de Box-Cox de l’indice de dispersion de Fisher avec des puissances voisines de zéros ont des performances intermédiaires quelque soit la taille de l’échantillon et l’hypothèse alternative si l’indice de dispersion de Fisher n’est pas voisin de 1. Remerciements. Les auteurs expriment leurs sincères remerciements à leur collègue Eliette Albert, pour les remarques pertinentes dont elle a bien voulu leurs faire part au cours de l’élaboration de ce travail et qui ont contribué à l’enrichir.

TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES

19

R ÉFÉRENCES [1] Böhning D. : A note on a test for Poisson overdispersion. Biometrika, vol. 81 (2), pp.418 − 419.(1994) [2] Brown L. D. & Zhao L. H. : A test for the Poisson distribution. Sankhya, A, vol. 64 (3), pp.611 − 625.(2002) [3] Johnson N.L. et al. : Univariate discrete distributions. John Wiley, New-York.(1992) [4] Smyth G.K. & Podlich H. : Score tests for Poisson variation against general alternatives. Computing science and statistics, vol. 32, pp. 97 − 103.(2000) [5] Tassi Ph. : Méthodes statistiques. Economica, Paris.(1989) [6] Tiago de Oliveira J. : Some elementary tests of mixture of discrete distributions. Classical and contagion discrete distribution, ed. Patil G.P., pp.379 − 384.(1965) (∗)

L ABORATOIRE DE M ATHÉMATIQUES A PPLIQUÉES (LMA), UMR CNRS 5142. U NIVERSITÉ DE , AVENUE DE L’U NIVERSITÉ , B.P. 576, 64012 PAU CEDEX (F RANCE )

PAU ET DES PAYS

DE L’A DOUR (∗∗)

FACULTÉ DES S CIENCES , U NIVERSITÉ M ARIEN N GOUABI , B RAZZAVILLE , (R ÉPUBLIQUE DU C ONGO ) Courriel : [email protected]

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF