calcul du nombre de repetitions necessaires pour la comparaison

January 14, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download calcul du nombre de repetitions necessaires pour la comparaison...

Description

CALCUL DU NOMBRE DE REPETITIONS NECESSAIRES POUR LA COMPARAISON DE 2 POURCENTAGES DANS LE CAS DE DONNEES APPARIEES.

C. LOPEZ Institut de l'Elevage Service Biométrie Juillet 2002

Nombre de répétitions sur pourcentages en séries appariées

CALCUL DU NOMBRE DE REPETITIONS NECESSAIRES POUR LA COMPARAISON DE 2 POURCENTAGES DANS LE CAS DE DONNEES APPARIEES. Définition du contexte On souhaite comparer le pouvoir de détection d'un appareil E par rapport à celui d'un appareil de référence R vis-à-vis d'une caractéristique biologique B. B est considérée comme présente lorsque son dosage est supérieur à un certain seuil S et considéré comme absente sinon. Les deux appareils sont testés sur les mêmes échantillons. On veut rejeter l’appareil E lorsque son pouvoir de détection est statistiquement différent de celui de l’appareil R avec un risque de 1ère espèce α acceptable et une puissance (1-β) statistique suffisante.

Exemple d'application : comparaison d'un préleveur automatique par rapport à la méthode de prélèvement manuel sur la détection de Listeria monocytogenes dans le lait. Les notations On définit pour un appareil donné l'indicatrice Xi (i=0 si appareil R ; i=1 si appareil E): Xi = 1 si la caractéristique biologique B est supérieure au seuil S avec l'appareil n° i Xi = 0 sinon. On appelle

π(0)

la probabilité de détecter B avec l'appareil de référence R et

π(1)

la

probabilité de détecter B avec l'appareil E sur un même échantillon.

π(0) = P(X0 = 1) = P(B présent | appareil R) π(1) = P(X1 = 1) = P(B présent | appareil E) Le problème posé revient donc à calculer le nombre N d’échantillons nécessaires pour comparer la probabilité π(1) à la probabilité π(0) avec une puissance (1-β) contrôlée.

▪ Remarque 1 : Ces deux probabilités étant définies sur les mêmes échantillons elles ne sont pas indépendantes. Ce sont des probabilités sur "séries appariées". Le tableau 1 suivant donne l'expression des probabilités π(i) à partir des probabilités conjointes πij = P(X0=i et X1=j). E [X1]

R [X0]

X1 = 0

X1 = 1

X0 = 0

π00

π01

X0 = 1

π10

π11

π(0)

π(1)

1

Tableau 1 : représentation des probabilités de présence de B

C. LOPEZ - Institut de l'Elevage – Service Biométrie juillet 2002

1

Nombre de répétitions sur pourcentages en séries appariées

▪ Remarque 2 : La comparaison des probabilités π(1) et π(0) est équivalente à la comparaison des probabilités conjointes π01 et π10.

π(1) - π(0) = [(π01 + π11)] - [(π10 + π11)] = π01 - π10 Ces probabilités conjointes mesurent la discordance entre les 2 appareils.

π01 = P[(X0=0) et (X1=1)] = P[B absent avec R et B présent avec E] π10 = P[(X0=1) et (X1=0)] = P[B présent avec R et B absent avec E] La comparaison de ces 2 probabilités est alors réalisée conditionnellement aux 2 situations de discordance.

▪ Remarque 3 : Il est équivalent de comparer π01 à π10 et de comparer à ½ la probabilité P que B soit présent avec E sachant que les 2 appareils donnent des résultats discordants. Lorsque

π01 et π10 sont égales (Hypothèse nulle, H0) P=

π10 π01 1 = = 1− P = (π01 + π10 ) (π01 + π10 ) 2

L'"écart" entre les 2 probabilités

π01

l'odds ratio de McNEMAR (1947): ψa =

et

π10

est alors estimé multiplicativement par

P π 01 ψa = (ou encore P = ). Cet odds ratio 1 + ψa π 10 1 − P

est égal à 1 sous l'hypothèse nulle (P=1/2) et différent de 1 sous l'hypothèse alternative (H1) : π01 ≠

π10 (P ≠ 1/2).

Détermination du nombre d'échantillons N La détermination se déroule en 2 étapes.

1- Détermination du nombre d'échantillons discordants m Si Pˆ désigne l'estimateur de la probabilité P et m le nombre d'échantillons sur lesquels il y discordance entre E et R on peut montrer les relations suivantes :

1 Pˆ − 2 suit asymptotiquement une loi Normale centrée réduite sous H0. 1 4m 1 Pˆ − 1  2 suit asymptotiquement une loi Normale de moyenne  P −  et de 2 P * (1 − P )  m variance unité sous H1.

C. LOPEZ - Institut de l'Elevage – Service Biométrie juillet 2002

2

Nombre de répétitions sur pourcentages en séries appariées

1 ˆ 1  P −  a alors une probabilité α d'être supérieur en valeur absolue à Z(1 − α 2 ) * 2 4m  sous H0 où Z(1 − α 2 ) est le fractile (1-α/2) de la loi Normale centrée réduite.  

De même  Pˆ −

1 1 P * (1 − P )  où  a une probabilité β d'être inférieur à  P −  − Z(1 − β ) * 2 m 2 

Z(1 − β) est le fractile (1-β) de la loi Normale centrée réduite. On peut montrer que ces deux inégalités sont vérifiées avec m échantillons et des risques α et β fixés lorsque P vérifie l'égalité suivante:

P−

1 1 P * (1 − P ) = Z(1 − α 2 ) + Z(1− β ) 2 4m m

[1]

On en déduit la valeur de m correspondante:

1  m =  Z(1−α 2 ) * + Z(1− β ) * 2 

  2     1  P * (1 − P )  *   P − 1      2   

2

[2]

▪ Remarque 4 : Contrairement à ce que suggère l’expression [2] il n’est pas nécessaire de connaître les probabilités de discordance relation liant P et ψa de la remarque 3.

π01

et

π10

pour estimer m en raison de la

2- Détermination du nombre total d'échantillons N Une fois estimé le nombre d'échantillons discordants m le nombre total d'échantillons nécessaires N est obtenu à l'aide de l'expression suivante:

m = N * θ [3] où θ est la probabilité d'avoir des résultats discordants sur un échantillon.

θ = P[B présent avec R et absent avec E ou B absent avec R et présent avec E] soit θ =

π01+π10

On ne peut pas calculer cette probabilité car les probabilités de discordance ne sont pas connues.

▪ Remarque 5 : Cette probabilité peut être exprimée à partir des probabilité de détection

π(1) et π(0). θ = P[B présent avec R]*P[B absent avec E | B présent avec R] + P[B absent avec R]*P[B présent avec E | B absent avec R] [4]

C. LOPEZ - Institut de l'Elevage – Service Biométrie juillet 2002

3

Nombre de répétitions sur pourcentages en séries appariées

et des probabilités conditionnelles : P[B absent avec E | B présent avec R] = PFN = P[B présent avec E | B absent avec R] = PFP =

π10 , pourcentage de faux négatifs π( 0 )

π01 , pourcentage de faux positifs. (1 − π( 0) )

J.J SCHLESSELMAN (1982) propose de prendre une approximation de

θ en négligeant

l'appariement sur les échantillons. On obtient alors.

θ ≈ π(0)*(1-π(1)) + (1-π(0))* π(1) [5] La probabilité de détection avec la méthode de référence R, π(0), est considérée comme une donnée connue, à tout le moins estimée avec une précision raisonnable. La probabilité de détection avec la méthode E, π(1), est alors obtenue en fonction de et du odds ratio ψm de ces deux probabilités marginales par la relation suivante:

π(1) = ψm *

π( 0 ) 1 + π( 0 ) * (ψm − 1)

avec ψm =

π(1) (1 − π(1)) π( 0 ) (1 − π( 0 ))

π(0)

[6]

Démonstration: L'odds ratio ψ s'écrit en fonction des probabilités de détection.

π ( 1) π ( 0) = ψm * (1 − π (1)) (1 − π ( 0 )) où encore

π (1) * (1 − π ( 0 ) ) = ψm * π ( 0 ) * (1 − π (1) )

Soit

π (1) * (1 − π ( 0 ) + ψm * π ( 0 ) ) = ψm * π ( 0 )

On en déduit l'expression [6].

Cette façon de faire ne semble pas devoir être conseillée. L'hypothèse d'indépendance associée à l'approximation [6] implique en effet des probabilités de discordances incompatibles avec l'odds ratio ψa fixé à l’étape 1 pour déterminer m. Le nombre total d'échantillons N ne peut être estimé sans faire des hypothèses préalables sur les taux d'erreur de diagnostic comme va le montrer l'exemple suivant.

Un exemple … à ne pas suivre … Supposons que nous voulions détecter des écarts de 3 points (3%) entre les prévalences

π(1)

et π(0) avec une probabilité estimée pour la méthode de référence de π(0) = 0,11. Raisonnons aux risques α =0,05 et β = 0,10. On se fixe comme hypothèse de détecter un odds ratio ψa =1/4, c'est-à-dire un nombre de faux positifs 4 fois plus faible que le nombre de faux négatifs. La probabilité P est alors égale à P =

1/ 4 1 et = 1 + (1 / 4) 5

l'expression [2] donne un nombre d'échantillons discordants égal à m=25.

C. LOPEZ - Institut de l'Elevage – Service Biométrie juillet 2002

4

Nombre de répétitions sur pourcentages en séries appariées

La probabilité de résultats discordants sous l'hypothèse d'indépendance (expression [5]) fournit une valeur θ = 0,11*(1-0,08) + (1-0,11)*0,08 = 0,172 et au final un nombre d'échantillons total nécessaires de N= 25/0,172= 145. En fait cette estimation ne peut être retenue. L'hypothèse d'indépendance n'est pas tenable ici. Elle correspondrait à des probabilités de résultats discordants

π01 = 0,0712

(π(1)*(1-π(0) = 0,08*(1-0,11)) et π10 = 0,1012 ((1-π(1))*π(0)) = (1-0,08)*0,11). L'odds ratio ψa des erreurs de diagnostic serait alors de 0,70 (0,0712/0,1012) différent de celui posé initialement (1/4). Il faut fixer un paramètre supplémentaire. La solution consiste alors à se fixer l'odds ratio ψa et une des deux probabilités de discordance π01 ou π10, ou bien à se fixer des pourcentages minimum tolérables de faux positifs et de faux négatifs.

Où l’on reprend l’exemple précédent … traité correctement Examinons 2 applications pratiques. Situation n°1:

π(0) estimée pour la méthode de référence de π(0) = 0,11 et on veut détecter un écart de 3 points avec π(1).

Raisonnons toujours à partir de l'exemple précédent. La prévalence

On a trouvé qu'il fallait un nombre de résultats discordants de m = 25. On s'intéresse aux probabilités de résultats discordants suivantes :

π01 = 0,01 et π10 = 0,04

(P = 1/5 et ψa = 0,25)

On tolère par conséquent au maximum 5% de mal classés, 1,1% de "faux positifs" (0,01/(1(0,11)) et 36,4% de "faux négatifs" (0,04/0,11). La probabilité d'avoir un résultat discordant est alors :

θ = 0,11*0,364 + (1-0,11)*0,011 = 0,050 et le nombre total d'échantillon nécessaire est égal à N = 25/0,050 soit environ 500 échantillons. On constate que le nombre nécessaire est beaucoup plus élevé que lorsque l'on néglige l'appariement. Situation n°2: On tolère maintenant les probabilités de résultats discordants suivantes :

π01 = 0,03 et π10 = 0,06

(P = 1/3 et ψa = 0,50)

Soit 9% de mal classés, 3,4% de "faux positifs" et 54,5% de "faux négatifs". L'expression [2] donne un nombre de résultats discordants de m = 90. La probabilité d'avoir un résultat discordant est alors :

θ = 0,11*0,545 + (1-0,11)*0,034 = 0,090 et le nombre total d'échantillon nécessaire est égal à N = 90/0,090 soit environ 1000.

▪ Remarque 6 : Dans la 1ère situation le déséquilibre entre les 2 types de résultats discordants est plus marqué. L'appareil E est moins bon que la référence R car il détecte 4 fois moins la substance B sur l'ensemble des résultats discordants (ψa=1/4) C. LOPEZ - Institut de l'Elevage – Service Biométrie juillet 2002

5

Nombre de répétitions sur pourcentages en séries appariées

alors que dans la 2ème situation il ne détecte B que dans 2 fois moins de cas que la

référence (ψa=1/2). On a donc besoin de moins de répétitions en situation n°1 pour conclure à une différence significative entre les probabilités comparer les prévalences

π01 et π10 (et au final pour

π(1) et π(0)).

On peut souligner la très grande sensibilité du nombre de répétitions au degré de discordance. Pour un écart (π01 - π10 ) de 3% dans notre exemple, le nombre de répétitions discordantes m passe de 25 à 90 (soit un facteur multiplicatif de 3,6)

lorsque les probabilités π01 et π10 augmentent de 2% (π01 = 0,01 à 0,03 et π10 = 0,04 à 0,06). Au nombre de répétitions que l'on décidera de retenir correspondront alors des probabilités de discordance, escomptée.

π01 - π10, au delà desquelles le test n'aura plus la puissance

Ainsi dans la situation n°1, en se fixant un nombre d'échantillons de 500 on est assuré de pouvoir détecter dans au moins 90% des cas un écart de 3% à partir d'un niveau de prévalence π(0) de 11% tant que les pourcentages de résultats discordants ne sont pas supérieurs à 1% et 4%, soit un pourcentage de mal classé de 5% au maximum. On remarquera que dans les 2 situations de notre exemple les pourcentages de faux négatifs sont très élevés. C'est dû à la faible prévalence du phénomène mesuré (11% avec la référence). Chaque résultat classé par erreur " B absent" avec l'appareil E induit un accroissement du pourcentage de faux négatifs de 1/11 = 9,1%.

A titre indicatif il faut N = 1172 échantillons par groupe pour détecter le même écart sur les probabilités π(1) et π(0) aux mêmes risques α et β dans le cas de mesures sur deux groupes d'échantillons indépendants (séries non appariées).

Conclusion Le calcul du nombre N d'échantillons de lait nécessaires pour mettre en évidence une différence entre les prévalences

π(1) et π(0) dépend des risques α et β, de la probabilité

dans le groupe de référence π(0) et de l'"écart" entre ces 2 probabilités exprimé par le odds ratio ψm comme dans la situation classique de séries indépendantes. Il faut toutefois, dans le cas des séries appariées, se fixer des paramètres supplémentaires, les probabilités de discordances conditionnelles π01 et

π10.

Plutôt que ces probabilités dont on a difficilement une idée a priori, des seuils d'erreurs de diagnostic, les pourcentages de faux positifs (PFP) et de faux négatifs (PFN) peuvent

π(0),

être définis. On peut alors, à partir de ces pourcentages et de la prévalence, associée à l'appareil de référence estimer

π01 = PFP*(1-π(0)) et π10 = PFN*π(0)

π01 et π10 et en déduire l'odds ratio ψa. d'où l'on déduit : ψa =

PFP (1 − π( 0 ) ) * . PFN π( 0 )

On en déduit alors le nombre de répétitions donnant des résultats discordants m et le nombre total d'échantillons N.

C. LOPEZ - Institut de l'Elevage – Service Biométrie juillet 2002

6

Nombre de répétitions sur pourcentages en séries appariées

Référence: McNEMAR Q. (1947). Note on sampling error of the differences between correlated

proportions or percentages. Psychometrika 12: 153-157.

SCHLESSELMAN J.J. (1982). Case-control studies – Design, conduct, analysis. New-York

Oxford. OXFORD UNIVERSITY PRESS. P. 160-162.

C. LOPEZ - Institut de l'Elevage – Service Biométrie juillet 2002

7

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF