TADE : TESTS D`HYPOTHÈSES Une hypothèse statistique est une

January 16, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download TADE : TESTS D`HYPOTHÈSES Une hypothèse statistique est une...

Description

TADE : TESTS D’HYPOTHÈSES MARK ASCH

Une hypothèse statistique est une supposition concernant la distribution d’une variable aléatoire. Par exemple, on suppose que la moyenne d’une distribution est égale à 5. Un test d’hypothèse est une procédure dans laquelle un échantillon est utilisé afin de découvrir si l’on peut accepter l’hypothèse (supposer qu’elle est vraie) ou si l’on doit la rejeter (supposer qu’elle est fausse). Les tests sont très importants dans la prise de décisions. Par exemple, dans la décision de mettre un nouveau médicament sur la marché à la suite des essais cliniques, dans la décision de distribuer un lot de pièces fabriquées sur une chaîne de production (contrôle de qualité), etc. Les sources typiques des hypothèses sont : (1) Une exigence de qualité. (2) Les valeurs d’une expérience précédente. (3) Une théorie que l’on voudrais vérifier. (4) Une conjecture basée sur des observations. Nous risquons de commettre deux types d’erreurs dans un test d’hypothèse de θ = θ0 contre θ = θ1 . Erreur de Type I: L’hypothèse est vraie, mais elle est rejetée parce que θˆ > c . La probabilité d’une tel erreur est ˆ > c)θ=θ = α P (Θ 0

ou α est le niveau du test, c est la valeur critique et θˆ est une valeur observée ˆ . de la variable aléatoire Θ Erreur de type II: L’hypothèse est fausse, mais elle n’est pas rejetée parce que θˆ ≤ c . La probabilité d’une tel erreur est ˆ ≤ c)θ=θ = β . P (Θ 1

La puissance du test η = 1−β est la probabilité d’éviter une erreur de type II. Nous voulons que la puissance soit élevée pour un bon test. Cependant, la condition que α soit petit et que η soit grande est contradictoire. En réalité, nous sommes obligés à trouver un compromis entre les deux. En résumé : faire un test statistique, c’est choisir une hypothèse nulle, une statistique et une zone de rejet peu probable (p) quand l’hypothese nulle est vraie et probable quand une hypothèse alternative precisée est vraie. (1) Si la valeur calculée tombe dans la zone de rejet, on rejette l’hypothèse nulle au profit de l’alternative. Si l’hypothèse nulle est fausse, tant mieux. Si elle est vraie, on a commis une erreur de première espèce. La probabilité Date: Janvier 2012. Module TADE, EDSS, Université de Picardie Jules Verne. 1

TADE : TESTS D’HYPOTHÈSES

2

0.04

0.035

0.03

0.025

0.02

0.015

0.01 β

0.005

0 20

30

40

50 θ0

60

α

70

80

c

θ1

90

100

110

Figure 0.1. Test d’hypothèse entre H0 : θ = θ0 et H1 : θ = θ1 de se tromper est p. Si p est très faible, pas de problème. Si p n’est pas très faible et qu’on risque sa tête, il vaut mieux réfléchir encore. (2) Si la valeur calculée ne tombe pas dans la zone de rejet, on accepte l’hypothèse nulle. Si elle est vraie, tant mieux. Si elle est fausse, on a commis une erreur de seconde espèce. Si on sait calculer son risque, on prend une décision sérieuse. Si on n’a aucune idée du risque de se tromper, il vaut mieux ne rien dire. Exemple 1. Test pour la moyenne d’une distribution normale avec variance connue. Soit X ∼ N (µ, σ 2 ) avec σ 2 = 9 . Avec un échantillon de taille n = 10 , tester l’hypothèse H0 : µ = µ0 = 24 contre les trois alternatives H1 : (i) µ > µ0 , (ii) µ < µ0 , (iii) µ 6= µ0 au niveau α = 0.05 . Une estim\’{e} de la moyenne est ¯ = 1 (X1 + ... + Xn ) . X n ¯ est normale avecµ = 24 et σ 2 /n = 9 [démonstration Si l’hypothèse est vraie, X ...] Cas (i) : ¯ > c)µ=24 = α = 0.05 , P (X ¯ ≤ c)µ=24 = Φ P (X 

c − 24 √ 0.9



c − 24 √ 0.9

 = 1.645 , c = 25.56 .

 = 1 − α = 0.95

TADE : TESTS D’HYPOTHÈSES

3

Conclusion : si x ¯ ≤ 25.56 , l’hypothèse n’est pas rejetée, si x ¯ > 25.56, elle est rejetée. La puissance du test est ¯ > 25.56)µ = 1 − P (X ¯ ≤ 25.56)µ η(µ) = P (X   25.56 − µ √ = 1 − Φ(26.94 − 1.05µ) =1−Φ 0.9 Cas (ii) : ¯ ≤ c)µ=24 = Φ P (X



c − 24 √ 0.9

 = α = 0.05

c = 24 − 1.56 = 22.44 Conclusion : si x ¯ ≥ 22.44 , l’hypothèse n’est pas rejetée, si x ¯ < 22.44, elle est rejetée. La puissance du test est   −µ ¯ ≤ 22.44)µ = Φ 22.44 √ η(µ) = P (X = Φ(23.65 − 1.05µ) 0.9 Cas (iii) : Vu que la loi normale est symétrique, nous choisissons c1 = 24 − k et c2 = 24 + k , et nous calculons k a partir de     −k ¯ ≤ 24 + k)µ=24 = Φ √k −Φ √ = 1 − α = 0.95 P (24 − k ≤ X 0.9 0.9 k √ = 1.960 , k = 1.86 0.9 et donc c1 = 22.14 , c2 = 25.86 Conclusion : si c1 ≤ x ¯ ≤ c2 , l’hypothèse n’est pas rejetée. La puissance du test est ¯ < 22.14)µ + P (X ¯ > 25.86)µ η(µ) = P (X     22.14 − µ 25.86 − µ √ √ =1+Φ −Φ 0.9 0.9 = 1 + Φ(23.34 − 1.05µ) − Φ(27.26 − 1.05µ) Tests de Signification Nous comparons le modèle avec les données afin de fournir une mesure de proximité, appelée la signification, ou la valeur-p. Cette comparaison dépend de la définition d’une statistique, s, dont la distribution d’échantillonage est complètement définie par le modèle qui contient l’hypothèse nulle. Chaque ensemble de données possible est identifié avec une valeur de la statistique, de telle façon que des valeurs croissantes de la statistique impliquent un accord décroissant entre le modèle et les données. Définition. Pour une valeur observée, s0 , de la statistique s, la signification, ou la valeur-p est la probabilité que s prenne une valeur supérieure ou égale à s0 , p0 = PH0 (s ≥ s0 ).

TADE : TESTS D’HYPOTHÈSES

4

Interprétation. Les consignes usuelles sont : – si p0 > 0.05, alors les données sont présumées d’être consistantes avec le modèle proposé et l’hypothèse est considérée comme étant raisonnable ; – si 0.01 < p0 < 0.05, alors il y a des signes contre le modèle et on suppose que le défaut possible dans le modèle est du à l’hypothèse expérimental qu’elle contient ; – si p0 < 0.01,alors il existe des signes forts contre le modèle, et donc contre l’hypothèse expérimentale qu’elle contient. Tests pour des petits échantillons Ci-dessus, nous avons supposé que les échantillons étaient de taille suffisamment grande pour que l’application de l’approximation normale soit valable (n > 30 ). Pour des échantillons de taille n < 30 , appelés petits échantillons, cette approximation est mauvaise. Afin de construire des intervalles de confiance et des tests d’hypothèse pour ces échantillons, nous utilisons trois distributions importantes : la distribution t de Student, la distribution chi-deux et la distribution F . Afin de calculer la distribution d’échantillon pour la différence entre deux variances (S12 − S22 ) on utilise la statistique S12 /S22 qui suit une loi F . Définissons la statistique F par N1 S12 /(N1 − 1)σ12 Sb2 /σ 2 F = 1 1 = N2 S22 /(N2 − 1)σ22 Sb22 /σ22 alors F suit une loi F (ν1 , ν2 ) avec degrés de liberté ν1 = N1 − 1 et ν2 = N2 − 1. Nous utilisons des niveaux 5% et 1% afin de déterminer si la variance S1 est significativement plus grande que S2 .

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF