Le Modèle Statistique

January 12, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Le Modèle Statistique...

Description

Le Modèle Statistique Mark Asch Septembre 2010 Module TADE - EDSS, UPJV 2010-11

Résumé Le modèle statistique est une structure formelle qui est la base de toute analyse statistique de données. Un modèle statistique est composé de données, hypothèses et vérifications.

1

Les données

1.1

La collection de données – un échantillon représentatif – connaissance des caractéristiques – confiance dans l’identification – taille suffisamment grande – méthodes de sélection d’échantillon – systématique – random – stratifiée

1.2 – – – – –

2

variable de réponse : la variable sous étude variable supplémentaire/explicative : afin de mieux comprendre la variation dans la variable observée facteur : variable supplémentaire qui est catégorique variables d’échelle : discrètes ou continues variables catégoriques : ordonnées (bon, moyen, mauvais) ou nominales (mâle, femelle)

L’expérimentateur

2.1

Les composants d’un modèle – – – –

2.2

Types de données

les buts de l’investigation : hypothèses la méthode de sélection de l’échantillon : lois la méthode d’allocation de traitements : facteurs le plan d’expérience utilisé

Hypothèses statistiques – exemple de sondage : 3 questions possibles - (i) le parti a-t-il maintenu son niveau de soutien gagné lors des élections précédantes ? (ii) le soutien est-il en hausse depuis les dernières élections ? (iii) quel est le niveau actuel de soutien pour le parti ? 1

3

COMPARAISON : MODÈLE - DONNÉES

2

1. valeur de p ? tester l’hypothèse que p = 15. 2. p > 15 ? 3. pas de valeur hypothétique de p – c’est un problème d’estimation – stratégie unifiée : tout modèle statistique comprendra une seule valeur de p

2.3

Hypothèses sur les lois – il y a variation inexpliquée dans tout ensemble d’observations – il faut caractériser cette variation par une loi (souvent Gaussienne...)

2.4

Structure du plan – la variation observée peut être expliquée par des facteurs identifiés et non identifiés

3

Comparaison : modèle - données – approches statistiques pour la comparaison d’un modèle statistique avec les données d’une expérience – utilisation des statistiques de déduction (inférence)

3.1

Signification – exemple de niveau de glucose de coureurs avant et après la course sujet 1 2 3 4 5 6 7 8 9 10 11

avant 67 46 67 66 70 60 72 76 72 53 66

après 100 73 89 95 76 108 77 88 104 108 84

différence 33 27 22 29 6 48 5 12 32 55 18

TABLE 1 – Niveaux de glucose avant et après une course – revendication : le niveau a augmenté – clairement, les données soutiennent la revendication avec 11 hausses et 0 baisses - est-ce que c’est suffisant ? aurait-t-il pu se produire au hasard ? (comme 11 lancers d’une pièce qui donnent tous pile) – si 11 hausses suffisent pour rejeter la revendication que les hausses et baisses sont également probable, qu’en est-il pour 9 hausses, 8 hausses, etc. ? – lorsque le surplus de nombre de hausses diminue, il est de plus en plus possible que la différence est due au hasard plutôt qu’un processus physiologique – l’approche de signification rend cette décision objective en faisant – un classement d’issues possibles afin de donner une acceptation décroissante que le hasard fournit l’explication – un point dans le classement, au delà duquel la chance est rejetée comme explication acceptable

3

COMPARAISON : MODÈLE - DONNÉES

3.2

3

Approche Bayesienne – basé sur le classement de différents modèles – les données sont considérées comme le composant fixe, et les modèles possibles sont comparés afin d’évaluer quel modèle est le plus adapté aux données

3.3

Approche de vraisemblance

– approche de signification n’a pas de mécanisme formelle pour utiliser de l’information concernant des hypothèses alternatives possibles – on cherche un classement d’issues possibles qui donne du soutien décroissant pour l’hypothèse relatif à l’hypothèse alternative - ceci devrait donner plus de chance de déceler que l’alternative est juste – une statistique, le rapport de vraisemblance, est utilisée afin de classer les issues possibles qu’ont des valeurs de plus en plus grandes lorsqu’elles deviennent plus vraisemblable sous l’alternative par rapport à l’hypothèse nulle

3.4

Mesurer l’accord entre modèle et données – étapes finales dans l’application de la statistique inférentielle sont – la mesure de la proximité du modèle et données – la traduction de cette mesure en quelque chose de sensé pour les investigateurs

3.5

Exemple de Poissons - marquage écologique – écologistes veulent connaître la taille d’une population dans une région donnée – méthode d’estimation est la capture-recapture : on pêche de la région, tous les poissons de l’espèce sont marqués et retournés à l’eau, on repêche, on note le nombre de poissons marqués et non marqués – par exemple : soit f1 = 1200 (tous marqués et retournés à l’eau), f2 = 1000 dont m = 40 sont marqués – Trois questions : – Quel est le nombre de poissons dans le lac ? – Est-ce que 40 000 est une estimation raisonnable du nombre de poissons dans le lac ? – Quelles sont de limites supérieures et inférieures raisonnables de la taille de population dans le lac ? – Formulation du modèle statistique : (les 2 premiers composants) 1. La question posée par l’investigateur : la taille N de la population. 2. Variables, méthode d’échantillonage, hypothèse de loi : la variable est catégorique “marqué” ou “non marqué” ; la nature binaire établit la structure de distribution (deux classes ayant deux fréquences π1 et π2 inconnues) ; échantillonage aléatoire est supposé (toute collection de 1000 poissons a les mêmes chances d’être choisie à la 2ème pêche) - en pratique, les gros poissons sont plus faciles à pêcher que les petits...

– Données : l’échantillon qui fournit les données comprend 1000 poissons et la réponse est mesurée sur chaque individu, marqué ou non marquée - donc la variable de réponse est catégorique avec 2 catégories possibles. – Statistique : le choix logique est le nombre de poissons marqués – Information dérivée : le modèle et la statistique sont un choix standard (voir Modèle de Population à Deux États) ; il faut des hypothèses sur la valeur de N ; nous pouvons faire une supposition éclairée basée sur le fait que – la proportion de poissons marqués dans f2 est p2 = 40/1000 ; et – la proportion de poissons marqués dans le lac est π1 = 1200/N – si la proportion de marqués dans l’échantillon égale la proportion de marqués dans le lac, alors p2 = π1 et N = 1200/0.04 = 30000. – supposons 3 possibilités N = 30000, N = 35000 et N = 40000 qui représente le meilleur, puis des montants de moins en moins vraisemblables ; maintenant il y a deux façons de regarder les graphes

3

COMPARAISON : MODÈLE - DONNÉES

4

0.04 0.00

0.02

p30

0.06

– considérer chaque graphe séparément, et baser la conclusion sur les probabilités de différentes issues possibles de 0 poissons marqués jusqu’à 1000 poissons marqués - c’est la stratégie de signification – comparer les probabilités d’une issue de 40 poisons marqués sous les hypothèse de différentes tailles de population - c’est la stratégie de vraisemblance

0

10

20

30

40

50

60

70

40

50

60

70

40

50

60

70

0.04 0.00

0.02

p35

0.06

x

0

10

20

30

0.04 0.00

0.02

p40

0.06

x

0

10

20

30 x

F IGURE 3.1 – Distributions de probabilité sous trois modèles.

3.5.1

Approche de Signification

– pour un modèle avec une valeur donnée de la population N, il doit avoir un classement d’issues possibles selon le consistance avec le modèle - on utilise les probabilités associées – un changement de N, change le classement (voir les 3 graphes) – à chaque position dans le classement, une valeur-p ou signification est affectée – la valeur-p est la probabilité d’être au point observé dans le classement ou d’être plus extrême ; 0 ≤ p ≤ 1. – l’interprétaion standard est : – si p ≥ 0.05 les données sont consistantes avec le modèle proposé et l’hypothèse associée est raisonnable ; – si p < 0.05 il y a des indications (preuves) contre le modèle présumé ; – si p < 0.01 il y a fortes indications (preuves) contre le modèle présumé ; – un ensemble de valeurs du paramètre qui ont une valeur-p supérieur au niveau α donne un intervalle de confiance à 100(1 − α) - on peut aussi tracer p en fonction de N et relever l’intervalle sur le graphe...

4

PROBABILITÉS ET MODÈLES STATISTIQUES

5

– questions et réponses : – Quel est le nombre le plus probable de poissons dans le lac ? La valeur N = 30000 correspond à p = 1. – Est-ce que N = 40000 est une estimation raisonnable ? Oui, parce que p = 0.06. – Quelles sont les limites sur le nombre ? L’intervalle de confiance à 95% donne 22000 ≤ N ≤ 41000. 3.5.2

Approche de Vraisemblance

– le point faible de l’approche signification est l’incapacité de fournir une statistique sur laquelle le classement de données peut être basé – l’approche de vraisemblance fournit une base objective pour la sélection de la statistique en établissant la vraisemblance sous chaque modèle est en identifiant le modèle le plus vraisemblable : maximum de vraisemblance vraisemblance sous N – le rapport de vraisemblance LR(N) = maximum de vraisemblance – en traçant la vraisemblance en fonction de N, nous obtenons les résultats suivants N 30 000 35 000 40 000 LR(N) 1.0 0.6 0.2 – c’est à dire qu’un résultat de 40 poissons marqués dans un échantillon de 1 000 est 5 fois plus probable sous un modèle qui suppose N = 30 000 que sous N = 40 000.

4

Probabilités et Modèles Statistiques

4.1

Lois d’échantillonage

Lecture conseillée : Chapitre 6 de P&S. – lois d’échantillonage : dépendent de la variation dans la population ET la variation dans l’échantillonnage – lois d’échantillonage d’une statistique Une particularité des études scientifiques dans lesquelles les processus des statistiques de déduction sont utilisées, est l’existence d’une variabilité d’échantillonage ou de hasard. Ce terme prend en compte le fait que l’échantillonnage répétitif d’une population ou d’un processus, mène à des échantillons de compositions différentes. Dans toutes les expériences scientifiques, la variabilité d’échantillonage aura tendance à camoufler les caractéristiques de la population ou du processus sous étude. Une tâche essentielle de la statistique inférentielle est alors d’établir si un écart entre le modèle et les données pourrait être expliqué comme une variabilité due à l’échantillonnage ou comme un véritable écart... Et, plus généralement, de quantifier l’incertitude que la variabilité d’échantillonage introduit. Voici les étapes à suivre pour ce faire : 1. Définir une loi de fréquence ou une loi de probabilité. 2. Définir une loi d’échantillonage et une loi d’échantillonage de l’échantillon. 3. Construire une loi d’échantillonage de la statistique qui décrit le lien entre le résultat statistique formel dans l’analyse et l’interprétation scientifique de ce résultat.

4.2

Probabilités et variables aléatoires Dans le langage de la théorie de probabilités : – une statistique est une variable aléatoire – une distribution/loi d’échantillonage est une loi de probabilité

4.2.1

Lois de probabilités jointes

Soit x1 , x2 , ..., xn un ensemble de valeurs prises par des variables aléatoires X1 , X2 , ..., Xn , alors la distribution de probabilité jointe est ΠS (x1 , x2 , ..., xn ) = Pr(X1 ≤ x1 et ... et Xn ≤ xn )

5

MODÈLES STATISTIQUES RÉPANDUS

6

et si X1 , X2 , ..., Xn sont v.a. continues, alors il existe une fonction unique πS qui vérifie Z xn

ΠS (x1 , x2 , ..., xn ) =

...

Z x1

−∞

−∞

πS (X1 , ..., Xn )dX1 ...dXn .

La loi de probabilité conditionnelle : pour deux variables aléatoires X et Y πX|Y =

5

πS (X,Y ) . πY (Y = y)

Modèles Statistiques répandus

5.1

Modèle Binomial

5.1.1

Identification

– – – – 5.1.2

expérience répétitive avec 2 issues possibles : succès-échec, oui-non, malade-sain, grand-petit issues indépendantes d’une expérience à l’autre probabilités constantes échantillonage objective Loi de probabilités

Loi très simple : p(E1 ) = π1, p(E2 ) = π2, et π1 + π2 = 1. 5.1.3

Applications

– le modèle le plus répandu... science, technologie, génétique, traitements 5.1.4

´ Réduction de données

– nombre de succès (x) et nombre d’échecs (n − x) en n essais 5.1.5

Statistiques

Deux possibilités : – nombre de succès, x, dans un nombre fixe, n, d’issues - loi Binomiale   n x πst (x) = π (1 − π)n−x , pour x = 0, 1, 2, ..., n x – nombre d’essais afin d’obtenir exactement x succès - loi Binomiale Négative   n−1 x πst (n) = π (1 − π)n−x , pour n = x, x + 1, x + 2, ... x−1

5.2

Modèle à deux-états (hypergéométrique)

5.2.1

Identification

– population de N membres partitionnée en deux sous-populations – un échantillon aléatoire est tiré 5.2.2

Loi de probabilités

Loi très simple : p(E1 ) = π1, p(E2 ) = π2, et π1 + π2 = 1.

5

MODÈLES STATISTIQUES RÉPANDUS

5.2.3

7

Applications

– estimations de π1 : dans des troupes d’animaux, forêts, le ombre d’individus atteint d’une maladie ; – processus de fabrication en série : contrôle de qualité (bon-mauvais, fonctionnel-défaillant) – estimation de la taille d’une population : voir poissons 5.2.4

´ Réduction de données

On enregistre simplement le nombre d’individus d’échantillon dans chaque groupe, x1 et x2 où x1 + x2 = n, la taille de l’échantillon. 5.2.5

Statistiques

– le nombre de membres d’échantillon du Groupe 1 (ou 2) – loi d’échantillonage de la statistique est la distribution Hypergéométrique N  N  1

πst (x1 ) =

x1

2

n−x1 N n

,

pour x1 = 0, 1, 2, ..., min(n, N1 )

où N1 et N2 sont les nombres de membres ans les deux sous-populations, N1 + N2 = N.

5.3

Modèle d’événements

5.3.1

Identification

– un processus qui génère des événements en temps ou en espace : clients arrivants, voitures passantes, typo’s, desastres naturelles – le mécanisme est supposé invariant en temps/espace et donc le taux de production est constant – les événements sont indépendants – échantillonage objective en temps/espace 5.3.2

Loi de probabilités

Deux lois possibles. 1. Loi de Poisson : pour les conditions ci-dessus π(n) =

e−µ µ n n!

pour n = 0, 1, 2, ...

où µest le nombre d’événements (espéré) par unité de temps. Cette loi définit la probabilité d’observer n issues d’un événement pendant une période de temps fixée. 2. Loi Exponentielle : La probabilité d’attendre une période t (ou traverser une distance) avant la prochaine issue est définie par  1 −t/µ si t ≥ 0 µe π(t) = 0 sinon. où µ est le délai moyen entre les événements. 5.3.3 – – – –

Applications études de tables de fréquences pour analyser l’indépendance d’événements : pannes, épidémies la distance entre événements : durées de vie approximation de la loi Binomiale pour grand n et petite π.

5

MODÈLES STATISTIQUES RÉPANDUS

5.3.4

8

´ Réduction de données

Les données sont enregistrées comme le nombre d’issues en périodes égales de temps/espace (n1 , ..., nk ) ou comme les intervalles successifs entre les événements (t1 , ...,tk ). 5.3.5

Statistiques

1. Loi Gamma : si T est le délai pour l’occurrence du n-ème événement,  1 n n−1 e−µt si t > 0 (n−1)! µ t πst (t) = 0 sinon. 2. Pour le nombre d’issues (n1 , ..., nk ), la loi varie avec les circonstances...

5.4

Modèle multinomial

5.4.1

Identification

– extension du modèle Binomial : plus de 2 catégories dans la réponse – mêmes hypothèse que la loi Binomiale 5.4.2

Loi de probabilités

Simplement, π1 , ..., πk avec π1 + ... + πk = 1. 5.4.3

Applications

Souvent utilisé pour examiner des hypothèses concernant la structure des distributions de probabilité. – table de fréquences pour l’incidence d’une maladie d’arbres en fonction de la saison : hypothèse est π1 = π2 = π3 = π4 où f1 = 32, f2 = 27, f3 = 43, f4 = 43. – les rapports entre réponses 5.4.4

´ Réduction de données

Table de fréquences (contingence). 5.4.5

Statistiques

La probabilité d’obtenir exactement f1 membres d’échantillon dans le groupe 1, etc., dans un néchantillon est i n! h f1 f π( f1 , ..., fk ) = π1 ...πk k f1 !... fk ! où ∑ π1 = 1 et ∑ fi = n.

5.5

Modèle de distribution normale

5.5.1

Identification

– la quantité sous observation peut prendre nombreuses valeurs (continue) – l’issue est le résultat de contributions de multiples facteurs sans qu’aucun ait un effet prépondérant – échantillonage aléatoire

5

MODÈLES STATISTIQUES RÉPANDUS

5.5.2

9

Loi de probabilités   1 2 f (x) = √ exp − 2 (x − µ) , 2σ 2ππσ 2 1

−∞ < x < ∞,

où µ et σ sont des propriétés du processus expérimental particulier. Propriétés importantes : – Pr(−σ < y − µ < σ ) = 0.68 – Pr(−2σ < y − µ < 2σ ) = 0.95 – Pr(−3σ < y − µ < 3σ ) = 0.997. 5.5.3

Applications

– approximation normale de la loi binomiale avec µ = nπ et σ 2 = nπ(1 − π). – approximation de la distribution de fréquences 5.5.4

Statistiques

Il existe nombreuses statistiques pour des applications basées sur un échantillon supposé provenir d’un modèle Gaussien. Nous supposons que les variables aléatoires indépendantes y1 , ..., yn (i.i.d) sont toutes N (µ, σ 2 ) et représentent des réponses de n individus choisis au hasard d’une population. 2 1. La moyenne d’échantillon √ : y¯ = (y1 + ... + yn )/n a une distribution d’échantillonage N (µ, σ /n) et donc z = (y¯ − µ)/(σ / n) est N (0, 1). √ 2. La statistique-t : t = (y¯ − µ)/(s/ n) où s est l’écart-type empirique a la distribution-t 2

3. La statistique chi-deux : χ 2 = ∑ni=1 (yi −µ) est de loi-χ 2 σ2

5.6

Modèle Logistique

5.6.1

Identification

Deux exemples de situations différentes. 1. Susceptibilité des mouches à une insecticide. La proportion de mouches mortes augmente avec la concentration de l’ingrédient actif. Quel est le rapport entre la proportion espéré (P) et le niveau d’actif (x) ? Les insectes ont des niveaux de susceptibilité (u) différents. La proposition est que les insectes ont une fourchette continue résistante-susceptible et seulement celles au dessus d’un seuil (uT ) sont tuées. De plus, lorsque la concentration x augmente, la proportion (P) ayant une susceptibilité au dessus du seuil augmente aussi. Nous avons une courbe logistique (en S) pour P(x) en fonction de x. Il est intéressant de pouvoir décrire le rapport entre ces deux afin que (a) l’on puisse déterminer la proportion (espérée) tuée par un niveau donné ; (b) le niveau minimum afin de tuer une proportion donnée : LD50 - dose mortelle qui tue 50%. 2. Loyauté à un parti politique. 5.6.2

Modèles possibles

– probit - basé sur la loi normale lorsque la relation entre P(x) et u est supposée normale – logistique... 5.6.3

Loi de probabilités

π(u) =

e(µ−α)/k k(1 + e(µ−α)/k )2

5

MODÈLES STATISTIQUES RÉPANDUS

10

où α et k sont des paramètres pour une loi donnée. Si nous supposons que µx = A + Bx alors nous trouvons une relation entre la proportion et la dose seuil P=

1 1 + e(uT −α)/k

appelée la transformation logit. L’espérance est α et si α = A + Bx, la proportion de membres de la population ayant valeurs supérieures à uT est relié à P(x) par P(X) = 5.6.4

1 1 + e(uT −(A+Bx))/k

−∞ < x < ∞

Applications

– établir la valeur X qui donnerait une valeur spécifiée de P et en particulier le LD50 (pour P = 0.5) – modèle généralisé avec plus que 2 régions et plusieurs valeurs seuil

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF