Fiches de Biostatistique (UE4) - Tutorat Associatif Marseillais

January 13, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités

Short Description

Download Fiches de Biostatistique (UE4) - Tutorat Associatif Marseillais...

Description

Fiches de Biostatistique (UE4)

Chapitre 1 Les études en statistiques portent généralement sur des échantillons qui représentent une population cible. │Le nombre d’éléments constituant l’échantillon est appelé l’effectif ou taille de l’échantillon. échantillon

interférence ou généralisation

population

Les résultats d’une étude statistique sur un échantillon ne sont pas ceux de la population, mais d’une population virtuelle car ils sont exposés aux interférences et aux généralisations. On considère que notre étude porte sur un bon échantillon lorsque l'échantillon est « sans biais » (biais ≈ erreur) et qu'il constitue une image réduite de l'ensemble de la population. Moins l’échantillon est biaisé, plus la population virtuelle (=généralisation de l’échantillon) représente la population cible. Si l’on sélectionne l’effectif par un « tirage au sort », on estime que l’échantillon et les résultats de notre étude sont représentatifs.

Chapitre 2

│Le contour polygonal joignant les milieux des bases supérieurs des rectangles s’appelle le polygone des fréquences. ex : on part d’un histogramme qui lorsque les classes et l’effectif tend vers l’infini devient une courbe de fréquence

1

Les paramètres de position ou de tendance :

∑ xi n

-moyenne│Valeur centrale la plus utilisée est la moyenne arithmétique des mesures : x = -médiane│Valeur qui laisse de part et d’autre un nombre égal d’observations -mode │Valeur de la variable dont la fréquence est maximale -quantiles│Divisent l’échantillon ordonné en groupes d’effectifs égaux

ordinales

quantitatives

│Tous les paramètres de tendance ont l’unité de la variable xi Dans un exercice, il faut ordonner les mesures, c’est utile pour la médiane, les quantiles et les intervalles inter quantiles. Paramètre de dispersion : -variance (unité xi2) Var(X) =

∑ (x i− ̄x )²

n -écart-type (unité de xi) σx = √ Var ( X ) -étendue (unité xi) │Différence entre la plus grande et la plus petite valeur de la série -intervalle inter-quartile (unité xi) │50% des observations centrées sur la médiane égale à Q3-Q1, représente la dispersion des données

quantitatives ordinales

nb : la variance et l’écart type calculés ne sont pas ceux de la population, ni l’estimation de la variance de la pop mais bien d’un échantillon représentant plus ou moins bien la population. Si une variable aléatoire est dépendante d’une autre : yi = axi + b : Var(Y) = a² Var(X) Ecart type(Y) = |a| = |a| Ecart type(X) ex : Je lance un dé, les valeurs de la variable aléatoire X sont : {1, 2, 3, 4, 5, 6} Le gain de ce jeu est représenté par la variable aléatoire Y = 2X – 3 Paramètres de dispersion pour quantitative à 2 dimensions : La covariance : Covar(X,Y) = ∑ (x i− ̄x )( y i −̄y) n Le point G est la moyenne des 2 séries d’observations ( trouver votre point G par les maths!) Covar (X ,Y ) Le coefficient de corrélation : r = √ Var ( X ) .Var (Y ) r reflète la dispersion d'un couple sur la dispersion de chaque série, il n’a pas de dimension et est compris entre [-1 ;1].

2

Chapitre 3 Un ensemble fondamentale (Ω) représente toutes les issus possibles d'une expérience (=épreuve). │2 événements disjoints sont incompatibles et ne sont jamais indépendant (si l’un se produit, alors nécessairement l'autre ne peut pas se produire) : E1 ∩ E2 = ∅ alors P(E1 ∪ E2) = P(E1) + P(E2) Probabilité complémentaire : P(E) = 1 – P(nonE) Probabilité d’additivité : P(A∪B) = P(A) + P(B) – P(A∩B) │La probabilité conditionnelle de A par rapport à B ( la probabilité que l’événement A se produit sachant que B est réalisé avec P(B)>0) est définie par : P(A/B) = P(A∩B) / P(B) Ex : la probabilité que j'ai un enfant en faisant l'amour en sachant que j'ai mis une capote. Probabilité composé:si P(A/B) = P(A∩B) / P(B) alors P(A∩B) = P(A/B) . P(B) = P(B/A) . P(A) Il est important d'avoir cette relation en tête, si on nous demande la probabilité de décéder sachant qu'on est fumeur et que les infos proposées sont : P(fumeur/décès), P(décès) et P(fumeur) → P(décès/fumeur) = [P(fumeur/décès).P(décès)] / P(fumeur) │A et B sont indépendant si et seulement si : P(A∩B) = P(A) . P(B) │Probabilité totale : P(B) = P(B∩A1) + P(B∩A2) … P(B∩Ak) Dans cet exemple B comprend seulement une partie de A1, de A2, de A3 et A4 ; P(B) = P(B∩A1) + P(B∩A2) + P(B∩A3) + P(B∩A4) Si A3 était complétement compris dans B, on peut remplacer P(B∩A3) par P(A3) P (B/ Ai ). P ( Ai ) P( B/ A1). P( A1)+ …+ P ( B / Ak ). P (A k ) Le théorème de Bayes est une formule en intégrant plusieurs autres : -1er étape, l'énoncé nous demande une probabilité conditionnelle :P(A/B) = P(A∩B) / P(B) -2ème étape, si l'on a pas P(A∩B), on utilise les prob composés : P(A/B) = P(B/A) . P(A) / P(B) -3ème étape, si l'on a pas P(B), on utilise les prob totales :P(B) = P(B∩A ) + … + P(B∩Z) → P(A/B) = [P(B/A).P(A)] / [P(B∩A) + … + P(B∩Z)] -4ème étape, si l'on a aucune probabilité en intersection, on utilise les prob composés P(A∩B) = P(B/A) . P(A) P( B/ A). P ( A) → P( B/ A). P ( A)+ …+ P (B/ Z ). P ( Z ) │Le théorème de Bayes est : P(Ai / B) =

3

Chapitre 4 Variable aléatoire discrète : │Espérance mathématique d’une v.a discrète E(X)=μ=Σ xi pi nb : E(X) est une moyenne théorique puisqu’associer à des probabilités │La variance de X, noté σ², est : σ²= (x1-μ)² p1 + (x2-μ)² p2+…+(xk -μ)² pk │L’écart type de X est égal à la racine carrée de la variance de X, soit σ. C’est une quantité positive. Remarque : E(X), σ(x) et σ²(x) sont des constantes Pour Y = a X + b (a et b des constantes) : -E(Y) = a.E(X) + b -Var(Y) = a².Var(X)= a².σ² -écart-type de Y = |a|.σ Variable aléatoire continue : │La probabilité pour qu'une réalisation au hasard de la v.a soit comprise entre deux valeurs x1 et x2 correspond à la surface comprise entre la courbe de densité et l’axe des X limité par les 2 verticales passant par x1 et x2 Espérance mathématique E(X) = ∫-∞+∞ x . f(x) dx Variance : Var(X) = σ²

← moyenne théorique

Sauf que pour une variable aléatoire continue, c’est la surface délimité par l’intervalle et la courbe qui représente la probabilité donc : -P(X=xi)=0 -∫-∞+∞ f(x)dx = 1 nb : on parle de densité de probabilité positive ou nul P(6) = 0 ∫23 de la fonction représentant la variable aléatoire continue et on obtient la probabilité qu'un événement arrive entre 2 et 3 nb :en pratique cet exemple ne sert à rien pour le concour, mais c'est pour que vous comprenez ! Variables aléatoires conjointes : = association de deux v.a. ex : le taux de cholestérol et le poids d’une même personne Si X1 et X2 sont conjoints on peut écrire E(X1+X2) = E(X1) + E(X2) Si X1 et X2 sont indépendants, alors : Var(X1 + X2) = Var(X1) + Var(X2) Var(X1-X2) = Var(X1) + (-1)²Var(X2) = Var(X1) + Var(X2) E(X1.X2) = E(X1).E(X2) │X et Y sont indépendantes ssi : rij = P(X=xi et Y=yj) = P(X=xi).(P(Y=yj) Il suffit de faire le calcul pour une seule valeur pour voir s’ils sont indépendants.

Si deux variables ne sont pas indépendantes, alors on parle de distribution conditionnelle, la distribution de Y P( X = xi ∩Y = yi ) lorsque X=xi est : rij = P ( X =x i ) 4

│Covariance de X et Y : Covar(X,Y) = Σ(xi-μx).(yi-μy).rij │Coefficient de corrélation : ρxy = Covar(X,Y) / (σx.σy) -1 ≤ ρxy ≤ 1 sans dimension, si X et Y sont indépendant alors ρxy = 0 ( si ρxy = 0, X et Y ne sont pas forcément indépendant) et si Y=aX+b, alors ρxy = ±1 (en fonction du signe de a) Loi normale : -f(x) est totalement déterminée par sa moyenne et son écart-type -la fonction de densité est : continue, symétrique par rapport à la moyenne μ, passe par un maximum pour x= μ, a une médiane égale à μ │Si X est N(μ, σ) alors Y=aX+b (a et b sont des constantes) est N(aμ+b, |a|.σ). Cette propriété permet d’établir un cas particulièrement utile par la suite en définissant une nouvelle v.a Z telle que Z=(X-μ)/σ. Dans ce cas la loi de distribution de Z est N(0,1), appelé loi Normale centrée réduite (la distribution est centrée sur 0 avec un écart-type égal à 1). La loi normale est un outil pratique car elle représente l’allure de beaucoup de caractère à l’échelle de la population (si l’on trace la courbe du QI, de la taille, du poids… de la population, elle aura l’allure de la courbe de la loi normale). Le but est donner un intervalle de confiance pour une moyenne ou une proportion de la population en s’appuyant sur la moyenne de l’échantillon et un risque d’erreur. Si α1 > α2 alors Nα1 < Nα2 Si la loi normale est centrée réduite : N(0,1) α est le risque que la moyenne de la population soit en dehors de l’intervalle trouvé pour la moyenne du test, il correspond à une valeur Nα inscrite dans la table de la loi normale (p151 de votre poly) 1-α est la probabilité que la moyenne de la population appartienne à [-Nα ;+Nα] Si la loi normale est non centrée réduite : ex : N(μ,σ)

donc avec μ≠0 et σ≠1

Dans ce cas, il faut prendre en compte μ et σ en plus de α et Nα dans le calcul des bornes

Loi de Student : │La loi de Student dépend d’un seul paramètre : son nombre de degré de liberté (ddl) (=nombre de données indépendantes) │Elle est symétrique par rapport à 0, passe par un maximum pour 0, d’autant plus aplatie que ν (nombre de ddl) est petit et tend vers la loi normal N(0,1) lorsque ν tend vers l’infini. 5

Il n’y a pas une distribution de Student mais une famille de distribution (car il y a ≠ ν), si ν≥30 alors on considère que ν tend vers l’infini et on utilisera la loi normale. Student s’applique et s’interprète comme la loi normale sauf qu’il faut juste prend en compte ν dans la table de Student. Loi du Chi-deux Elle dépend des ddl, est asymétrique quand ν est petit, les résultats sont toujours positif (la première donnée est toujours après le 0) et on parle d’une famille de distribution. On utilise le même principe que la loi de Student sauf que la loi du Chi-deux est asymétrique, donc on ne donne qu’une borne (χ²α,ν en positif) et tout le risque α est après cette borne.

Chapitre 5 │La sensibilité d’un test correspond à la proportion des T+ (déclaré malade par le test) chez tous les malades Se = P(T+/M) │La spécificité d’un test correspond à la proportion des T- (déclaré non malade) chez tous les non malades Sp = P(T-/nonM) P(VP) = Se.p

P(FN) = (1-Se).p

P(FP) = (1-Sp).(1-p)

P(VN) = Sp.(1-p)

Le taux d’erreur d’un test correspond à l’union des FP et FN : P(erreur) = (1-Se).p + (1-Sp).(1-p) = P(FP) + P(FN) Donc le taux d’erreur dépend de la prévalence du caractère testé, de la sensibilité et de la spécificité du test. Parfois, on vous demandera de déterminer si un test 1 est préférable à un test 2, on cherche le plus bas taux d’erreur entre 1 et 2 : P(erreur A) = (1-SeA).p + (1-SpA).(1-p) et comparer à P(erreur B) = (1-SeB).p + (1-SpB).(1-p) │La valeur prédictive positive correspond à la proportion des M étant T+, VPP = P(M/T+) = VP / (VP+FP) │La valeur prédictive négative correspond à la proportion des nonM étant T-, VPN = P(nonM/T-) = VN / ( VN + FN) P(M) est la probabilité (=prévalence) « à priori » des malades dans une population, P(M/T+) est la probabilité « à postériori » des malades parmi les positifs. C'est à dire la probabilité avant et après qu'on ait un réalisé le test. Rmq : si Se = 1 alors FN=0 et VPN =1, si Se ↗ alors FN ↘ et VP, VPN ↗ si Sp = 1 alors FP=0 et VPP = 1, si Sp ↗ alors FP↘ et VN, VPP ↗ Les arbres de décisions : -un nœud de décision est carré (dépend d’un décideur) -un nœud d’éventualité est rond (indépendant du décideur) Pour déterminer le score d’utilité, on multiplie la probabilité d’une branche avec l’utilité de l’issu (=déterminer arbitrairement), on l’additionne à l’utilité de l’autre issu et on obtient l’utilité totale au niveau du nœud dont les issues dépendent. 6

Chapitre 6 │U est un estimateur sans biais de θ (paramètre quelconque de la population) si E(U) = θ │U est un estimateur biaisé de θ si E(U) ≠ θ ; le biais vaut : E(U) – θ │Un bon estimateur doit avoir une faible variance. (plus la variance est faible meilleur est l’estimateur) │On dira d’un estimateur qu’il est convergent (=efficace) lorsqu’il est sans biais et que sa variance tend vers 0 quand l’effectif de l’échantillon observé tend vers l’infini. Nb : Dans les chapitres précédents, le prof fait un raccourci en disant que Var(X) = σ². Or Var(X) est la variance de l’échantillon et σ² est la variance de la population. L’explication qui suit sert seulement à la compréhension, car son application est simple, il suffit d’appliquer les formules à ce que l’énoncé nous demande : -La loi de distribution d’échantillonnage de la moyenne a pour but d’étudier différents échantillons pour mieux refléter la population. -On peut calculer la moyenne des moyennes des échantillons (=estimateur sans biais) qui nous donne la moyenne de la population. E(X)=μ -On peut aussi calculer la variance des moyennes des échantillons qui nous donne la variance de la population sur l’effectif d’un échantillon (tous les échantillons ont le même effectif) Var(X) = σ²/n, l’écart-type des moyennes des échantillons σm= σ /√n Mais dans la plupart des cas, on ne dispose que d’un échantillon, on peut néanmoins utiliser les propriétés de la loi de distribution d’échantillonnage de la moyenne par généralisation. Estimation de la moyenne d’une population : La moyenne de la variable aléatoire X( x) est une estimation de la moyenne de la population (μ) Estimation de la variance d’une population : ∑ (x i− ̄x )² = n.Var ( X ) Sx²= n−1 n−1 Estimation de la variance de mon (Sm²) échantillon : Sm² = Sx² / n = Var(X) / (n-1) (ou l’estimation de la variance de la v.a X → loi de distribution d’échantillonnage, mais en qcm on travaille sur un échantillon) (σm= σ / √n selon la loi de distribution sauf que là, on manipule des estimations) Nb : Il faut faire attention si la question porte sur l’échantillon ou sur la population et penser à faire la racine si on nous demande l’écart type. Estimation d’une proportion (f = k/n): │E(F)=p (F est sans biais donc c’est un bon estimateur de la fréquence de la population) Estimation de la variance d’une proportion: p.(1− p) . F est un estimateur convergent de p │Var(F) = n p.(1− p) f.(1− f ) │On estime la variance par n n 7

Estimation par intervalle : │L’intervalle de confiance de θ est de la forme : - erreur d’échantillonnage ; + erreur d’échantillonnage nb : θ est le paramètre à l’échelle de la population et obtenu sur l’échantillon.

est l’estimation de θ

│On accepte qu’il y ait α.100 chances sur cent de se tromper en disant que θ appartient à l’intervalle │On accepte qu’il y ait (1-α). 100 chances sur cent de ne pas se tromper en disant que θ appartient à l’intervalle. │L’intervalle de confiance est toutes choses égales par ailleurs il est d’autant plus large que α est petit et d’autant plus étroit que n est grand. Intervalle de confiance d’une moyenne : On utilise l’estimation de l’écart type de mon échantillon et non l’écart type de la population (comme c’était le cas dans le chapitre 4). Sm= Sx / √n Généralement dans l’énoncé on nous donne l’estimation de l’écart type de la population, il faut penser à faire le calcul ! Si la v.a suit une loi normale (précisé dans l’énoncé) -n ≥ 30, on utilise la loi normale : │ x ± (Nα . Sm) -n < 30, on utilise la loi de Student : x ± (Tα,ν . Sm) où ν = (n-1) Si la v.a ne suit pas une loi normale (énoncé) -n ≥ 30, on utilise la loi normale : x ± (Nα . Sm) -n < 30, on ne peut rien faire Intervalle de confiance d’une proportion : Conditions d’application « n » est grand et f n’est pas voisin de 1 ou 0, alors on peut appliquer la loi normale : f (1− f ) [f - Nα . Sf ; f + Nα . Sf] avec Sf (écart type de la proportion) = n

√

Chapitre 7 │L’estimation de la prévalence repose sur une enquête transversale : observation de la population ou d’un échantillon à une date fixée. Prévalence ≅ incidence x durée (en suggérant que l’incidence et la durée de la maladie sont stables) La Se et Sp correspondent à une proportion, pour l’IC il faut « n » grand et qu’ils soient différents de 1 ou 0. Estimation de l’intervalle de confiance de la sensibilité : Se(1−Se ) Se ± N α . nM

√

Estimation de l’intervalle de confiance de la spécificité : Sp(1−Sp) Sp ± N α . n nonM Rmq : pour estimer l’IC de la Se et de la Sp, il faut 2 échantillons séparés qu’avec des M et des nonM, car il faut que le nombre total de M et de nonM ne soit pas dû au hasard.

√

8

Le risque est la probabilité de développer une maladie ou un état, ce qui correspond à l’incidence. │Le risque relatif mesure le rapport des risques et non pas la variation absolue des risques P (M / F ) (absolue des risques : risque de tomber malade) → RR = P(M /nonF ) -Enquête simple : un seul échantillon de personnes, on détermine par interrogatoire ou par consultation si la personne est malade et si elle a été exposée. -Enquête « exposés/non exposés » : deux échantillons indemnes, seul un échantillon sera exposé au facteur, on suit ces échantillons pendant une période déterminée. -Enquête « cas/témoins » : deux échantillons, l’un malade, l’autre indemne, on détermine par interrogatoire ou par consultation si la personne a été exposé. │On ne peut pas estimer le RR pour les enquêtes « cas/témoin » sauf si la maladie est rare. On ne parle pas de RR mais de risque relatif approché (ou odd ratio, OR), plus l’incidence de la maladie est faible, plus l’OR est une bonne approximation du RR. P(M ∩F ). P (nonM ∩nonF ) OR = P(M ∩nonF ). P ( nonM ∩F ) Si M et/ou F sont rares, l’enquête simple nécessite n grand Si P(M) est faible, l’enquête « exposés/non exposés » nécessite n grand. nb : un facteur de risque/protection ne permet pas de dire que le facteur entraîne/inhibe le caractère. Courbe de survie, fonction de survie S(t) = P(T≥t) : -S(0) = 1 -S(t) est décroissante, quand t →∞, S(t) →0 -Une observation complète est quand l’individu décède avant la date point -Censuré (obs inc)

-L’exclus vivant est l’individu vivant à la date point -Le perdu de vue est un individu dont on n’a plus de nouvelle avant la date point

-Le recul est le délai entre la date d’entrée et la date point -Le temps de participation est le délai entre la date d’entrée et la date des dernière nouvelles (au plus tard jusqu’à la date point) Estimation des courbes de survie : On découpe dès qu’il y a un décès le délai de participation maximal en intervalle. Pour chaque nouvel intervalle on calcule combien il nous reste de patient vivant : ei = ei-1 – ci-1 (censuré) – di-1 (décès) ei −d i ei rmq : le nombre de censures n’intervient que dans le nombre d’exposés au risque de décès (ei)

│Probabilité conditionnelle de survie, S(ti+1/ti) =

│L’estimation de la fonction de survie selon l’hypothèse que la survie et les censurés sont indépendants : S(t) = 1x S(t2 /t1) x … x S(tn/tn-1) 9

rmq : S(t) reste inchangé lorsqu’il y a un censuré, mais joue sur ei, le rôle des c ensurés n’est pas apparent pour S(t) mais existe. Il va surtout influencer sur la variance de S(t), plus il y a de censuré à droite moins S(t) est fiable. Rmq : il faut considérer ci dans l’intervalle suivant │La médiane de survie est le temps tel que S(θ)=0,5. On estime la médiane pour S(ti) ≤ 0,5 ti

ei

di

ci

S(ti+1/ti)

S(t)

t1

A

B

C

1

1=S(t1)

t2

D= A-B-C

E

F

(D-E)/D = I

IxS(t1)= S(t2)

Chapitre 8 Un réglage est dit bon lorsque la quantité moyenne de produit observé sur l’échantillon est à peu près égale à la quantité moyenne de produit théorique. Méthode classique : - l’hypothèse nulle (H0) est que la quantité moyenne théorique est égale à la quantité moyenne observée -on choisit un risque α pour ce test car même si H0 est vraie, la quantité moyenne observée peut ne pas être égale à la théorique à cause du hasard -on établit une valeur seuil |VS| (comme la loi normale) -rejet de H0 si |quantité observé| ≥ |VS| -conservation de H0 si |quantité observé| < |VS| Notion de risque : Le seuil de signification est VS : -le risque de rejeter H0 à tort est le risque α, c’est le risque de 1er espèce où H0 est vraie dans la réalité mais dans le test on la retient comme fausse Lorsqu’on rejette H0, on accepte l’hypothèse alternative (HA) (théorique n’est pas égale à observé). -le risque d’accepter H0 à tort est le risque β, c’est le risque de 2ème espèce où H0 est fausse dans la réalité mais dans le test on la retient comme vraie Puissance du test : (1- β) supérieures à +VS sont en faveures de HA et la région de -est la probabilité que la valeur calculée de la statistique rejet (α) n’a qu’un seul côté. appartiennent à HA -est la capacité de ce test de montrer une différence si elle existe H0 : μ0=μA on considère 2 types de HA : -test bilatérale : HA : μ0 ≠ μA, seules les valeurs > +VS et μ, seules les valeurs

10

Degré de signification : (p) -p=P(valeur stat ≥ valeur calculé de la stat si H0 est vraie) -est la probabilité d’observer une différence au moins aussi importante que celle observée sous H0 Nb : p est un moyen de vérifier H0 sans passer par β, normalement la valeur centré sous H0 est μ-a=0 et sous HA est ̄x -a=δ. C’était un choix pour la compréhension, pensez juste à p ..différence… │Rejet H0 si : p≤α │Conservation H0 si : p˃α

Rmq : p≤α ↔ δ >VS δ↘ →p↗

Variation de β :

Chapitre 9 Le but de ce chapitre est de calculer la « statistique du test », de le comparer à la valeur seuil dépendante du risque choisit et de valider ou rejeter H0. Tous les échantillons sont pris au hasard

11

I/ Liaison entre une variable quantitative et qualitative : I/1 Comparaison des moyennes de 2 sous-populations : *Si les deux échantillons sont indépendants (H0 : μ1=μ2) : -Grands échantillons (n1 et n2 ≥30) ( x̄1− x̄2) e=

√

S 2x1 S 2x2 + n 1 n2

On peut nous donner l’estimation de la variance (ou écart type) de la différence, e= (x1 – x2) / SD Conclusion : Loi normale, si |e| < Nα, on conserve H0 si |e| ≥ Nα, on rejette H0 pour accepter HA au risque α (avec 100.α% de chance de se tromper) Détermination du degré de signification : on regarde dans la table de la loi normale pour |e|=Np (ou la valeur la plus proche de p, entre deux Nα, on fait un intervalle de risque) -Petits échantillons (n1 et n2

Fiches de Biostatistique (UE4) - Tutorat Associatif Marseillais

Short Description

Description

Comments

We need your help!