Biostatistiques et statistiques appliquées aux sciences expérimentales

January 15, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Biostatistiques et statistiques appliquées aux sciences expérimentales...

Description

Biostatistiques et statistiques appliquées aux sciences expérimentales Introduction aux statistiques Bayésiennes

Jérémie Mattout

Cogmaster A4 2006-2007

Programme de la séance

• Introduction • Rappels sur la théorie des probabilités • Principes de l’inférence Bayésienne • Application en Neuroimagerie • Conclusion

INTRODUCTION

Introduction

Statistiques: domaine cousin mais distinct des Mathématiques

Statistiques appliquées

Statistiques théoriques/mathématiques

Statistiques descriptives présentation, description et résumé des données

Statistiques inférentielles Modélisation et prise en compte du caractère aléatoire et de l’incertitude Pour le test d’hypothèse et/ou l’inférence de variables cachées ou inconnues

Introduction

Statistiques: ont connu leur véritable essor au XXème siècle Etymologie Mot d’abord allemand, issu du latin moderne et de l’italien (‘relatif à l’Etat’)

Définitions A la fois le domaine scientifique et les données collectées

Domaines d’application Démographie, Santé, Economie, Psychologie, Education, Finances …

S’appuient sur une théorie plus ancienne, celle des probabilités…

Introduction

Probabilité: notion apparue fin XVIème , début XVIIème

B. Pascal (1623-1662) A-M. Legendre (1752-1833)

AC-F. Gauss (1777-1855)

C. Huygens (1629-1695) A. de Moivre (1667-1754)

P-S. Laplace (1749-1827)

J. Bernouilli (1654-1705) P. de Fermat (1601-1665)

Notion bien comprise universellement, pourtant pas d’interprétation unique Interprétation fréquentiste Interprétation bayésienne

RAPPELS SUR LA THEORIE DES PROBILITES

Rappels sur la théorie des probabilités Qu’est-ce qu’une probabilité ? Définition classique (Laplace) Si une expérience aléatoire peut résulter en N événements équiprobables et mutuellement exclusifs. Si un nombre Nt de ces événements est de type t, alors la probabilité d’un résultat de type t est:

P(t ) =

- Uniquement pour un nombre fini de résultats possibles - Uniquement pour des événements équiprobables

Nt N

Définition fréquentiste La probabilité d’un événement est sa fréquence relative d’occurrence, après avoir répété l’expérience un grand nombre de fois (idéalement un nombre infini de fois). Si Nt est le nombre d’occurrence d’événements de type t parmi N essais:

P(t ) = lim

N "!

Nt N

- Approche objective - Il est généralement impossible de répéter une même expérience un très grand nombre de fois

Rappels sur la théorie des probabilités Qu’est-ce qu’une probabilité ?

Définition bayésienne

T. Bayes (1702-1761)

Mesure du degré de croyance ou de l’incertitude qu’un individu assigne à un événement ou une situation - S’applique à tout type d’événements ou phénomènes - Approche subjective - Nécessite de définir un a priori qui pourra varier selon les individus - Peut bien entendu prendre en compte un avis objectif e.g.1: les cotes sont fixées en fonction des paris (subjectifs)

e.g.4: quelle est la probabilité qu’ils diront la vérité ? e.g.2: quelle est la probabilité d’une chute ? e.g.3: probabilité d’être contrôlé au prochain coin de rue ?

Rappels sur la théorie des probabilités Controverse dans la définition/l’interprétation d’une probabilité - Résumé Approche fréquentiste

Approche bayésienne

- Probabilité = limite de la fréquence relative de l’événement, pour un grand nombre d’essais

- Probabilité = degré de croyance, mesure de l’incertitude

- N’est défini que dans le cadre d’expériences aléatoires bien définies

- S’applique à tout type d’événements ou de situations

- Recherche de l’objectivité

- Approche subjective

T. Bayes (1702-1761) J. Neyman (1894-1981)

R.A. Fisher (1880-1962) E.S. Pearson (1895-1980) P-S. Laplace (1749-1827)

H. Jeffreys (1891-1889)

Statistiques inférentielles classiques

Statistiques inférentielles bayésiennes

Rappels sur la théorie des probabilités Approche Mathématique…: Probabilité = vraisemblance qu’une ‘chose’ soit, ait été, existe ou advienne Indépendamment des débats parfois philosophiques concernant l’interprétation d’une probabilité, la théorie mathématique des probabilités s’est construite sur un certain nombre d’axiomes concernant les phénomènes aléatoires.

Chances

Théorie moderne des probabilités

A.N. Kolmogorov (1903-1987)

Rappels sur la théorie des probabilités Théorie unifiée des probabilités:

Espace des résultats

Cas discret

Cas continu

! = {x1 , x2 ,...}

!=R F ( x) = p( X ! x)

f ( x) ! [0,1] #x " ! Propriétés

!

f ( x) = 1

x#"

f

F: fonction monotone, continue, non décroissante lim F ( x) = 0 x # !"

lim F ( x) = 1 x "!

: fonction de masse

f =

dF dx

: fonction de densité

Exemple Pile ou Face ?

Température ici, à midi, le 15 Août 2007 ?

Rappels sur la théorie des probabilités Théorie unifiée des probabilités: Cas discret

Exemple

Cas continu

Température ici, à midi, le 15 Août 2007 ?

10 tirages à Pile ou Face ?

Loi Binomiale:

p ( X = x) = f ( x) = C xn p x (1 ! p )1! x

Loi Normale:

p( X ) ~ N ( µ , ! )

f ( x) =

1 ! 2"

x

p( X " x) = ! f ( x) 0

20

p (10 " X " 20) =

! f ( x)dx

x =10

e

#

( x#µ )2 2! 2

Rappels sur la théorie des probabilités

La Loi des grands nombres: Si un événement de probabilité p est observé de façon répétée, lors d’expériences identiques mais indépendantes, la fréquence d’occurrence de cet événement par rapport au nombre d’expériences, converge en probabilité vers p.

X i est une réalisation indépendante d’une variable aléatoire pouvant être égale à 1 avec une probabilité p et à 0 avec une probabilité 1-p

Alors, n indiquant le nombre d’essais

& $ lim P$ $n(' $ %

n

)X i =1

n

i

# ! = p! =1 ! ! "

Fréquence relative

# essais Pile (0) ou Face (1) ?

Rappels sur la théorie des probabilités

Le théorème central limite:

Soit une suite de variables aléatoires indépendantes, de même loi, d’espérance et de variance finies. Alors leur moyenne centrée, réduite, suit une loi normale de moyenne 0 et de variance 1.

Suite (X n ) d’espérance µ et de variance ! 2, alors

Zn =

Xn " µ !2 n

suit une loi normale

N (0,1) n

avec

Xn =

!X i =1

n

i

Rappels sur la théorie des probabilités

L’espérance mathématique: Valeur attendue, somme des gains (et pertes) pondérés par leur probabilité.

Cas discret

Cas continu +"

Formule

E (X ) = ! X i p(X i )

E (X ) =

i

! xf ( x)dx

#"

Exemple 2 tirages à Pile (1) ou Face (0) ?

Température ici, à midi, le 15 Août 2007 ?

+$

E (X ) = 1. + 2. + 0. = 1 1 2

1 4

1 4

x E (X ) = % # $" 2!

e

#

( x#µ )2 2" 2



Rappels sur la théorie des probabilités L’entropie de Shannon: Mesure de l’incertitude liée à une variable aléatoire, ou encore la quantité moyenne d’information Manquante lorsqu’on ne connaît pas la valeur de cette variable.

H (X ) = E (I (X )) = "! p(X i )ln (p(X i ))

Formule

i

Analogie en physique

ordre/structure Manque d’information/entropie/incertitude

Rappels sur la théorie des probabilités L’entropie de Shannon:

Exemple

Pile ou Face

H (X )

P(X =' Face')

Rappels sur la théorie des probabilités Axiomes des probabilités (de Kolmogorov):

A : événement quelconque lié a la même expérience aléatoire

! : ensemble/univers des résultats possibles (1)

0 ! P(A)! 1

(2)

P(! ) = 1 k

(3)

P(A1 " A2 L " Ak ) = ! P(Ai ) i =1

P(A ! B )

ou

P(A, B )

: probabilité jointe

pour des événements deux a deux incompatibles

Rappels sur la théorie des probabilités Propriétés essentielles, découlant des axiomes de Kolmogorov: -

P(' rien') = 0

-

P (A )= 1 ! P(A)

-

P(A # B ) = P(A)+ P(B )" P(A ! B )

-

P(A ! B ) = 0

-

P(A ! B ) = P(A).P(B )

-

Si

A

si

A

et

: complémentaire de

B

A

dans

!

quels que soient les événements

sont mutuellement exclusifs

si

A ! B alors P(A)! P(B )

A

et

B

sont indépendants

A

et

B

REGLE DE BAYES

Règle de Bayes Probabilités conditionnelles:

P(A B )

: Probabilité de

A

sachant / connaissant / étant donné

P(A ! B ) P(A B )= P(B )

Si

A

et

B

sont indépendants, alors

P(A B )= P(A)

B

Règle de Bayes Probabilités conditionnelles:

Exemple

Considérons le test de dépistage d’une grave maladie. Plus tôt la maladie est détectée, meilleur est le pronostic de survie. Nous savons que dans la population

Nous savons également que

P(malade ) = 0.01

P(positif sain )= 0.01

et

P(malade positif )?

P(négatif malade )= 0.01

Règle de Bayes Probabilités conditionnelles:

Exemple

Considérons le test de dépistage d’une grave maladie. Plus tôt la maladie est détectée, meilleur est le pronostic de survie. Nous savons que dans la population

Nous savons également que

On en déduit que

P(malade ) = 0.01

P(positif sain )= 0.01

et

P(négatif malade )= 0.01

P(positif malade )= 1 ! P(négatif malade )= 0.99

P(positif , malade ) = P(positif malade )P(malade ) = 0.0099

P ( positif ) = P ( positif ,sain ) + P ( positif ,malade) = 0.0198 et

!

P(malade positif )=

P(malade, positif ) = 0.50 P(positif )

Règle de Bayes Probabilités totales ou marginales: Cas discret

P(A) = ! P(A, Bk ) = ! P(A Bk )P(Bk ) k

k

Cas continu

P(X ) = ! P(X , Y )dY = ! P(X Y )P(Y )dY

Règle de Bayes Probabilités totales ou marginales:

Exemple

Cas discret Sur deux essais indépendants, quelle est la probabilité d’obtenir ‘Face’ au deuxième essai ?

Pile ou Face (résultats équiprobables)

P (T2 = Face) = P (T2 = Face T1 = Face) P (T1 = Face) +P (T2 = Face T1 = Pile) P (T1 = Pile) = 0.5 * 0.5 + 0.5 * 0.5 = 0.5

!

Règle de Bayes Théorème/Règle de Bayes Cas discret

P(Bk A)=

P(Bk A)=

Cas continu

P(A Bk )P(Bk ) P(A)

P(A Bk )P(Bk )

! P(A B )P(B ) k

k

k

P(X Y )=

P(X Y )=

P(Y X )P(X ) P(Y )

P(Y X )P(X )

! P(Y X )P(X )dX

PRINCIPES DE L’INFERENCE BAYESIENNE

Principes de l’inférence Bayésienne

Notion de modélisation: - Formalisation mathématique d’un processus ou système réel/physique (repose sur un ensemble d’hypothèses et d’approximations) entrée

observations modèle

Importance de la modélisation: - Permet de simuler des données - Permet l’estimation de paramètres non observés - Permet de prédire de futures observations - Permet de tester des hypothèses

Principes de l’inférence Bayésienne

Analyse/inférence Bayésienne: - Appliquer un modèle probabiliste des observations comme des quantités à estimer - Les quantités à estimer sont non observées ge

e pr

sa tis

n

ap u nna o co re

sa is

Paramètres du modèles

e nc

pr

éd

ic

tio

n

Futures observations

- Une caractéristique essentielle de l’inférence Bayésienne réside dans l’utilisation explicite de distributions de probabilités pour quantifier l’incertitude de l’inférence

Principes de l’inférence Bayésienne

Notations:

Y

: observations

!

: paramètres du modèle

~ Y

: données manquantes ou encore non observées

Principes de l’inférence Bayésienne

Trois étapes de l’inférence Bayésienne:

(1) Définition du modèle probabiliste complet, pour l’ensemble des quantités observables et non observables: spécification de la probabilité jointe P Y , !

(

)

(2) Calculer et interpréter les distributions de probabilités a posteriori (conditionnellement aux observations) des quantités non observées d’intérêt

(3) Evaluer la qualité des interprétations et du modèle, ainsi que la sensibilité des résultats aux hypothèses du modèle

Principes de l’inférence Bayésienne

Modèle général: Apprentissage/Reconnaissance Probabilité jointe

P(Y , ! ) = P(Y ! )P(! ) vraisemblance des données

Distribution a posteriori

S’écrit parfois

P(! Y )=

P(Y ! )P(! ) P(Y )

P(! Y )" P(Y ! )P(! )

car

dist. a priori

loi marginale ou évidence

P(Y ) ne dépend pas de !

Principes de l’inférence Bayésienne

Modèle général: Prédiction Distribution prédictive a priori

P(Y )

Distribution prédictive a posteriori

~ ~ P Y Y = " P Y ! P(! Y )d!

( )

( )

Mise à jour de l’a priori dans le cadre d’une analyse séquentielle: à l’arrivée de nouvelles données, la distribution a posteriori devient la nouvelle distribution a priori

MISE EN PRATIQUE

Mise en pratique

Exercice n°1: exemple de démarche Bayésienne

Exercice n°2: exemple de modèle Bayésien

Exercice n°3: illustration des limites de l’approche classique

DISTRIBUTIONS A PRIORI

Distributions a priori

Un aspect central et critique de l’approche Bayésienne est la formulation d’une distribution de probabilité a priori sur les quantités non observées que l’on souhaite estimer.

Différentes stratégies possibles: - A priori informatif permettant de guider au mieux l’estimation - A priori non informatif afin de ne pas biaiser l’estimation et de ‘laisser s’exprimer’ les données - Un compromis entre les deux…

Distributions a priori Construction d’un a priori

- Approche ‘pragmatique’: considérer les différentes valeurs possibles de θ et leur assigner une probabilité telle que leur somme sera égale à 1. ATTENTION: le support de la distribution a posteriori sera un sous-espace de celui de l’a priori. Autrement dit, l’estimée a posteriori ne pourra pas prendre de valeurs non prévues par l’a priori.

- Approche paramétrique: on attribue une distribution de forme connue à notre a priori sur θ. Alors l’a priori se résume à un petit nombre de paramètres (e.g. moyenne et variance) et le support n’est plus fini. ATTENTION: pas toujours applicable. Certaines distributions peuvent avoir des propriétés très similaires mais conduire à des estimations a posteriori très différentes. Que choisir ?

Distributions a priori A priori conjugué

- Etant donnée une loi de vraisemblance, un a priori conjugué est un a priori dont la distribution est telle que la distribution a posteriori appartiendra à la même famille de loi. - Approche très utile et très employée, notamment dans le cadre d’un apprentissage séquentiel. Cas discret

Cas continu

Vraisemblance

A priori conjugué

Vraisemblance

A priori conjugué

Binomiale

Beta

Exponentielle

Gamma

Multinomiale

Dirichlet

Normal

Normal

Poisson

Gamma

Gamma

Gamma

Exemples

Distributions a priori A priori non-informatif Se dit d’une distribution qui ne favorise aucune valeur de θ par rapport aux autres. Ainsi toute l’information nécessaire à l’estimation est fournie par les données. On se rapproche alors de l’inférence classique, s’appuyant uniquement sur le terme de vraisemblance (approche objective). Cas discret

Cas continu

! = [a, b]

" = {!1 , K , ! n }

P(! i ) = 1 / n

P(" ) = 1 / (b ! a ) ‘’propre’’

# = [" !,+!]

P(! ) = 1 / c

‘’impropre’’

L’a priori non-informatif est parfois aussi appelé a priori de référence (voir plus loin, évaluation de modèle) ATTENTION: un a priori informatif est parfois nécessaire, lorsque les données ne suffisent pas pour estimer les paramètres du modèles (cf. exemple en Neuroimagerie)

EXEMPLES D’INFERENCE BAYESIENNE

Exemples d’inférences Bayésienne

- Ayant défini un a priori, le théorème de Bayes nous permet de combiner cette information avec des observations afin de calculer la distribution a posteriori des paramètres ou prédictions. - L’inférence Bayésienne permet d’obtenir une information complète sur les quantités à estimer: leur entière distribution de probabilité. - Toutefois, il nous faudra le plus souvent résumer/interpréter cette information, notamment pour permettre un choix ou une réponse quantitative. Typiquement et de manière analogue à l’approche classique: une estimation ponctuelle, d’un intervalle ou le test d’une hypothèse.

Exemples d’inférences Bayésienne

Estimation ponctuelle ^θ « Comment résumer le résultat par une valeur statistique a posteriori ? » moyenne

- Estimateur ponctuel de variance a posteriori minimale - Sensible aux valeurs extrêmes - Peu représentatif si distribution multimodale

médiane

- Insensible aux valeurs extrêmes - Identique à la moyenne si la distribution est symétrique - Sensible aux valeurs extrêmes - Peu représentatif si distribution multimodale

mode

- Facile à calculer - Equivalent au maximum de vraisemblance lors de l’utilisation d’un a priori uniforme - Reflète seulement la valeur la plus probable - Aussi appelé Maximum A posteriori (MAP)

Exemples d’inférences Bayésienne

Estimation d’intervalle C « Intervalle C de confiance Bayésien » Définition fréquentiste Si on recalculait C pour un grand nombre de jeux de données obtenus de manière indépendante et selon le même protocole expérimental, (1-α).100% d’entre eux contiendrait la valeur de θ.

Définition Bayésienne La probabilité que la valeur θ appartienne à l’intervalle C, étant donné les observations Y, est supérieure ou égale à (1-α).

1 # % " P(C Y )= ! P($ Y )d$ C

Exemples d’inférences Bayésienne

Test d’hypothèse Définition fréquentiste

- H0 versus H1 - p = Probabilité que la statistique de test T(Y) soit plus extrême (vers H1) que T(Y|θ,H0)

Définition Bayésienne

- Autant d’hypothèses concurrentes que de modèles possibles, notés M1, M2, …, Mk - Pour chaque hypothèse, on peut calculer

- Ne permet pas d’accepter H0 - La valeur p ne peut pas être interprétée comme un degré de significativité

P(Y M i )= ! P(Y " , M i )P(" )d"

EVALUATION DE MODELE

Evaluation de modéle

Sélection/comparaison de modèles

Bayes Factor (BF): comparaison de deux modèles/hypothèses M1 et M2

P(M 1 Y ) P(M 2 Y ) P(Y M 1 ) BF = = P(M 1 ) P(M 2 ) P(Y M 2 )

Si les modèles sont a priori équiprobables

alors

BF =

P(M 1 ) = P(M 2 )

P(M 1 Y ) P(M 2 Y )

y = f(x)

Principe de parsimonie

évidence du modèle p(Y|M)

Evaluation de modéle

trop simple

‘juste bien’ trop complexe

Espace des données

x

Bayesian Information Criterion (BIC)

y=f(x)

' sup P(Y ) , M 1 )$ (BIC = !2 log % " ! (n 2 ! n1)log N &% sup P(Y ) , M 2 )#"

Akaike Information Criterion (AIC)

n1: # paramètres du modèle M1 n2: # paramètres du modèle M2 N: taille de l’échantillon

' sup P(Y ) , M 1 )$ (AIC = !2 log % " ! 2(n 2 ! n1) &% sup P(Y ) , M 2 )#"

Evaluation de modéle

Moyenne de modèles

Plutôt que d’estimer θ à partir d’une seule hypothèse, il se peut que plusieurs hypothèses conduisent à différentes solution tout aussi plausibles. Alors il peut être intéressant de moyenner sur plusieurs modèles.

P(" Y )= ! P(" M i , Y )P(M i Y ) i

Evaluation de modéle Modèles hiérarchiques Représentation sous la forme de graphe (Réseau Bayésien)

APPLICATION EN NEUROIMAGRIE

Application en neuroimagerie Segmentation des images d’IRM anatomiques

Histogramme des données

Vraisemblance: l’intensité dans chaque voxel de l’image est modélisé par un mélange de lois normales. Chaque loi normale correspond à un type de tissu: matière grise (MG), matière blanche (MB), liquide céphalo-rachidien (LCR)

A priori: Une distribution a priori pour chaque type de tissu a été obtenue à partir de la segmentation manuelle de 150 images de sujets différents.

MG

MB

LCR

Pour chaque nouveau sujet, on obtient une carte/image de probabilité a posteriori d’appartenance à chaque type de tissu.

CONCLUSION

Conclusion

Résumé: - décision en termes probabilistes - choix conditionnels (éventuellement par rapport à des covariables ou paramètres connus x) Inconvénients: - approche subjective - nécessité de définir une distribution a priori - calculs couteux en mémoire et en temps (approximations asymptotiques, méthodes d’échantillonnage, algorithme EM, approches variationelles) Avantages: - peut poser toutes les questions - interprétations plus intuitives - permet d’accepter l’hypothèse nulle (freq: évaluation rétrospective de la procédure utilisée pour estimer θ, étant donné p(y|θ,H0)) - permet l’application de modèles de plus en plus complexes

Conclusion

Références

Numéro spécial, modèles probabilistes en sciences cognitives (2006)

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF