Théorie Bayesienne de la décision

January 18, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Théorie Bayesienne de la décision...

Description

Théorie Bayesienne de la décision Alain Rakotomamonjy - Gilles Gasso . INSA Rouen -Département ASI Laboratoire LITIS

Théorie Bayesienne de la décision – p. 1/17

Introduction par l’exemple On cherche à savoir si un pixel vient de la zone 1 (sombre) ou de la zone 2 (clair) avec le moins d’erreur possible.

• Que faire sans information ? • Que faire si on a l’information de luminance d’un point ? Si on a aucune information a priori, affecter un pixel à la zone 1 permet de minimiser l’erreur.

50

100

150

200

250 50

100

150

200

250

Théorie Bayesienne de la décision – p. 2/17

Introduction par l’exemple • On a l’information de luminance x. v.a de loi pX (x) • Probabilité conditionnelle de x : p(x/C1 ) et p(x/C2 ) • Probabilité a priori de la classe Ck : Pr(Ck ) • On affecte x à la classe de plus forte probabilité a posteriori Pr(Ck /x). Densité de probabilité conditionnelle de la luminance en fonction de la source

Densité de probabilité a posteriori de la source en fonction de la luminance

0.03

1

p(x|C ) 1 p(x|C )

p(C |x) 1 p(C2|x)

0.9

2

0.025

0.8

p(x)

0.7

0.02

0.6 0.015

0.5

0.4 0.01

0.3

0.2

0.005

0.1 0

0

50

100

150

200

250

0

0

50

100

150

200

250

pX (x) = p(x/C1 )Pr(C1 ) + p(x/C2 )Pr(C2 )

Théorie Bayesienne de la décision – p. 3/17

Objectifs • On observe un ensemble de caractéristiques décrivant une entité • On suppose qu’une entité provient d’une source (ou classe) donnée • On réalise une action en fonction de l’observation des caractéristiques • Sachant que chaque action a un certain coût en fonction de la source émettant la caractéristique observée, l’objectif est de : Trouver une règle qui minimise un coût moyen, définissant quelle action effectuer en fonction de l’entité observée

Théorie Bayesienne de la décision – p. 4/17

Définitions et Notations • Ensemble des classes {C1 , · · · , CK } de loi a priori pour chaque classe Pr(Ck ) • Espace des caractéristiques X , typiquement X = Rd • Loi a posteriori Pr(C = Ck /X = x) • Probabilité conditionnelle de x en fonction d’une classe Ck : p(x/CK ) • Probabilité inconditionnelle de x : pX (x) = PK k=1 p(x/Ck )Pr(Ck ) • Ensemble des actions A = {a1 , · · · , am }

Typiquement, les actions consistent à affecter une classe à une observation donnée et donc le nombre d’actions est égal au nombre de classes.

• Coût ℓjk = ℓ(aj , Ck ) associé à l’action aj sachant que l’observation est issue de Ck .

Théorie Bayesienne de la décision – p. 5/17

Formalisation du problème On cherche une règle de décision D D:

X x

−→ 7−→

A aj

optimale au sens d’un risque moyen défini comme suit.

• Risque conditionnel associé à l’action aj après l’observation de x R(aj |x) =

K X

ℓjk Pr(Ck /x)

k=1

• Risque moyen Rmoy =

Z

R(D(x)|x)pX (x)dx

Théorie Bayesienne de la décision – p. 6/17

Formalisation du problème (2) La règle de Bayes est la règle de décision qui minimise le risque moyen : DBayes (x) = argminD Rmoy

En fait, la règle de Bayes est celle qui minimise les risques conditionnels : DBayes (x) = argminj=1···m R(aj |x)

Ainsi, cette règle consiste à choisir l’action ar si K X

k=1

ℓrk Pr(Ck /x) <

K X

ℓjk Pr(Ck /x)

∀j

(∀ action aj )

k=1

Le risque minimum R∗ associé à la règle de Bayes est appelé risque de Bayes et est la meilleure performance possible.

Théorie Bayesienne de la décision – p. 7/17

Cas de la discrimination 2 classes Les observations sont émises par 2 classes C1 et C2 et les actions consistent à affecter une observation x à C1 ou C2 (respectivement action a1 et a2 ). La règle de Bayes consiste à choisir l’action a1 si ℓ11 Pr(C1 /x) + ℓ12 Pr(C2 /x)

<

ℓ21 Pr(C1 /x) + ℓ22 Pr(C2 /x)

(ℓ11 − ℓ21 )p(x/C1 )Pr(C1 )

<

(ℓ22 − ℓ12 )p(x/C2 )Pr(C2 )

soit : D(x) =

avec L(x) =



p(x/C1 ) p(x/C2 )



et η =

(

a1 a2

si si

(ℓ12 −ℓ22 )Pr(C2 ) (ℓ21 −ℓ11 )Pr(C1 )

L(x) ≥ η L(x) < η

et ℓ21 > ℓ11

• Remarque : il est normal que le coût ℓjk (j 6= k) lié à une erreur soit supérieur au coût lié à une bonne décision ℓjj

• L est appelé rapport de vraisemblance

Théorie Bayesienne de la décision – p. 8/17

Classifieur binaire à minimum d’erreur Dans ce cadre, on fixe les coûts à : ℓjk :

(

0 1

si si

j=k j 6= k

(bonne décision) (mauvaise décision)

Ainsi, le risque conditionnel lié à aj est :

R(aj |x)

=

K X

ℓjk Pr(Ck /x)

k=1

=

X

ℓjk Pr(Ck /x)

j6=k

=

1 − Pr(Ck /x)

car

K X

Pr(Ck /x) = 1

k=1

Le risque minimal est donc obtenu par maximisation de la probabilité a posteriori Théorie Bayesienne de la décision – p. 9/17

Classifieur binaire à minimum d’erreur En supposant que les classes sont codées en {0, 1} et que les lois a priori suivent une loi de Bernouilli, la probabilité a posteriori d’une classe est r(x) = Pr(C1 /x), alors la règle de Bayes devient : DBayes (x) :

(

1 p(x|C1) p(x|C ) 2 p(C1|x) p(C2|x)

0.9

0.8

0 1

si si

r(x) > sinon

1 2

La figure décrit les probabilités conditionnelles et les lois a posteriori pour un coût 0-1.

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0

0

50

100

150

200

250

Théorie Bayesienne de la décision – p. 10/17

Rejet d’ambiguité(1) Si l’observation est ambigue, au lieu d’affecter cette observation à une classe ou une autre, on réalise une action appelée rejet qui consiste donc à ne pas décider entre les classes. Dans le cas binaire, on a les risques conditionnels suivants : R(a1 |x)

=

ℓ11 Pr(C1 /x) + ℓ12 Pr(C2 /x)

R(a2 |x)

=

ℓ21 Pr(C1 /x) + ℓ22 Pr(C2 /x)

R(a3 |x)

=

ℓ31 Pr(C1 /x) + ℓ32 Pr(C2 /x)

(a3 est l’action de rejet)

Dans un cas à coût 0-1 et coût de rejet α, les risques et la règle de decision deviennent :

R(a1 |x)

=

Pr(C2 /x)

R(a2 |x)

=

Pr(C1 /x)

R(a3 |x)

=

α

Théorie Bayesienne de la décision – p. 11/17

Rejet d’ambiguité(2) La règle de Bayes devient :    a1 DBayes (x) : a2   a 3

si si sinon

Pr(C1 /x) > Pr(C2 /x) et Pr(C1 /x) > 1 − α Pr(C2 /x) > Pr(C1 /x) et Pr(C2 /x) > 1 − α

Densité de probabilité et seuil de decision dans le cas de rejet 1 p(x|C1) p(x|C ) 2 p(C1|x) p(C2|x)

0.9

0.8

0.7

0.6

0.5

La figure décrit les probabilités conditionnelles et les lois a posteriori pour un coût 0-1. Les droites vertes verticales indiquent le seuil de luminance pour les classes et les zones de rejet Comportement du rejet :

0.4

α = 0 −→ 100% rejet

0.3

α = 1/2 −→ 0% rejet

0.2

0.1

0

0

50

100

150

200

250

Théorie Bayesienne de la décision – p. 12/17

Etude du cas de classes gaussiennes Pour un coût 0 − 1, la fonction de discrimination affecte x à la classe Cj si Pr(Cj /x) ≥ Pr(Ck /x) ∀k 6= j   Dans le cas gaussien, étudier gj (x) = ln Pr(Cj /x)pX (x) = ln p(x/Cj )Pr(Cj ) permet de simplifier les calculs. gj (x)

=

ln p(x/Cj ) + ln Pr(Cj )

=

1 d 1 − (x − µj )t Σ−1 (x − µ ) − ln 2π − ln|Σj |) + ln Pr(Cj ) j j 2 2 2

Analyse linéaire discriminante (LDA) Si on suppose que les matrices de covariance Σj sont identiques et valent Σ, on peut simplifier gj (x) grâce aux termes constants en fonction de j gj (x) = wj⊤ x + wjo + Cte −1 µj + ln Pr(Cj ) avec w = Σ−1 µj et wjo = 12 µ⊤ j Σ Théorie Bayesienne de la décision – p. 13/17

Etude du cas de classes gaussiennes Analyse linéaire discriminante (LDA) La règle de décision devient donc : x est affecté à la classe Cj si gj (x) = wj⊤ x + wjo ≥ gk (x) = wk⊤ x + wko

∀k 6= j

Ainsi, la frontière de décision dans un problème à deux classes est un hyperplan d’équation : w⊤ (x − x0 ) = 0

avec w = Σ−1 (µj − µk ) et x0 = 21 (µj + µk ) −

ln[Pr(Cj )/Pr(Ck )] (µ (µj −µk )⊤ Σ−1 (µj −µk ) j

Exemple de 2 classes gaussiennes et la frontière de Décision

Exemple de 2 classes gaussiennes et la frontière de Décision

8

8

6

6

4

4

2

2

0

0

−2

−2

−4

−4

−6

−6

−8 −4

−3

−2

−1

0

1

2

3

4

− µk )

5

6

−8 −8

−6

−4

−2

0

2

4

6

8

Théorie Bayesienne de la décision – p. 14/17

Etude du cas de classes gaussiennes Analyse discriminante quadratique (QDA) Dans le cas général où Σ est différent pour chaque classe, on a : gj (x) = x⊤ Wj x + wj⊤ x + wjo −1 1 ⊤ −1 µ et w = , w = Σ avec Wj = 21 Σ−1 j jo j j j 2 µj Σj µj −

1 2

ln |Σj | + ln Pr(Cj )

Pour un problème à 2 classes, la fonction de décision est une hyperquadrique et elle peut prendre différentes formes : hyperplan, hyperspheres, hyperellipsoide... Exemple de 2 classes gaussiennes et la frontière de Décision

Exemple de 2 classes gaussiennes et la frontière de Décision

6

6

4

4

2

2

0

0

−2

−2

−4

−4

−6 −6

−4

−2

0

2

4

6

−6 −6

−4

−2

0

2

4

6

Théorie Bayesienne de la décision – p. 15/17

Stratégies d’estimation La théorie bayesienne de la décision propose un cadre formel pour la discrimination et propose un classifieur minimisant un risque. Mise en oeuvre pratique

• Estimer les probabilités conditionnelles p(x/Ck ) et les probabilités a priori Pr(Ck ) pour k = 1, · · · , K

• Estimer directement les probabilités a posteriori Pr(Ck /x) • Estimer la règle de décision souvent comme étant le signe d’une fonction de discrimination g

Théorie Bayesienne de la décision – p. 16/17

Stratégies d’estimation Cas de classes gaussiennes

• Cas LDA : les paramètres de chaque classe Ck et la matrice Σ sont estimés de la façon suivante

µk

=

Pr(Ck )

=

Σ

=

PN

i∈Ck

xi

Nk

Nk N PK

k=1

avec Nk = card(Ck )

PN

⊤ (x − µ )(x − µ ) i i k k i∈Ck N −K

• Cas QDA : on estime la matrice de variance-covariance pour chaque Ck par Σk

=

PN

i∈Ck (xi

− µk )(xi − µk )⊤ N −1

L’estimation de la probabilité a priori et de µk est similaire au cas précédent Théorie Bayesienne de la décision – p. 17/17

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF