Théorie Bayesienne de la décision
Short Description
Download Théorie Bayesienne de la décision...
Description
Théorie Bayesienne de la décision Alain Rakotomamonjy - Gilles Gasso . INSA Rouen -Département ASI Laboratoire LITIS
Théorie Bayesienne de la décision – p. 1/17
Introduction par l’exemple On cherche à savoir si un pixel vient de la zone 1 (sombre) ou de la zone 2 (clair) avec le moins d’erreur possible.
• Que faire sans information ? • Que faire si on a l’information de luminance d’un point ? Si on a aucune information a priori, affecter un pixel à la zone 1 permet de minimiser l’erreur.
50
100
150
200
250 50
100
150
200
250
Théorie Bayesienne de la décision – p. 2/17
Introduction par l’exemple • On a l’information de luminance x. v.a de loi pX (x) • Probabilité conditionnelle de x : p(x/C1 ) et p(x/C2 ) • Probabilité a priori de la classe Ck : Pr(Ck ) • On affecte x à la classe de plus forte probabilité a posteriori Pr(Ck /x). Densité de probabilité conditionnelle de la luminance en fonction de la source
Densité de probabilité a posteriori de la source en fonction de la luminance
0.03
1
p(x|C ) 1 p(x|C )
p(C |x) 1 p(C2|x)
0.9
2
0.025
0.8
p(x)
0.7
0.02
0.6 0.015
0.5
0.4 0.01
0.3
0.2
0.005
0.1 0
0
50
100
150
200
250
0
0
50
100
150
200
250
pX (x) = p(x/C1 )Pr(C1 ) + p(x/C2 )Pr(C2 )
Théorie Bayesienne de la décision – p. 3/17
Objectifs • On observe un ensemble de caractéristiques décrivant une entité • On suppose qu’une entité provient d’une source (ou classe) donnée • On réalise une action en fonction de l’observation des caractéristiques • Sachant que chaque action a un certain coût en fonction de la source émettant la caractéristique observée, l’objectif est de : Trouver une règle qui minimise un coût moyen, définissant quelle action effectuer en fonction de l’entité observée
Théorie Bayesienne de la décision – p. 4/17
Définitions et Notations • Ensemble des classes {C1 , · · · , CK } de loi a priori pour chaque classe Pr(Ck ) • Espace des caractéristiques X , typiquement X = Rd • Loi a posteriori Pr(C = Ck /X = x) • Probabilité conditionnelle de x en fonction d’une classe Ck : p(x/CK ) • Probabilité inconditionnelle de x : pX (x) = PK k=1 p(x/Ck )Pr(Ck ) • Ensemble des actions A = {a1 , · · · , am }
Typiquement, les actions consistent à affecter une classe à une observation donnée et donc le nombre d’actions est égal au nombre de classes.
• Coût ℓjk = ℓ(aj , Ck ) associé à l’action aj sachant que l’observation est issue de Ck .
Théorie Bayesienne de la décision – p. 5/17
Formalisation du problème On cherche une règle de décision D D:
X x
−→ 7−→
A aj
optimale au sens d’un risque moyen défini comme suit.
• Risque conditionnel associé à l’action aj après l’observation de x R(aj |x) =
K X
ℓjk Pr(Ck /x)
k=1
• Risque moyen Rmoy =
Z
R(D(x)|x)pX (x)dx
Théorie Bayesienne de la décision – p. 6/17
Formalisation du problème (2) La règle de Bayes est la règle de décision qui minimise le risque moyen : DBayes (x) = argminD Rmoy
En fait, la règle de Bayes est celle qui minimise les risques conditionnels : DBayes (x) = argminj=1···m R(aj |x)
Ainsi, cette règle consiste à choisir l’action ar si K X
k=1
ℓrk Pr(Ck /x) <
K X
ℓjk Pr(Ck /x)
∀j
(∀ action aj )
k=1
Le risque minimum R∗ associé à la règle de Bayes est appelé risque de Bayes et est la meilleure performance possible.
Théorie Bayesienne de la décision – p. 7/17
Cas de la discrimination 2 classes Les observations sont émises par 2 classes C1 et C2 et les actions consistent à affecter une observation x à C1 ou C2 (respectivement action a1 et a2 ). La règle de Bayes consiste à choisir l’action a1 si ℓ11 Pr(C1 /x) + ℓ12 Pr(C2 /x)
<
ℓ21 Pr(C1 /x) + ℓ22 Pr(C2 /x)
(ℓ11 − ℓ21 )p(x/C1 )Pr(C1 )
<
(ℓ22 − ℓ12 )p(x/C2 )Pr(C2 )
soit : D(x) =
avec L(x) =
p(x/C1 ) p(x/C2 )
et η =
(
a1 a2
si si
(ℓ12 −ℓ22 )Pr(C2 ) (ℓ21 −ℓ11 )Pr(C1 )
L(x) ≥ η L(x) < η
et ℓ21 > ℓ11
• Remarque : il est normal que le coût ℓjk (j 6= k) lié à une erreur soit supérieur au coût lié à une bonne décision ℓjj
• L est appelé rapport de vraisemblance
Théorie Bayesienne de la décision – p. 8/17
Classifieur binaire à minimum d’erreur Dans ce cadre, on fixe les coûts à : ℓjk :
(
0 1
si si
j=k j 6= k
(bonne décision) (mauvaise décision)
Ainsi, le risque conditionnel lié à aj est :
R(aj |x)
=
K X
ℓjk Pr(Ck /x)
k=1
=
X
ℓjk Pr(Ck /x)
j6=k
=
1 − Pr(Ck /x)
car
K X
Pr(Ck /x) = 1
k=1
Le risque minimal est donc obtenu par maximisation de la probabilité a posteriori Théorie Bayesienne de la décision – p. 9/17
Classifieur binaire à minimum d’erreur En supposant que les classes sont codées en {0, 1} et que les lois a priori suivent une loi de Bernouilli, la probabilité a posteriori d’une classe est r(x) = Pr(C1 /x), alors la règle de Bayes devient : DBayes (x) :
(
1 p(x|C1) p(x|C ) 2 p(C1|x) p(C2|x)
0.9
0.8
0 1
si si
r(x) > sinon
1 2
La figure décrit les probabilités conditionnelles et les lois a posteriori pour un coût 0-1.
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
50
100
150
200
250
Théorie Bayesienne de la décision – p. 10/17
Rejet d’ambiguité(1) Si l’observation est ambigue, au lieu d’affecter cette observation à une classe ou une autre, on réalise une action appelée rejet qui consiste donc à ne pas décider entre les classes. Dans le cas binaire, on a les risques conditionnels suivants : R(a1 |x)
=
ℓ11 Pr(C1 /x) + ℓ12 Pr(C2 /x)
R(a2 |x)
=
ℓ21 Pr(C1 /x) + ℓ22 Pr(C2 /x)
R(a3 |x)
=
ℓ31 Pr(C1 /x) + ℓ32 Pr(C2 /x)
(a3 est l’action de rejet)
Dans un cas à coût 0-1 et coût de rejet α, les risques et la règle de decision deviennent :
R(a1 |x)
=
Pr(C2 /x)
R(a2 |x)
=
Pr(C1 /x)
R(a3 |x)
=
α
Théorie Bayesienne de la décision – p. 11/17
Rejet d’ambiguité(2) La règle de Bayes devient : a1 DBayes (x) : a2 a 3
si si sinon
Pr(C1 /x) > Pr(C2 /x) et Pr(C1 /x) > 1 − α Pr(C2 /x) > Pr(C1 /x) et Pr(C2 /x) > 1 − α
Densité de probabilité et seuil de decision dans le cas de rejet 1 p(x|C1) p(x|C ) 2 p(C1|x) p(C2|x)
0.9
0.8
0.7
0.6
0.5
La figure décrit les probabilités conditionnelles et les lois a posteriori pour un coût 0-1. Les droites vertes verticales indiquent le seuil de luminance pour les classes et les zones de rejet Comportement du rejet :
0.4
α = 0 −→ 100% rejet
0.3
α = 1/2 −→ 0% rejet
0.2
0.1
0
0
50
100
150
200
250
Théorie Bayesienne de la décision – p. 12/17
Etude du cas de classes gaussiennes Pour un coût 0 − 1, la fonction de discrimination affecte x à la classe Cj si Pr(Cj /x) ≥ Pr(Ck /x) ∀k 6= j Dans le cas gaussien, étudier gj (x) = ln Pr(Cj /x)pX (x) = ln p(x/Cj )Pr(Cj ) permet de simplifier les calculs. gj (x)
=
ln p(x/Cj ) + ln Pr(Cj )
=
1 d 1 − (x − µj )t Σ−1 (x − µ ) − ln 2π − ln|Σj |) + ln Pr(Cj ) j j 2 2 2
Analyse linéaire discriminante (LDA) Si on suppose que les matrices de covariance Σj sont identiques et valent Σ, on peut simplifier gj (x) grâce aux termes constants en fonction de j gj (x) = wj⊤ x + wjo + Cte −1 µj + ln Pr(Cj ) avec w = Σ−1 µj et wjo = 12 µ⊤ j Σ Théorie Bayesienne de la décision – p. 13/17
Etude du cas de classes gaussiennes Analyse linéaire discriminante (LDA) La règle de décision devient donc : x est affecté à la classe Cj si gj (x) = wj⊤ x + wjo ≥ gk (x) = wk⊤ x + wko
∀k 6= j
Ainsi, la frontière de décision dans un problème à deux classes est un hyperplan d’équation : w⊤ (x − x0 ) = 0
avec w = Σ−1 (µj − µk ) et x0 = 21 (µj + µk ) −
ln[Pr(Cj )/Pr(Ck )] (µ (µj −µk )⊤ Σ−1 (µj −µk ) j
Exemple de 2 classes gaussiennes et la frontière de Décision
Exemple de 2 classes gaussiennes et la frontière de Décision
8
8
6
6
4
4
2
2
0
0
−2
−2
−4
−4
−6
−6
−8 −4
−3
−2
−1
0
1
2
3
4
− µk )
5
6
−8 −8
−6
−4
−2
0
2
4
6
8
Théorie Bayesienne de la décision – p. 14/17
Etude du cas de classes gaussiennes Analyse discriminante quadratique (QDA) Dans le cas général où Σ est différent pour chaque classe, on a : gj (x) = x⊤ Wj x + wj⊤ x + wjo −1 1 ⊤ −1 µ et w = , w = Σ avec Wj = 21 Σ−1 j jo j j j 2 µj Σj µj −
1 2
ln |Σj | + ln Pr(Cj )
Pour un problème à 2 classes, la fonction de décision est une hyperquadrique et elle peut prendre différentes formes : hyperplan, hyperspheres, hyperellipsoide... Exemple de 2 classes gaussiennes et la frontière de Décision
Exemple de 2 classes gaussiennes et la frontière de Décision
6
6
4
4
2
2
0
0
−2
−2
−4
−4
−6 −6
−4
−2
0
2
4
6
−6 −6
−4
−2
0
2
4
6
Théorie Bayesienne de la décision – p. 15/17
Stratégies d’estimation La théorie bayesienne de la décision propose un cadre formel pour la discrimination et propose un classifieur minimisant un risque. Mise en oeuvre pratique
• Estimer les probabilités conditionnelles p(x/Ck ) et les probabilités a priori Pr(Ck ) pour k = 1, · · · , K
• Estimer directement les probabilités a posteriori Pr(Ck /x) • Estimer la règle de décision souvent comme étant le signe d’une fonction de discrimination g
Théorie Bayesienne de la décision – p. 16/17
Stratégies d’estimation Cas de classes gaussiennes
• Cas LDA : les paramètres de chaque classe Ck et la matrice Σ sont estimés de la façon suivante
µk
=
Pr(Ck )
=
Σ
=
PN
i∈Ck
xi
Nk
Nk N PK
k=1
avec Nk = card(Ck )
PN
⊤ (x − µ )(x − µ ) i i k k i∈Ck N −K
• Cas QDA : on estime la matrice de variance-covariance pour chaque Ck par Σk
=
PN
i∈Ck (xi
− µk )(xi − µk )⊤ N −1
L’estimation de la probabilité a priori et de µk est similaire au cas précédent Théorie Bayesienne de la décision – p. 17/17
View more...
Comments