Estimation des paramètres IFT6085-H2014: Modèles Graphiques Probabilistes
Prof:
Aaron Courville
Email:
[email protected] Office: 3253 Pav. Andre Aisenstadt
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
1
Estimation des paramètres - L'idée
•
Le but de la théorie de l'estimation est d'arriver à un estimateur.
-
Approche statistique standard prend les données mesurées comme aléatoire avec une distribution de probabilité dépend d'un ensemble de paramètres.
-
L'estimateur prend les données mesurées comme entrée et produit une estimation des paramètres avec une certaine précision.
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
2
Le fonction de vraisemblance
•
Considère que nous avons 1. Un modèle paramétré par θ:
PΘ = {p(x; θ) | θ ∈ Θ}
2. Un ensemble de données {x1,x2,...,xn}
•
Probabilité (densité) de l'ensemble de données:
-
Spécification de la distribution conjointe des données: p(x1 , x2 , . . . , xn ; θ) données indépendantes et identiquement distribuées:
p(x1 , x2 , . . . , xn ; θ) =
•
n !
p(xi ; θ)
i=1
Vraisemblance: L : Θ → R+
-
(associe l'espace des paramètres à + ve réels)
Examine la fonction p(x1, x2,..., xn; θ) à partir d'un point de vue différent en considérant les valeurs observées x1, x2,..., xn comme des paramètres fixes, alors que θ est la variable de la fonction.
L(θ | x1 , x2 , . . . , xn ) =
-
n !
p(xi ; θ)
i=1
Souvent pratique d'utiliser le log vraisemblance: ln L(θ | x1 , . . . , xn ) =
IFT6085-H2014: Modèles Graphiques Probabilistes
n !
ln p(xi ; θ)
i=1
03 - Estimation des paramètres
3
Principe du maximum de vraisemblance
•
Estimateur du maximum de vraisemblance: θˆML = argmax p(x1 , . . . , xn ; θ) θ∈Θ
-
Pour le cas de donné i.i.d.: θˆML = argmax θ∈Θ
-
n !
p(xi ; θ) = argmax
i=1
θ∈Θ
n "
ln p(xi ; θ)
Sir Ronald Fisher (1890-1962)
i=1
Comment pouvons-nous trouver le maximum de vraisemblance
‣
nous pouvons suivre le gradient (monter la pente)
‣
nous pouvons trouver θ qui résout l'équation:
∂ ln L(θ | x1 , . . . , xn ) = 0 ∂θ IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
4
Maximum de vraisemblance exemple: loi de Bernoulli
•
Bernoulli distribution:
-
∂ ln L(θ | x1 , . . . , xn ) ∂θ n ∂ � ln f (xi ; p) ∂p i=1
X ∼ Bernoulli(p)
X est un v.a. binaire:
=
0
=
0
n
-
x ∈ {0, 1}
The model parameter:
n
θ = p ∈ Θ = [0, 1]
The Bernoulli p.m.f(x): x
f (x; p) = p (1 − p)
∂ � ln pxi (1 − p)1−xi ∂p i=1
∂ � xi ln p − (1 − xi ) ln(1 − p) ∂p i=1 n � xi i=1
1−x
1 − xi − p 1−p
n �
= 0 =
= 0
xi (1 − p)
=
xi − pxi
=
i=1 n � i=1
n �
xi
=
i=1
p
IFT6085-H2014: Modèles Graphiques Probabilistes
0
=
03 - Estimation des paramètres
n �
i=1 n �
p(1 − xi ) p − pxi
i=1 n �
p
1 n
1
i=1 n �
x1
i=1
5
Bayesienne contre Frequentist inférence
•
Estimation du maximum de vraisemblance est un exemple d'une approche fréquentiste pour l'estimation des paramètres.
•
Frequentist
-
•
Suppose qu'il existe un paramètre inconnu mais fixe. Estime θ avec une certaine confiance. Estimateur est évaluée par ses propriétés (biais, variance, cohérence) Prédiction à l'aide de la valeur de paramètre estimée.
Bayesienne
-
Représente l'incertitude sur le paramètre inconnu. Utilise probabilité de quantifier cette incertitude. Paramètres inconnus sont modélisés comme des variables aléatoires. Prédiction suit les règles de probabilité.
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
6
Estimation bayesienne A priori
•
Paramètres θ sont modélisés avec un distribution de probabilité a priori p(θ) -- θ est un variable aléatoire.
•
Les données contribuent par la vraisemblance: p(x1,...,xn | θ).
A posteriori
•
La probabilité a posteriori des paramètres est alors, p(x1 , . . . , xn | θ)p(θ) p(θ | x1 , . . . , xn ) = ∝ p(x1 , . . . , xn | θ)p(θ) p(x)
•
L'estimateur bayesien est donc une distibution de probabilité sur les paramètres.
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
7
Estimation bayesienne: un exemple
•
Compte tenu de la silhouette d'un objet, nous devons inférer l'objet.
•
La distribution a priori des objets p(Objet) = p(θ):
•
Objet
Probabilité
cube
0.3
cylindre
0.2
sphère
0.1
prism
0.4
La probabilité d'une silhouette compte tenu un objet, p(Silhouette | Object) = p(données | θ):
•
LaFigure distribution a posteriori objet compte 1: Objects andd'un Silhouette [9] tenu une silhouette p(Object | Silhouette)
• par ex. si on voit un carré: The likelihood sphère prism of a silhouette given an object, P (Silhouette|O is: p(cube | carré) = k ∗ 0.2 ∗ 1.0 = 0.37 0.0 0.4
cube
cylindre
carré
1.0
0.6
cercle
0.0
0.4
1.0
trapèze
0.0
0.0
0.0
0.0
Cube Cylinder Sphere p(cylindre | carré) = k ∗ 0.3 ∗ 0.6 = 0.333
1.0 0.6 0.0 0.6 Square p(sphère | carré) = k ∗ 0.1 ∗ 0.0 = 0.0
Circle 0.0 0.4 1.0 ∗ 0.4 ∗ 0.4 = 0.0 0.296 Trapezoid p(prism 0.0| carré) = k0.0
The normalization constant k is given as 1.85.
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
8
Prédiction bayesien: distribution complète
•
On a vu que l'estimateur bayesien est une distibution a posteriori sur les paramètres: p(θ | x1,...,xn).
-
•
Cela pose la question, que faisons-nous ce cette distribution?
Faire des prédictions en utilisant la distribution postérieure complète:
p(xn+1 | x1 , . . . , xn ) = = =
-
� � �
p(xn+1 , θ | x1 , . . . , xn ) dθ p(xn+1 , | θ, x1 , . . . , xn )p(theta | x1 , . . . , xn ) dθ p(xn+1 , | θ)p(θ | x1 , . . . , xn ) dθ
Interprétation: espérance des prévisions p(xn+1 | θ) pondérée par p(θ | x1,...,xn)
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
9
Estimations ponctuelles bayesiens
•
Estimation bayésienne donne une alternative à l'estimation ponctuelle du maximum de vraisemblance des paramètres.
•
Estimation maximum a posteriori: θMAP = argmax p(θ | x1 , . . . , xn ) θ
•
Si la distribution a posteriori est concentrée autour de la valeur la plus probable (MAP): p(xn+1 | x1 , . . . , xn ) ! p(xn+1 | θMAP )
•
Dans la limite n → ∞, θMAP converge vers θML - l'estimation du maximum de vraisemblance (tant que p(θML)≠0)
•
Approche bayesienne plus efficace lorsque les données sont limitées (n est petit)
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
10
Estimation Bayésienne des paramètres: loi de Bernoulli
•
a. Distribution a priori f(p): le beta
Bernoulli distribution:
-
f (p) = f (p; α, β) ∝ pα−1 (1 − p)β−1
X ∼ Bernoulli(p)
X est un v.a. binaire:
b. Distribution a posteriori: x ∈ {0, 1}
f (p | x1 , . . . , xn )
The model parameter:
∝ f (p)f (x1 , . . . , xn | p) n � ∝ pα−1 (1 − p)β−1 pxi (1 − p)1−xi
θ = p ∈ Θ = [0, 1]
The Bernoulli p.m.f(x):
f (x; p) = px (1 − p)1−x
•
=p
α−1+
(1 − p)
β−1
�n
i=1 xi
p
i=1 xi
(1 − p)
Distribution a posteriori f(p | x1,...,xn) est aussi Beta! !
p | x1 , . . . , xn ∼ Beta α +
•
=p
α−1
i=1 �n
n " i=1
xi , β + N −
n " i=1
xi
(1 − p)
β+n−1−
n−
�n
i=1
�n
i=1
xi
xi
#
La distribution Beta est conjugué au vraisemblance binomiale
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
11
Estimation bayésienne des paramètres: loi Binomiale
•
Les détails du traitement de la bayésien binomial est pratiquement identique à celle de Bernoulli.
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
12
Estimation bayésienne des paramètres: loi Gaussienne •
µ soit inconnu et σ2 soit connu.
• X ∼ N (µ, σ ) - x∈R - θ = (µ, σ2 ) ∈ Θ = R × R+ - p.d.f.(x): ! " 2
1 (x − µ)2 p(x; µ, σ ) = √ exp − 2 2 σ2 2πσ 2
•
1
Distribution a priori p(µ) (gaussienne): ! " 2 1 (µ − λ) p(µ; λ, ν 2 ) = √ exp − 2 2 ν2 2πν 1
•
Distribution a posteriori (gaussienne): p(µ | x1 , . . . , xn ) = p(µ; λ† , ν†2 ) � � �−1 � n 1 1 λ 1 � λ† = + 2 + 2 xi ν2 σ ν2 σ i=1 � �−1 1 1 ν† = + 2 ν2 σ
•
Distribution a posteriori p(µ | x1,...,xn):
p(µ | x1 , . . . , xn ) ∝ p(µ)p(x1 , . . . , xn | µ) = p(µ)
p(xi | µ)
i=1 n �
� � � 2 2 1 (µ − λ) 1 (xi − µ) ∝ exp − exp − 2 ν2 2 i=1 σ2 � � n n � � 1 1 2 1 1 2 = exp − 2 (µ − 2µλ + λ ) − ( x2i − 2µ xi + nµ2 ) 2 2ν 2 σ i=1 i=1 � �� � � �� � n n 2 1 1 n λ 1 � λ 1 � 2 2 = exp − + 2 µ −2 + 2 xi µ + 2 + 2 x 2 ν2 σ ν2 σ i=1 ν σ i=1 i � � �� � �� � �−1 � n � 1 1 n 1 1 λ 1 2 ∝ exp − + µ − 2 + + xi µ 2 ν2 σ2 ν2 σ2 ν2 σ 2 i=1 � � �� � �� � �−1 � n � 1 1 n 1 n λ 1 2 ∝ exp − + µ − 2 + + xi µ 2 ν2 σ2 ν2 σ2 ν2 σ 2 i=1 �� 2 � �� � �−1 � n � 1 1 n 1 n λ 1 ∝ exp − + 2 µ− + 2 + 2 xi 2 2 2 2 ν σ ν σ ν σ i=1 � �� 2 � �� n 2 2 � 1 1 n σ ν ∝ exp − + 2 µ− λ+ xi 2 2 2 2 2 2 ν σ nν + σ nν + σ i=1
IFT6085-H2014: Modèles Graphiques Probabilistes
�
n �
03 - Estimation des paramètres
13
Estimation bayésienne des paramètres: loi Gaussienne
•
Distribution a posteriori (gaussienne):
p(µ | x1 , . . . , xn ) = p(µ; λ† , ν†2 ) � � �−1 � n 1 1 λ 1 � λ† = + 2 + 2 xi 2 2 ν σ ν σ i=1 � �−1 1 1 2 ν† = + 2 2 ν σ
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
14
Conjugaison bayésienne
•
il y a plusieur paires de distributions conjugués. INGREDIENTS FOR BAYESIAN INFERENCE
9
Likelihood
Prior
X|θ ∼ N (θ, σ 2 )
θ ∼ N (µ, τ 2 )
X|θ ∼ B(n, θ)
θ ∼ Be(α, β)
X|θ ∼ P(θ)
θ ∼ Gamma(α, β)
X|θ ∼ N B(m, θ)
θ ∼ Be(α, β)
X ∼ Gamma(n/2, 1/(2θ))
θ ∼ IG(α, β)
θ|X ∼ IG(n/2 + α, x/2 + β)
X|θ ∼ U(0, θ)
θ ∼ Pa(θ0 , α)
θ|X ∼ Pa(max{θ0 , X1 , . . . , Xn }, α + n)
X|θ ∼ N (µ, θ)
θ ∼ IG(α, β)
θ|X ∼ IG(α + 1/2, β + (µ − X)2 /2)
X|θ ∼ Gamma(ν, θ)
θ ∼ Ga(α, β)
θ|X ∼ Gamma(α + ν, β + x)
Table 1.1
1.2.4
Posterior 2
θ|X ∼ N ( σ2τ+τ 2 X +
σ2 σ2 τ 2 µ, ) σ 2 +τ 2 σ 2 +τ 2
Credible sets Bayesian statistics estimation
θ|X ∼ Be(α + x, n − x + β) θ|X ∼ Gamma(
P
i
Xi + α, n + β).
θ|X ∼ Be(α + mn, β +
Pn
i=1
xi )
Some conjugate pairs. Here X stands for a sample of size n, X1 , . . . , Xn .
Interval Estimation: Credible Sets
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
15