Estimation des paramètres

January 15, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Estimation des paramètres...

Description

Estimation des paramètres IFT6085-H2014: Modèles Graphiques Probabilistes

Prof:

Aaron Courville

Email: [email protected] Office: 3253 Pav. Andre Aisenstadt

IFT6085-H2014: Modèles Graphiques Probabilistes

03 - Estimation des paramètres

1

Estimation des paramètres - L'idée



Le but de la théorie de l'estimation est d'arriver à un estimateur.

-

Approche statistique standard prend les données mesurées comme aléatoire avec une distribution de probabilité dépend d'un ensemble de paramètres.

-

L'estimateur prend les données mesurées comme entrée et produit une estimation des paramètres avec une certaine précision.

IFT6085-H2014: Modèles Graphiques Probabilistes

03 - Estimation des paramètres

2

Le fonction de vraisemblance



Considère que nous avons 1. Un modèle paramétré par θ:

PΘ = {p(x; θ) | θ ∈ Θ}

2. Un ensemble de données {x1,x2,...,xn}



Probabilité (densité) de l'ensemble de données:

-

Spécification de la distribution conjointe des données: p(x1 , x2 , . . . , xn ; θ) données indépendantes et identiquement distribuées:

p(x1 , x2 , . . . , xn ; θ) =



n !

p(xi ; θ)

i=1

Vraisemblance: L : Θ → R+

-

(associe l'espace des paramètres à + ve réels)

Examine la fonction p(x1, x2,..., xn; θ) à partir d'un point de vue différent en considérant les valeurs observées x1, x2,..., xn comme des paramètres fixes, alors que θ est la variable de la fonction.

L(θ | x1 , x2 , . . . , xn ) =

-

n !

p(xi ; θ)

i=1

Souvent pratique d'utiliser le log vraisemblance: ln L(θ | x1 , . . . , xn ) =

IFT6085-H2014: Modèles Graphiques Probabilistes

n !

ln p(xi ; θ)

i=1

03 - Estimation des paramètres

3

Principe du maximum de vraisemblance



Estimateur du maximum de vraisemblance: θˆML = argmax p(x1 , . . . , xn ; θ) θ∈Θ

-

Pour le cas de donné i.i.d.: θˆML = argmax θ∈Θ

-

n !

p(xi ; θ) = argmax

i=1

θ∈Θ

n "

ln p(xi ; θ)

Sir Ronald Fisher (1890-1962)

i=1

Comment pouvons-nous trouver le maximum de vraisemblance



nous pouvons suivre le gradient (monter la pente)



nous pouvons trouver θ qui résout l'équation:

∂ ln L(θ | x1 , . . . , xn ) = 0 ∂θ IFT6085-H2014: Modèles Graphiques Probabilistes

03 - Estimation des paramètres

4

Maximum de vraisemblance exemple: loi de Bernoulli



Bernoulli distribution:

-

∂ ln L(θ | x1 , . . . , xn ) ∂θ n ∂ � ln f (xi ; p) ∂p i=1

X ∼ Bernoulli(p)

X est un v.a. binaire:

=

0

=

0

n

-

x ∈ {0, 1}

The model parameter:

n

θ = p ∈ Θ = [0, 1]

The Bernoulli p.m.f(x): x

f (x; p) = p (1 − p)

∂ � ln pxi (1 − p)1−xi ∂p i=1

∂ � xi ln p − (1 − xi ) ln(1 − p) ∂p i=1 n � xi i=1

1−x

1 − xi − p 1−p

n �

= 0 =

= 0

xi (1 − p)

=

xi − pxi

=

i=1 n � i=1

n �

xi

=

i=1

p

IFT6085-H2014: Modèles Graphiques Probabilistes

0

=

03 - Estimation des paramètres

n �

i=1 n �

p(1 − xi ) p − pxi

i=1 n �

p

1 n

1

i=1 n �

x1

i=1

5

Bayesienne contre Frequentist inférence



Estimation du maximum de vraisemblance est un exemple d'une approche fréquentiste pour l'estimation des paramètres.



Frequentist

-



Suppose qu'il existe un paramètre inconnu mais fixe. Estime θ avec une certaine confiance. Estimateur est évaluée par ses propriétés (biais, variance, cohérence) Prédiction à l'aide de la valeur de paramètre estimée.

Bayesienne

-

Représente l'incertitude sur le paramètre inconnu. Utilise probabilité de quantifier cette incertitude. Paramètres inconnus sont modélisés comme des variables aléatoires. Prédiction suit les règles de probabilité.

IFT6085-H2014: Modèles Graphiques Probabilistes

03 - Estimation des paramètres

6

Estimation bayesienne A priori



Paramètres θ sont modélisés avec un distribution de probabilité a priori p(θ) -- θ est un variable aléatoire.



Les données contribuent par la vraisemblance: p(x1,...,xn | θ).

A posteriori



La probabilité a posteriori des paramètres est alors, p(x1 , . . . , xn | θ)p(θ) p(θ | x1 , . . . , xn ) = ∝ p(x1 , . . . , xn | θ)p(θ) p(x)



L'estimateur bayesien est donc une distibution de probabilité sur les paramètres.

IFT6085-H2014: Modèles Graphiques Probabilistes

03 - Estimation des paramètres

7

Estimation bayesienne: un exemple



Compte tenu de la silhouette d'un objet, nous devons inférer l'objet.



La distribution a priori des objets p(Objet) = p(θ):



Objet

Probabilité

cube

0.3

cylindre

0.2

sphère

0.1

prism

0.4

La probabilité d'une silhouette compte tenu un objet, p(Silhouette | Object) = p(données | θ):



LaFigure distribution a posteriori objet compte 1: Objects andd'un Silhouette [9] tenu une silhouette p(Object | Silhouette)

• par ex. si on voit un carré: The likelihood sphère prism of a silhouette given an object, P (Silhouette|O is: p(cube | carré) = k ∗ 0.2 ∗ 1.0 = 0.37 0.0 0.4

cube

cylindre

carré

1.0

0.6

cercle

0.0

0.4

1.0

trapèze

0.0

0.0

0.0

0.0

Cube Cylinder Sphere p(cylindre | carré) = k ∗ 0.3 ∗ 0.6 = 0.333

1.0 0.6 0.0 0.6 Square p(sphère | carré) = k ∗ 0.1 ∗ 0.0 = 0.0

Circle 0.0 0.4 1.0 ∗ 0.4 ∗ 0.4 = 0.0 0.296 Trapezoid p(prism 0.0| carré) = k0.0

The normalization constant k is given as 1.85.

IFT6085-H2014: Modèles Graphiques Probabilistes

03 - Estimation des paramètres

8

Prédiction bayesien: distribution complète



On a vu que l'estimateur bayesien est une distibution a posteriori sur les paramètres: p(θ | x1,...,xn).

-



Cela pose la question, que faisons-nous ce cette distribution?

Faire des prédictions en utilisant la distribution postérieure complète:

p(xn+1 | x1 , . . . , xn ) = = =

-

� � �

p(xn+1 , θ | x1 , . . . , xn ) dθ p(xn+1 , | θ, x1 , . . . , xn )p(theta | x1 , . . . , xn ) dθ p(xn+1 , | θ)p(θ | x1 , . . . , xn ) dθ

Interprétation: espérance des prévisions p(xn+1 | θ) pondérée par p(θ | x1,...,xn)

IFT6085-H2014: Modèles Graphiques Probabilistes

03 - Estimation des paramètres

9

Estimations ponctuelles bayesiens



Estimation bayésienne donne une alternative à l'estimation ponctuelle du maximum de vraisemblance des paramètres.



Estimation maximum a posteriori: θMAP = argmax p(θ | x1 , . . . , xn ) θ



Si la distribution a posteriori est concentrée autour de la valeur la plus probable (MAP): p(xn+1 | x1 , . . . , xn ) ! p(xn+1 | θMAP )



Dans la limite n → ∞, θMAP converge vers θML - l'estimation du maximum de vraisemblance (tant que p(θML)≠0)



Approche bayesienne plus efficace lorsque les données sont limitées (n est petit)

IFT6085-H2014: Modèles Graphiques Probabilistes

03 - Estimation des paramètres

10

Estimation Bayésienne des paramètres: loi de Bernoulli



a. Distribution a priori f(p): le beta

Bernoulli distribution:

-

f (p) = f (p; α, β) ∝ pα−1 (1 − p)β−1

X ∼ Bernoulli(p)

X est un v.a. binaire:

b. Distribution a posteriori: x ∈ {0, 1}

f (p | x1 , . . . , xn )

The model parameter:

∝ f (p)f (x1 , . . . , xn | p) n � ∝ pα−1 (1 − p)β−1 pxi (1 − p)1−xi

θ = p ∈ Θ = [0, 1]

The Bernoulli p.m.f(x):

f (x; p) = px (1 − p)1−x



=p

α−1+

(1 − p)

β−1

�n

i=1 xi

p

i=1 xi

(1 − p)

Distribution a posteriori f(p | x1,...,xn) est aussi Beta! !

p | x1 , . . . , xn ∼ Beta α +



=p

α−1

i=1 �n

n " i=1

xi , β + N −

n " i=1

xi

(1 − p)

β+n−1−

n−

�n

i=1

�n

i=1

xi

xi

#

La distribution Beta est conjugué au vraisemblance binomiale

IFT6085-H2014: Modèles Graphiques Probabilistes

03 - Estimation des paramètres

11

Estimation bayésienne des paramètres: loi Binomiale



Les détails du traitement de la bayésien binomial est pratiquement identique à celle de Bernoulli.

IFT6085-H2014: Modèles Graphiques Probabilistes

03 - Estimation des paramètres

12

Estimation bayésienne des paramètres: loi Gaussienne •

µ soit inconnu et σ2 soit connu.

• X ∼ N (µ, σ ) - x∈R - θ = (µ, σ2 ) ∈ Θ = R × R+ - p.d.f.(x): ! " 2

1 (x − µ)2 p(x; µ, σ ) = √ exp − 2 2 σ2 2πσ 2



1

Distribution a priori p(µ) (gaussienne): ! " 2 1 (µ − λ) p(µ; λ, ν 2 ) = √ exp − 2 2 ν2 2πν 1



Distribution a posteriori (gaussienne): p(µ | x1 , . . . , xn ) = p(µ; λ† , ν†2 ) � � �−1 � n 1 1 λ 1 � λ† = + 2 + 2 xi ν2 σ ν2 σ i=1 � �−1 1 1 ν† = + 2 ν2 σ



Distribution a posteriori p(µ | x1,...,xn):

p(µ | x1 , . . . , xn ) ∝ p(µ)p(x1 , . . . , xn | µ) = p(µ)

p(xi | µ)

i=1 n �

� � � 2 2 1 (µ − λ) 1 (xi − µ) ∝ exp − exp − 2 ν2 2 i=1 σ2 � � n n � � 1 1 2 1 1 2 = exp − 2 (µ − 2µλ + λ ) − ( x2i − 2µ xi + nµ2 ) 2 2ν 2 σ i=1 i=1 � �� � � �� � n n 2 1 1 n λ 1 � λ 1 � 2 2 = exp − + 2 µ −2 + 2 xi µ + 2 + 2 x 2 ν2 σ ν2 σ i=1 ν σ i=1 i � � �� � �� � �−1 � n � 1 1 n 1 1 λ 1 2 ∝ exp − + µ − 2 + + xi µ 2 ν2 σ2 ν2 σ2 ν2 σ 2 i=1 � � �� � �� � �−1 � n � 1 1 n 1 n λ 1 2 ∝ exp − + µ − 2 + + xi µ 2 ν2 σ2 ν2 σ2 ν2 σ 2 i=1   �� 2 � �� � �−1 � n � 1 1 n 1 n λ 1  ∝ exp − + 2 µ− + 2 + 2 xi 2 2 2 2 ν σ ν σ ν σ i=1   � �� 2 � �� n 2 2 � 1 1 n σ ν  ∝ exp − + 2 µ− λ+ xi 2 2 2 2 2 2 ν σ nν + σ nν + σ i=1

IFT6085-H2014: Modèles Graphiques Probabilistes



n �

03 - Estimation des paramètres

13

Estimation bayésienne des paramètres: loi Gaussienne



Distribution a posteriori (gaussienne):

p(µ | x1 , . . . , xn ) = p(µ; λ† , ν†2 ) � � �−1 � n 1 1 λ 1 � λ† = + 2 + 2 xi 2 2 ν σ ν σ i=1 � �−1 1 1 2 ν† = + 2 2 ν σ

IFT6085-H2014: Modèles Graphiques Probabilistes

03 - Estimation des paramètres

14

Conjugaison bayésienne



il y a plusieur paires de distributions conjugués. INGREDIENTS FOR BAYESIAN INFERENCE

9

Likelihood

Prior

X|θ ∼ N (θ, σ 2 )

θ ∼ N (µ, τ 2 )

X|θ ∼ B(n, θ)

θ ∼ Be(α, β)

X|θ ∼ P(θ)

θ ∼ Gamma(α, β)

X|θ ∼ N B(m, θ)

θ ∼ Be(α, β)

X ∼ Gamma(n/2, 1/(2θ))

θ ∼ IG(α, β)

θ|X ∼ IG(n/2 + α, x/2 + β)

X|θ ∼ U(0, θ)

θ ∼ Pa(θ0 , α)

θ|X ∼ Pa(max{θ0 , X1 , . . . , Xn }, α + n)

X|θ ∼ N (µ, θ)

θ ∼ IG(α, β)

θ|X ∼ IG(α + 1/2, β + (µ − X)2 /2)

X|θ ∼ Gamma(ν, θ)

θ ∼ Ga(α, β)

θ|X ∼ Gamma(α + ν, β + x)

Table 1.1

1.2.4

Posterior 2

θ|X ∼ N ( σ2τ+τ 2 X +

σ2 σ2 τ 2 µ, ) σ 2 +τ 2 σ 2 +τ 2

Credible sets Bayesian statistics estimation

θ|X ∼ Be(α + x, n − x + β) θ|X ∼ Gamma(

P

i

Xi + α, n + β).

θ|X ∼ Be(α + mn, β +

Pn

i=1

xi )

Some conjugate pairs. Here X stands for a sample of size n, X1 , . . . , Xn .

Interval Estimation: Credible Sets

IFT6085-H2014: Modèles Graphiques Probabilistes

03 - Estimation des paramètres

15

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF