Reconnaissance de Forme Statistique

January 13, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Reconnaissance de Forme Statistique...

Description

Reconnaissance de Forme Statistique James L. Crowley Deuxième Année ENSIMAG Séance 1

Troisième Bimestre 2001/2002 27 mars et 2 avril 2002

Reconnaissance, Probabilité et la Règle de Bayes Plan de la séance :

Notations ...............................................................................2 Introduction et quelques définitions..................................3 Les Observations.................................................................4 La classification..................................................................5

La probabilité d'un évenement..........................................7 Définition Fréquentielle.......................................................7 Définition Axiomatique. ......................................................7 La probabilité de la valeur d'une variable aléatoire.................8 Exemple : Les statistiques de pixel couleurs......................... 10 Probabilité a posteriori : Le cas de variable discret.............. 12

La Règle de Bayes............................................................ 13 La règle de Bayes avec une ratio d'histogrammes................. 15

La Loi Normale................................................................. 16 Estimations des moments d'une densité................................ 17 La Loi Normale................................................................ 19 Estimation d’un vecteur de variables aléatoires..................... 19 Notes des Cours sur Web : http://www-prima.imag.fr/Prima/Homepages/jlc/Courses/Courses.html Sources : "Statistical Pattern Recognition", K. Fukunaga, Academic Press, 1990. "Pattern Recognition and Scene Analysis", R. E. Duda and P. E. Hart, Wiley, 1973.

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

Notations →

x

Un vecteur

D

Nombre de dimensions de X

wk k K Mk M pk, p(wk)

La classe k Indice d'une classe Nombre de classes Nombre d'exemples de la classe k. Nombre totale d'exemples de toutes les classes Probabilité a priori de rencontrer un membre de la classe k.

X,Y

Une observation (un vecteur aléatoire).

P(X )

Probabilité d'une observation X

pk(X)

Probabilité d'une observation X pour la classe wk



















pk(X) = p(X | w k) →

P(X ) =

K





k=1 →

qk(X) →

p(X | w k) p(wk)



La probabilité a posteriori de wk étant donnée X →

qk(X) = P(wk | X ) =



p(X | w k ) p(w k) →

p(X )



p(X | w k ) p(w k) = K → ∑ p(X | w k) p(w k) k=1

1-2

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

Introduction et quelques définitions. La reconnaissance de forme est la science des méthodes de classification de phénomènes. Phénomène : tout ce qui est objet d'expérience possible. Tout ce qui se manifeste par l'intermédiaire des sens. (ref : Critique de la Raison Pure, I. Kant, 1781) Une observation : une constatation attentive des phénomènes. Pour des machines, des observations sont fournies par les capteurs. Forme n. f. : A. Apparence, aspect visible. 1) ... 2) apparence extérieure donnant à un objet ou à un être sa spécificité. B. Réalisation particulières et concrète d'un fait général 1) Manière variable dont une notion, une idée, un événement, une action se présente. Les méthodes statistique de la reconnaissance de forme traite les observations sous forme de vecteur de caractéristiques. Caractéristiques : (En anglais : Feature) Signes ou ensembles de signes distinctifs. Une ensemble de propriétés. { x 1, x 2 ... xn}. En notation vectorielle :

 x1   x2  → X =  ...   x  n La formation des vrais objets physiques est sujette aux influences aléatoires. Pour les objets d'une classe, wk, les propriétés des objets individuels sont, les valeurs aléatoires. On peut resume ceci par une somme d'une forme →



"intrinsèque" x plus ces influences aléatoires individuelles, Bi. →





X = x + Bi

1-3

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

Toutes les techniques étudiées dans ce cours suppose un bruit additif. →

L'influence aléatoire individuelle, Bi est spécifique à un individuel par rapport de son classe et indépendant des observations. En notation vectorielle :

 X1  X  X =  ...2   X  n →

=

 x1   x2   ...   x  n

 B1  B  +  ...2   B  n

Les Observations Les propriétés sont observées au travers des capteurs. Ceci donne une observation (un phénomène) sous forme d'une ensemble de caractéristiques : { Y1, Y 2 ... Yn}.

 Y1  Y  Y=  ...2   Y  n →



Les observations sont corrompues par un bruit, Bo. →





Y = X + Bo Le bruit est, par définition, imprévisible. Il est aléatoire. Donc les caractéristiques observées sont des vecteurs aléatoires. La corruption des observations par un bruit aléatoire est fondamentale aux capteurs physiques. Parce que des caractéristiques sont des vecteurs à N dimensions, nous allons faire appel aux méthodes de la géométrie des espaces à N dimensions pour construire les techniques de reconnaissance.

1-4

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

Exemple : Le spectre des plantes observées par un satellite. Une image satellite est composée de pixels s(x, y). Chaque pixel compte le nombre de photons issus d’une surface carrée de la terre (ex. 10 m2. ). Les photons sont captés au travers des filtres spectraux. Ceci donne une vecteur de caractéristiques pour chaque pixel. →

x : Le spectre des pigments des feuilles pour une espece. →

Bi : Les variations du spectre intrinsèque dues aux variations d'age ou →

d'humidité. Bi est spécifique à un individu. Il ne change pas entre les observations. →





X = x + Bi : Le spectre des pigments des feuilles pour un individu →

Bo : Les variations d'observations dues à l'angle du soleil et les effets de filtrage de la lumière par l'atmosphère (humidité, pollution etc). La classification La classification est une capacité fondamentale de l'intelligence. Comprendre : Faire entrer dans une catégorie. Les perceptions brutes (les phénomènes) sont comprise par l'association aux catégories mentales (les concepts). La capacité de classer les phénomènes est caractéristique à toute espèce vivante. Reconnaissance : Le fait de reconnaître, d'identifier un objet, un être comme tel. Reconnaître : A. Saisir un objet par la pensée, en reliant entre elles, des images, des perceptions. Identifier par la mémoire, le judgement ou l'action. 1. Penser un objet présent comme ayant déjà été saisi par la pensée. 2. Juger un objet ou un concept comme compris dans une catégorie. Identifier :

Reconnaître un individu

Classer :

Reconnaître un membre d'une catégorie, ou d'une classe.

Classe: n. f. 2) Ensemble d'individus ou d'objets qui ont des caractères communs. ensemble n. m. : un groupe. 1-5

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

Les ensembles peuvent êtres définis par extension : une liste complète des membres intention : une conjonction des caractéristiques Un ensemble est défini par un test d'appartenance. par extension : Une comparaison d'une observation avec des membres connus de l'ensemble (des prototypes) par intention : Conjonction de prédicats définis sur les propriétés observées Ceci correspond (grosso modo) aux deux approches de la reconnaissance statistique : les techniques de classification paramétriques (par intention) et non-paramètriques (par extension). La classification est un processus d'association d'une classe à une observation. x1 x2 ... xn

d{g(x1,x2, ..., xn)}

^ w

Pour un vecteur de caractéristique il sort une estimation de la classe, w^ Les techniques de reconnaissance de formes statistiques fournissent une méthode pour induire des tests d'appartenance à partir d'un ensemble d'échantillons. La classification se résume à une division de l'espace de caractèristique en partition disjoint. Cette division peut-être fait par estimation de fonctions paramétrique ou par une liste exhaustives des frontières. Le critère est la probabilité. Cette probabilité est fournie par la règle de Bayes. →

p(Classek | X ) =



p(X | Classe k ) p(Classe k) →

p(X )

1-6

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

La probabilité d'un évenement. La sémantique (ou "sens") de la probabilité d'un événement peut être fourni par sa fréquence d'occurrence ou par un système d'axiomes. L' approche frequentielle a l'avantage d'être facile à comprendre. Par contre, elle peut entrainer les difficultés dans l'analyse. Les mathématiciens préferent une définition axiomatique. Dans le deux cas, la probabilité est une fonction numérique, Pr() ∈ [0, 1]. Le domaine de la fonction Pr() est une ensemble S. L'ensemble S est composé de K sous-ensembles (tribus) disjoints d'evennements, S = {A 1 ∪ A2 ∪ ...∪ AK} Définition Fréquentielle. Une définition "Fréquentielle" de la probabilité sera suffisante pour la plupart des techniques vues dans ce cours. Soit M observations des événement aléatoires dont Mk appartiennent à la classe Ak. La Probabilité d'observer un événement de la classe Ak est Mk pk = p(Ak) = Pr{Ak} ≡ Lim { M } M→ ∞ Mk Pour le cas pratique ou M est fini, Pr{wk} ≈ M La validité de l'approximation dépend du nombre d'échantillons M. Définition Axiomatique. Une définition axiomatique permet d'eviter certain difficulté dans l'analyse de systèmes probabilistes. Trois postulats sont suffisants : Postulat 1 : ∀ A ∈ S : Pr(A) ≥ 0 Postulat 2 : Pr(S) = 1 Postulat 3 : ∀ Ai, A j ∈ S tel que Ai ∩ Aj = ∅ : Pr( A i ∪ Aj) = P(Ai) + P(Aj) 1-7

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

La probabilité de la valeur d'une variable aléatoire Pour X entier, tel que X ∈ [Xmin, X max] . On peut traiter chacun des valeurs possibles comme une classe d’événement. Si les valeurs de x sont entières, tel que x ∈ [xmin, x max] on peut estimer la probabilité a partir de M observations de la valeur, {Xm}. On compte le nombre d'observation de chaque valeur, x, dans une table, h(x). L'existence des ordinateurs avec des centaines de megabytes rendre des tables de fréquence très pratique pour la mise en œuvre en temps réel des algorithmes de reconnaissance. Dans certains domaines, comme l'analyse d'images, par abus de langage, un tel table s'appelle une histogramme. Proprement dit, l'histogramme est une représentation graphique de h(x) Ainsi la probabilité d'une valeur de X ∈ [Xmin, Xmax] est la fréquence de cette valeur. Avec M observations de la valeur, X, on peut faire une table, h(x), de fréquence pour chacun des valeurs possibles. On observe M exemples de X, {Xm}. Pour chaque observation on ajoute "1" à son entré dans la table. ∀m=1, M : h(Xm) := h(Xm) + 1; M := M+1; h(x) est une table de fréquence pour chaque x ∈ [xmin, x max]. Ainsi, on peut définir la probabilité d’une valeur x par sa fréquence : 1 pr{Xm=x} ≡ Lim { M h(x)} M→ ∞ Quand M est fini, on peut faire appel à l'approximation. 1 pr{X=x} = p(x) ≈ M h(x) La validité de l'approximation depend dunombre de valeurs possible et de M. En règle générale, on dit qu'il faut 10 exemples par valeur possible. Que faire si la masse d'exemple est insuffisante : M < 10 (Xmax–Xmin) ? Que faire si x n'est pas entier ? Il faut une fonction paramétrique pour p(X). 1-8

Reconnaissance, Probabilité et la Règle de Bayes Pour x entier, tel que x ∈ [Xmin, Xmax] x par sa fréquence :

Séance 1

on peut définir la probabilité d'un valeur

1 p(X=x) ≡ Lim { M h(x)} M→ ∞ Quand M est fini, on peut faire appel à l'approximation. 1 p(X=x) ≈ M h(x) La validité de l'approximation depend de la nombre de valeurs possible et de M. En régle générale, on dit qu'il faut 10 echantillons par valeur possible. Nous verrons le problème d'estimation de l'erreur plus tard

1-9

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

Exemple : Les statistiques de pixel couleurs Une image est une table de pixels. Chaque pixel est une observation d'une scène, et donc, une variable aléatoire. Il y a beaucoup des pixels dans les images (512 x 512 = 218 = 256 K pixels) Les pixels d'une image couleur sont representé par 3 octets R, G et B avec (8 bits par octets). Dans ce cas, chaque pixel est une vecteur aléatoire. →

X = (R, G, B)T ou R, G, et B sont issue du [0, 255]. Pour un vecteur de caractéristique, on peut calculer une table à 3 dimensions. →

Pour un image couleur, composé de (R, G, B), avec 8 bits par pixel, h(X) contient 2563 = 224 valeurs. Mais chaque image contient 5122 = 218 pixels. Si on suppose qu'il faut 10 exemples par cellulle, Il faut 10 x 26 images = 640 → → 1 images pour une estimation valable de p(X ) = M h(X ) . On peut transformer le vecteur (R, G, B)T en luminance et chrominance. La luminance, ou intensité, L, est en proportion de cos(i) où i est l'angle entre la source et la normale de la surface. La chrominance, C1, C 2 est une signature pour la reconnaissance. Composant Speculaire Composant Lambertian

Lumieres

Surface

Pigment

La composant "luminant" est déterminé par l'orientation de la surface.

1-10

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

La composant "chrominant" est déterminé par la composition de la spectre de la source et le spectre d'absorbation des pigments de la surfaces. Si la spectre de la source est constante, la chrominance indique l'identité de l'objet Par exemple : L = R+G+B

R C1 = R+G+B

G C2 = R+G+B

R, G, B sont les entiers. Donc, C1, C 2 sont issu d'une ensemble finit de valeurs dans l'intervalle [0, 1]. On peut transformer C1, C 2 en entier entre [0, N-1], par R C1 = Round ( N · R+G+B ).

G C2 = Round ( N · R+G+B ).

On aura N2 cellulles de chrominances dans l'histogramme. Par exemple, pour N=32, on a 322 = 1024 cellules à remplir est il nous faut que M = 10 K pixels d'exemples. (Une image = 256 K pixels). Dans ce cas, pour M observations

→ → 1 p(X) ≈ M h(X)

1-11

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

Probabilité a posteriori : Le cas de variable discret Pour les observations de K classes wk, la probabilité conditionnelle est →



Si X est composé de variable discretes, {x ∈ Ν} tel que x ∈ [Xmin,

p(X | wk).



Xmax], on peut faire une table hk(X) pour les Mk observations de la classe w k. → → 1 p(X | wk ) ≈ M hk(X) k

La somme de toutes les observations est M =

K



k=1 K



p(X) =



k=1

Mk



p(w k) p(X | wk )

→ → 1 1 K ≈ M h(X) = M ∑ Mk hk(X) k=1

La probabilité à posteriori peut être calculé par la règle de Bayes. →

p(wk | X ) =



p(X | w k ) p(w k) →

p(X )

1-12

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

La Règle de Bayes Soit q une proposition d'un évenement. Par axiome 2 de la définition des systèmes de probabilités : P(q) + P(¬q) = 1. Soit deux propositions p et q. P(p ∧ q) est la probabilité "conjointe" de p et q. Si p et q sont mutuellement exclusifs.. P(p ∧ q) = P(p) · P(q), P(p ∨ q) = P(p) + P(q). On peut voir ça d'une manière graphique : P(p)

P(¬p)

1 P(¬q) P(¬q) x P(p)

P(q)

P(q) x P(p)

P(¬q)x P(¬p)

P(q) x P(¬p)

0 0

oit :

1

P(p ∧ q) + P(p ∧ ¬q) + P(¬p ∧ q) + P(¬p ∧ ¬q) = 1 P(p ∧ q) = A P(p ∧ ¬q) = B P(¬p ∧ q) = C P(¬p ∧ ¬q) = D

Dans ce cas, les probabilités marginales sont P(p) = A + B = P(p ∧ q) + P(p ∧ ¬q) P(q) = A + C = P(p ∧ q) + P(¬p ∧ q)

1-13

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

La probabilité conditionnelle de q étant donnée p s'écrit P(q | p) P(q | p) =

P(p ∧ q) A = P(p) A+B

de la même manière : P(p | q) =

P(p ∧ q) A = P(q) A+C

Par algèbre on déduire : P(q | p) P(p) = P(p | q) P(q) Ceci est une forme de règle de Bayes. On peut écrire : P(q | p) =

P(p | q) P(q) P(p)

P(q | p) est la probabilité "conditionnelle" ou "postérieur"

1-14

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

La règle de Bayes avec une ratio d'histogrammes. La probabilité à posteriori peut être calculé par la règle de Bayes. →

p(wk | X ) =



p(X | w k ) p(w k) →

p(X ) →

Dans le cas des valeurs de X discrètes tel que x ∈ [Xmin, X max] , on a Mk p(wk) ≈ M

probabilité de la classe wk: →

probabilité conditionnelle de X): →

Probabilité à priori de X :

→ → 1 p(X| w k) ≈ M hk(X) k → → 1 p(X) ≈ M h(X)

ce qui donne : p(wk | X ) =

p(X | w k ) p(w k) p(X)



→ Mk 1 → h (X ) k M Mk hk(X) = → → 1 h(X) h ( X ) M

Cette technique s'avère très utile dans les cas où il y a suffisemment d'échantillons pour faire un histogramme valable. Par exemple quand on traite des images ou les signaux.

Que faire si la masse d'exemple est insuffisante : M < 10 (Xmax–Xmin) ? Que faire si x n'est pas entier ? Il faut une fonction paramétrique pour p(X).

1-15

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

La Loi Normale : Une fonction paramétrique pour p(X). Quand les variables aléatoires sont issues d'une séquence d’événements aléatoires, leur densité de probabilité prend la forme de la loi normale, N(µ, σ).

Ceci est démontré par le théorème de la limite centrale. Il est un cas fréquent en nature. Les paramètres de N(µ, σ) sont les premiers et deuxième moments des exemples. Donc, on peut les estimer pour n’importe quel nombre d'exemples. On peut même estimer les moments quand il n'existe pas les bornes (Xmax–Xmin) ou quand X est une variable continue. Dans ce cas, p( ) est une "densité" et on peut utiliser

N(µ,

σ) comme une fonction

de densité pour p(x). 1 p(x)≈ N(x; µ, σ) = 2πσ

e



(x–µ)2 2σ2 N(x; µ, σ)

x µ+σ

µ

µ+σ

Le base "e" est : e = 2.718281828.... Il s'agit du fonction tel que 1 2πσ

Le terme ∞ ⌠  ⌡

e

∫ ex

dx = ex

sert à normaliser la fonction en sorte que sa surface est 1.

(x–µ)2 2σ2 dx = 2π σ.



–∞ Le terme d2(x)=

(x–µ)2 est la distance x et µ normalisée par la variance. σ2 1-16

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

La différence (x – µ)2 est la "distance" entre une caractéristique et la caractéristique "nominale" d'une classe. La variance, σ2, sert à "normaliser" cette distance. La différence normalisée par la variance est connue sous le nom de "Distance de Mahalanobis". La Distance de Mahalanobis est un test naturel de similarité Estimations des moments d'une densité Le premier moment : La Moyenne Soit M observations d'un variable aléatoire, { X1, X 2, ..., X 3} = {Xm} La moyenne est l’espérance de {Xm}. . 1 M µ ≡ E{x} = M ∑ X m m=1 Il s'agit d'une somme sur M (le nombre exemples). Cette somme existe, même quand Xmin et X max n'existent pas et quand X est réelle. On note que dans le cas X est un nombre entier, on peut aussi estimer la moyenne par la table de fréquence. La masse d’un histogramme, h(x) est le nombre d'échantillons qui composent l'histogramme, M. M=

xmax

∑ h(x) x=xmin

Pour X entier, tel que X ∈ [xmin, x max] on peut démontrer que

µ≡

xmax 1 xmax E{x} = M ∑ h(x) ≈ ∑ p(x)·x x=xmin x=xmin

1 M 1 xmax donc : µ ≡ E{x} = M ∑ X m = M ∑ h(x) m=1 x=xmin Pour X réel µ ≡ E{x} =

∫ p(x)·x dx 1-17

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

Le deuxième moment (La variance) La variance, σ2, est le deuxième moment de la densité de probabilité. Pour un ensemble de M observations {xm} 1 M ≡ E{(X m-µ)2} = M ∑ (X m – µ)2 m=1 Mais l'usage de µ estimé avec le même ensemble, introduit un biais dans σ2 . Pour l’éviter, on peut utiliser une estimation sans biais.

σ2

σ2

M 1 = M-1 ∑ (X m – µ)2 m=1

Lequel est correct ? (les deux !) Pour X entier, tel que X ∈ [Xmin, X max] on peut démontrer que 1 Xmax = E{(X m-µ)2} = M ∑ h(x)(x – µ)2 x=xmin Ceci est vrais parce que la table h(x) est fait de {Xm}.

σ2

Donc :

σ2

1 M 1 xmax = M ∑ (X m – µ)2 = M ∑ h(x)(x – µ)2 m=1 x=xmin

Pour X réel on a

σ2 ≡

E{(X m–µ)2} =

∫ p(x)·(x–µ)2 dx

1-18

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

La Loi Normale Avec µ et

σ2, on peut estimer la densité p(x) par N(x; µ, σ)

1 pr(X=x) = p(x) = N(x; µ, σ) = 2πσ

N(x; µ, σ)

e



(x–µ)2 2σ2

a la forme : N(x; µ, σ)

x µ+σ

µ+σ

µ

La moyenne, µ, est le premier moment de la densité p(x). µ ≡ E{X} =

∫ p(x)·x dx

La variance, σ2 est le deuxième moment de p(x).

σ2 ≡

E{(X–µ)2} =

∫ p(x)·(x–µ)2 dx

Estimation d’un vecteur de variables aléatoires Pour un vecteur de D propriétés →

M

1 µ ≡ E{X} = M ∑

m=1



Xm

  = 

  . . .  D  1 2

=

 E{X 1}   E{X 2}   ...  E{X }  D



Pour X entier, tel que pour chaque d ∈ [1, D], xd ∈ [xdmin, xdmax] on peut démontrer que

1-19

Reconnaissance, Probabilité et la Règle de Bayes

Séance 1

xDmax → 1 x1max E{x d} = M ∑ .... ∑ h(x) xd x1=x1min xD=xDmin

µd ≡

Pour x réel,

µd ≡

E{x d} =

∫ ∫ ... ∫





p(x) ·x d dX

Dans tous les cas : →

µ = E{X}

  = 

  . . .  n  1 2

=

E{x 1} E{x 2}  ...  E{x }  n

Pour D dimensions, la covariance entre les variables xi et x j est estimée à partir →

de M observations {X m}

σij2

≡ E{ (Xi – E{Xi} )(X j – E{Xj})} =

1 M ∑ (X im – µi)(X jm – µj)) M m=1

Et encore, pour éviter le bias, on peut utiliser :

σij2 =

M 1 ∑ M-1 m=1(X im – µi)(X jm – µj))

Ces coefficients composent une matrice de covariance. C →

Cx ≡ E{[X –

Cx ≡















µ)(X – µ)T} = E([X – E{X })(X – E{X }) T}    

σ112 σ212 ... σD12

σ122 σ222 ... σD22

σ1D2 σ2D2 ... σDD2

... ... ...

   



Dans le cas d'un vecteur de propriétés, X, la loi normale prend la forme :

1-20

Reconnaissance, Probabilité et la Règle de Bayes →

p(X)=





N( X ; µ ,C ) =

e

1 D 1 2 (2π) det(C)2

Séance 1 1



– 2(X –





µ)TCx–1(X





µ

)

x1

x2

Le terme

D 1 2 (2π) det(C)2 est un facteur de normalisation.

∫ ∫ ...∫ e



1

– 2(X –





µ)TCx–1(X





µ

)

D 1 dX1 dX2 ... dXD = (2π) 2 det(C)2

La déterminante, det(C) est une opération qui donne la "énergie" de C. Pour D=2

a b det c d  = a·b–c·d

Pour D=3  a b c det  d e f  =  g h i  

e f f d d e a·det h i  + b·det i g  + c· det g h 

= a(ei-fh)+ b(fg-id)+ c(dh-eg) pour D > 3 on continue recursivement. L'exposant est une valeur positive et quadrique. 1 → → T –1 → → (si X est en mètre, 2 (X – µ) Cx (X – µ ) est en mètre2. ) Cette valeur est connue comme la "distance de Mahalanobis". 1-21

Reconnaissance, Probabilité et la Règle de Bayes → 1 → d2(X)= 2 (X –





Séance 1



µ) TCx–1(X – µ )

Il s'agit d'une distance euclidienne, normalisé par la covariance Cx. →

Cette distance est bien définie, même si les composants de X n'ont pas les mêmes unités. (Ceci est souvent le cas). Le premier moment d'une densité est son moyenne (son espérance). La deuxième moment d'une densité est son covariance.

Pour le vecteur d'observations : →



µ = E{X}

 µ1  µ  =  ...2   µ  d

où chaque composant est

→ → µd = ⌠⌡ p(X) ·x i dX =

∞ ∫ x i p(xi)dxi –∞

Les moments sont conservés par les transformations linéaires. La transformation linéaire d'une loi normale et une loi normale. Les moments d'une transformation linéaire d'un jeu de données sont les transformations linéaires des moments de ces jeux de donnée. En conséquence, La distance de Mahalanobis est invariante aux transformations linéaires. Pour matrice T →



T { d2(X )}= d2(T {X } )

1-22

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF