Premiers éléments de statistique I Introduction : le modèle statistique

January 13, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités

Short Description

Download Premiers éléments de statistique I Introduction : le modèle statistique...

Description

Premiers éléments de statistique I

Introduction : le modèle statistique

Jusqu’à présent, la théorie que nous avons considérée s’intéressait à la construction d’un objet abstrait, la probabilité, censée servir à quantifier la manière dont le hasard charge des événements liés à une expérience aléatoire. Mais elle ne nous apprend pas de méthode à suivre pour choisir cette probabilité de la meilleure des façons dans une situation concrète. Le problème de la statistique est précisément celui du choix d’une probabilité en se fondant sur l’observation de résultats de l’expérience aléatoire. Parmi les nombreuses situations possibles, nous nous concentrerons ici sur l’étude de la statistique paramétrique, qui peut se décrire ainsi : on s’intéresse à une expérience aléatoire donnée, pour laquelle on suppose que la loi de probabilité la gouvernant appartient à une famille de probabilités dépendant d’un paramètre θ élément d’un ensemble Θ (en général ce sera un sous ensemble de IR ou de IRp ). On ne connaît pas, a priori, la valeur effective du θ qui convient et le but de l’opération est de déterminer cette valeur θ0 au vu de résultats de l’expérience, supposés numériques (c’est à dire à valeurs dans IR) pour simplifier. Quand on réalise l’expérience, on peut considérer que son résultat constitue une variable aléatoire sur IR de loi Pθ . Pθ est donc ici une probabilité sur IR. Systématiquement, l’espérance d’une variable aléatoire X de l’espace de probabilités (IR, Pθ ) sera notée Eθ (X) et la variance Varθ (X). On réalise alors n fois l’expérience, de façon indépendante, et on donne la définition suivante Définition 1 Un n-échantillon du modèle statistique (Pθ )θ∈Θ est la donnée de n variables aléatoires indépendantes X1 , . . . , Xn de loi Pθ . Le but est alors, étant donné un échantillon, de fabriquer une technique pour choisir un θ ∈ Θ qui ait de bonnes chances d’être la véritable valeur du paramètre inconnu.

II

Estimateurs

Commençons par cette définition très générale Définition 2 Soit (X1 , . . . , Xn ) un n-échantillon du modèle statistique (Pθ )θ∈Θ , et f : Θ → IR. Un estimateur de f (θ) est une fonction ϕ : IRn → IR. Formellement, on dit qu’on estime f (θ) par ϕ(X1 , . . . , Xn ). Naturellement, cette définition d’estimateur est extrêmement vague. Une précision est donnée comme suit Définition 3 L’estimateur ϕ de f (θ) est dit sans biais si, pour tout θ ∈ Θ, Eθ (ϕ(X1 , . . . , Xn )) = f (θ). Dire qu’un estimateur est sans biais (e.s.b.) revient donc à dire que quelle que soit la valeur du paramètre, la moyenne de l’estimateur est égale à f (θ). Remarque : Il peut se trouver que la classe des estimateurs sans biais soit très réduite. Par exemple, si on a un 1-échantillon de la loi B(n, θ) (θ ∈ [0, 1], inconnu), X n est l’unique e.s.b. de θ. Pour mesurer la façon dont un estimateur de f (θ) “s’approche” d’être sans biais, on introduit Définition 4 Soit ϕ un estimateur de f (θ). On appelle risque quadratique de ϕ le réel Rθ (ϕ) = Eθ ([ϕ(X1 , . . . , Xn ) − f (θ)]2 ). 1

On a alors évidemment Proposition 1 Quand ϕ est un e.s.b. de f (θ), on a Rθ (ϕ) = Varθ (ϕ(X1 , . . . , Xn )). On introduit aussi Définition 5 Un estimateur ϕ de f (θ) est dit sans biais de variance minimum (e.s.b.v.m.) s’il est sans biais et si, pour tout e.s.b. ψ de f (θ), on a Rθ (ϕ) = Varθ (ϕ) ≤ Rθ (ψ) = Varθ (ψ).

III

Moyenne et variance empirique

Une situation classique est la suivante. Soit µ une loi de probabilités sur IR possédant une espérance m et une variance σ 2 . Si on suppose que m et σ 2 sont inconnues, cela rentre dans le cadre d’un modèle de statistique paramétrique où la loi appartient formellement à une famille de lois (pm,σ2 )(m,σ2 )∈IR×IR+ . Définition 6 Soit (X1 , . . . , Xn ) un n-échantillon de la loi µ. (i) La moyenne empirique est l’estimateur de m X=

X1 + . . . + Xn . n

(ii) La variance empirique est l’estimateur de σ 2 n

S2 =

1 X (Xk − X)2 . n−1 k=1

On a Proposition 2 X et S 2 sont des e.s.b. respectivement de m et σ 2 .

IV

Maximum de vraisemblance

Supposons que l’expérience aléatoire à laquelle on s’intéresse soit le fait de lancer une pièce biaisée, mais qu’on ignore comment elle a été truquée. Plus exactement, on sait que la pièce est déséquilibrée de telle sorte que l’on soit dans l’une des deux situations (mais on ignore laquelle) (i) probabilité d’amener face = 0,9 (ii) probabilité d’amener pile = 0,9 On jette la pièce qui amène face. On va “naturellement” privilégier l’hypothèse (i). Ce qu’on a fait, c’est peser la vraisemblance des deux hypothèses et (i) a semblé plus vraisemblable au vu du résultat. Systématisons cette méthode dans le cadre où le modèle statistique (Pθ )θ∈Θ est donné par des lois Pθ sur IN . Définition 7 La fonction de vraisemblance du modèle est Lθ (k1 , . . . , kn ) =

n Y

Pθ (ki ).

j=1

On a donc Lθ (k1 , . . . , kn ) = Pθ (X1 = k1 , . . . , Xn = kn ) quand (X1 , . . . , Xn ) est un n-échantillon du modèle. 2

ˆ 1 , . . . , kn ) tel que pour tout (k1 , . . . , kn ) ∈ Définition 8 Un estimateur du maximum de vraisemblance de θ est θ(k n IN , Lθ(k ˆ 1 ,...,kn ) (k1 , . . . , kn ) = sup Lθ (k1 , . . . , kn ). θ∈Θ

Pour le trouver, on procède en général comme suit : on pose `θ (k1 , . . . , kn ) = ln Lθ (k1 , . . . , kn ) =

n X

ln Pθ (ki ).

j=1 ∂ `θ (k1 , . . . , kn ) = 0 et on vérifie, parmi ces valeurs, lesquelles correspondent On cherche alors les θˆ tels que ∂θ à des maxima. Par exemple, si X1 , . . . , Xn est un échantillon de la loi de Poisson P(θ), on montre que X est un estimateur du maximum de vraisemblance de θ.

3

Premiers éléments de statistique I Introduction : le modèle statistique

Short Description

Description

Comments

We need your help!