Acrobat

January 17, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Acrobat...

Description



M. Ingenbleek 1997-1998

  

1 Introduction..............................................................................................................1-1 Un peu d'histoire............................................................................................................1-1 Survol méthodologique .................................................................................................1-2 Les étapes d'une analyse statistique...............................................................................1-2 Collecte des données..................................................................................................1-3 Analyse des données ..................................................................................................1-3 Inférence et conclusion ..............................................................................................1-3 Remarque...................................................................................................................1-3 Rappels mathématiques .............................................................................................1-4 2 Distribution des fréquences et diagrammes ..........................................................2-1 Distribution des fréquences ...........................................................................................2-1 Fonction de répartition ..................................................................................................2-6 Autres représentations ...................................................................................................2-7 3 Quantiles...................................................................................................................3-1 Introduction ...................................................................................................................3-1 Définition ......................................................................................................................3-3 Quartiles et déciles ........................................................................................................3-3 4 Mesures de tendance centrale.................................................................................4-1 Introduction ...................................................................................................................4-1 Quelques mesures de tendance centrale ........................................................................4-1 La moyenne arithmétique ..........................................................................................4-1 La moyenne harmonique............................................................................................4-2 La moyenne géométrique...........................................................................................4-2 La médiane.................................................................................................................4-2 Le mode .....................................................................................................................4-2 Propriétés.......................................................................................................................4-3 Propriété caractéristique de la moyenne arithmétique ...............................................4-3 Première propriété commune à toutes les mesures....................................................4-3 Deuxième propriété commune...................................................................................4-3 Relation entre la moyenne et la médiane ...................................................................4-4 5 Mesures de dispersion .............................................................................................5-1 Introduction ...................................................................................................................5-1 Quelques mesures de dispersion....................................................................................5-1 L'étendue....................................................................................................................5-1 L'intervalle inter-quartile ...........................................................................................5-1 L'écart moyen absolu .................................................................................................5-2 La variance.................................................................................................................5-2 L'écart-type ................................................................................................................5-2

M. Ingenbleek 1997-1998

Propriétés.......................................................................................................................5-2 Propriété de la variance..............................................................................................5-2 Première propriété commune aux mesures de dispersion..........................................5-3 Deuxième propriété commune...................................................................................5-3 6 Tableaux de contingence et mesures de dépendance............................................6-1 Introduction ...................................................................................................................6-1 Tableau de contingence .................................................................................................6-1 Première mesure de dépendance  ................................................................................6-3 Calcul pratique...........................................................................................................6-4 Deuxième mesure de dépendance ...............................................................................6-5 Calcul pratique...........................................................................................................6-6 Remarques ...............................................................................................................6-10 Mesure de dépendance entre deux variables ordinales ou cardinales: Rs ...................6-10 7 Diagramme de Pareto et indice de concentration .................................................7-1 Diagramme de Pareto ....................................................................................................7-1 Indice de concentration de Gini.....................................................................................7-2 8 Principales distributions .........................................................................................8-1 Introduction ...................................................................................................................8-1 Lois de probabilité servant à la modélisation ................................................................8-1 Loi binomiale - B(n,p) ...............................................................................................8-2 Binomiale négative ....................................................................................................8-3 Loi de Poisson - ().................................................................................................8-4 Loi normale - N(m,) ................................................................................................8-4 Loi log-normale .........................................................................................................8-5 Loi de Pareto..............................................................................................................8-6 Loi exponentielle .......................................................................................................8-6 Lois utilisées dans les calculs statistiques .....................................................................8-7 Loi normale................................................................................................................8-7 Loi Chi-carrée à n degrés de liberté ...........................................................................8-7 Loi t de Student à n degrés de liberté.........................................................................8-8 Loi de F de Fisher à nl et n2 degrés de liberté ............................................................8-8 Distribution du coefficient de corrélation de Spearmann ..........................................8-9 9 Estimation: principes...............................................................................................9-1 Introduction ...................................................................................................................9-1 Propriété d'un estimateur ...............................................................................................9-1 Estimation convergente..............................................................................................9-1 Estimation sans biais..................................................................................................9-2 Estimation efficace ....................................................................................................9-2 Principe de maximum de vraisemblance.......................................................................9-3 Première étape............................................................................................................9-3 Deuxième étape .........................................................................................................9-3

M. Ingenbleek 1997-1998

Exemple.........................................................................................................................9-4 La fréquence des catastrophes ...................................................................................9-4 Le montant des dommages ........................................................................................9-6 Méthode des moindres carrés ........................................................................................9-9 Intervalle de confiance ..................................................................................................9-9 10 Estimations d'une population normale................................................................10-1 Premier cas: m inconnu,  connu ................................................................................10-1 Estimation ................................................................................................................10-1 Propriétés .................................................................................................................10-2 Intervalle de confiance au niveau  .........................................................................10-3 Exemple chiffré .......................................................................................................10-4 Deuxième cas: m inconnu,  inconnu .........................................................................10-4 Estimations ..............................................................................................................10-5 Propriétés .................................................................................................................10-5 Intervalle de confiance au niveau  pour m.............................................................10-7 Intervalle de confiance au niveau  pour ² ............................................................10-9 Exemple chiffré .......................................................................................................10-9 11 Estimation d'une proportion ................................................................................11-1 Introduction .................................................................................................................11-1 Estimation....................................................................................................................11-1 Etape 1 .....................................................................................................................11-1 Etape 2 .....................................................................................................................11-1 Propriété ......................................................................................................................11-2 Intervalle de confiance au niveau a .............................................................................11-2 Exemple chiffré ...........................................................................................................11-3 Remarques ...................................................................................................................11-4 12 Estimation de la différence entre 2 moyennes.....................................................12-1 Introduction .................................................................................................................12-1 Propriété ......................................................................................................................12-1 Intervalle de confiance au niveau  pour m1-m2 .........................................................12-2 Exemple chiffré ...........................................................................................................12-2 13 Test d'hypothèses: principes.................................................................................13-1 Introduction .................................................................................................................13-1 Hypothèse nulle, contre-hypothèse et test ...................................................................13-1 Risque de première et de deuxième espèce .................................................................13-2 14 Test sur une proportion.........................................................................................14-1 Test d'hypothèse ..........................................................................................................14-1 Puissance du test sur une proportion ...........................................................................14-2 15 Test d'égalité de 2 moyennes.................................................................................15-1 Echantillons indépendants...........................................................................................15-1

M. Ingenbleek 1997-1998

Conditions d'application ..........................................................................................15-1 Exemple ...................................................................................................................15-1 Distribution de U sous Ho .......................................................................................15-3 Exemple numérique .................................................................................................15-4 Echantillons appariés...................................................................................................15-4 Conditions d'application ..........................................................................................15-4 Statistique de Wilcoxon...........................................................................................15-5 Distribution de T sous Ho........................................................................................15-5 Exemple numérique .................................................................................................15-6 16 Test d'ajustement...................................................................................................16-1 Introduction .................................................................................................................16-1 Distribution discrète et complètement spécifiée .........................................................16-1 Exemple chiffré .......................................................................................................16-2 Distribution continue et complètement spécifiée ........................................................16-2 Exemple chiffré .......................................................................................................16-3 Cas général ..................................................................................................................16-3 Exemple chiffré .......................................................................................................16-4 17 Test d'indépendance entre 2 variables nominales ..............................................17-1 Introduction .................................................................................................................17-1 CHI-CARRE ...............................................................................................................17-1 Test au niveau  ..........................................................................................................17-2 Exemple chiffré ...........................................................................................................17-2 18 Test d'indépendance entre 2 variables ordinales................................................18-1 Rappel..........................................................................................................................18-1 Distribution exacte de RS sous H0..............................................................................18-2 Distribution asymptotique ...........................................................................................18-3

M. Ingenbleek 1997-1998

Introduction

1

 

     A l'origine, l'activité statistique semble avoir été le fait de chefs d'états désireux de connaître des éléments de puissance de leur état: population, potentiel militaire, richesses, ... Quelle meilleure connaissance que celle issue de l'observation systématique de tous les éléments de la société ? L'idée d'un recensement apparaît donc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité. Les plus anciens recensements connus sont sumériens (5000 à 2000 ans avant J.-C.). On procédait régulièrement en Mésopotamie au relevé des personnes et des biens (3000 ans avant J.-C.). L'Egypte semble avoir été la première nation à organiser des recensements annuels à finalité fiscale (2700 à 2500 avant J.-C.). En ce temps-là, comme aujourd'hui, les déclarations des sources de revenus n'étaient pas faites sans réserves, mais les "oublis" des déclarants provoquaient leur condamnation à mort ! Jusqu'au 17e siècle les recensements seront effectués sans remettre en cause le principe de cette démarche. Remplacer une connaissance exhaustive par une extrapolation fondée sur l'examen d'une partie de la population est une attitude qui ne trouvera d'éléments de justification qu'à l'apparition des premiers résultats de probabilités autorisant une analyse (quantitative et qualitative) de l'erreur. Ainsi, au 17e siècle, VAUBAN, désireux de dresser un tableau de l'économie agricole de la France, fait observer un échantillon de terres arables dans chaque province. Dans la seconde moitié du 18e siècle, MESSANGE, MOHEAU puis LAPLACE estiment la population totale de la France avec une précision meilleure que celle du recensement de l'époque. La méthode utilisée est fondée sur l'hypothèse d'un rapport constant entre la population et le nombre annuel de naissances: ce rapport, une fois mesuré, donne la population par une simple multiplication avec le nombre de naissances, nombre suffisamment fiable à l'époque. En 1800, F. MORTON EDEN estime la population de la Grande-Bretagne à 9 millions d'habitants, chiffre qui sera confirmé en tous points par les résultats du recensement de 1801. La méthode utilisée par MORTON EDEN, bien que confirmée par les faits, nous semble avec le recul bien surprenante puisque basée sur l'hypothèse d'un rapport constant entre la population et le nombre de ... cheminées ! Statistiques

Page 1-1

Introduction

Néanmoins, au 19e siècle, le comportement des statisticiens reste généralement régi par le souci d'exhaustivité, sous prétexte de rigueur. Cette thèse est, entre autres, ardemment défendue par QUETELET. Il faut attendre 1895 pour que le terme "échantillon représentatif" soit utilisé pour la première fois par A. KIAER lors d'une réunion de l'Institut International de Statistique, à Berne. Pour terminer ce petit tour d'horizon d'histoire événementielle, citons une date sans importance dans l'évolution des concepts statistiques mais qui peut frapper l'imagination: en 1935, l'Institut GALLUP entre en fonction ...

   Les sondages d'opinion sont suffisamment habituels pour qu'ils nous servent de point de départ à ce survol méthodologique: chacun sait que plusieurs questions concernant un sujet d'actualité sont posées à un échantillon de personnes; on résume les réponses données en les présentant sous forme de pourcentages de graphiques de pourcentages par région, par groupe sociologique, etc.; ces résumés sont censés être voisins de ceux qu'on obtiendrait si on questionnait l'ensemble de la population et non pas une fraction de celle-ci. Cette démarche qui paraît si habituelle (ou naturelle) ne doit pas faire oublier les problèmes méthodologiques (et pratiques) qu'elle pose:

 quelles questions poser ?  dans quels termes les poser (des réponses sous forme qualitative du genre "bon moyen - mauvais" apparaissant dans un questionnaire donneraient-elles les mêmes résultats si les trois niveaux de qualités étaient appelés “excellent correct - lamentable" ) ?  combien de personnes interroger ?  comment choisir les personnes de manière à ne pas orienter le résultat, de manière à ce que les conclusions apportées puissent être étendues à la population entière ?  comment déterminer la marge de fluctuation, la marge d'erreurs, la fourchette sur les résultats une fois étendus de l'échantillon à la population entière ?

         L'évocation des sondages dégage les étapes parcourues dans la majorité des analyses statistiques.

Statistiques

Page 1-2

Introduction

 

 Point de départ de l'analyse statistique, les observations brutes sont obtenues au terme d'un processus plus au moins laborieux: enquêtes, mesures expérimentales, compilations d'archives, ... Les problèmes posés par la collecte des données (protocoles, nombres d'individus ou de mesures, etc.) ne sont pas abordés par le cours; ils n'en sont pas moins importants dans la pratique.



  

 Avant d'apporter des réponses définitives aux questions initiales qui ont motivé l'analyse statistique, il faut bien sûr examiner les données recueillies.

 Un examen préliminaire à vue des données, des tableaux de nombres sommaires ne doit pas être considéré comme une tâche indigne d'un statisticien: il permet de se familiariser avec les ordres de grandeur, des détecter parfois des erreurs d'encodage (un logiciel statistique peut être aveugle à ce genre d'erreur), de répondre à des questions immédiates, ... Cet examen ne fonde pas avec certitude une opinion, mais il faut connaître le matériel avec lequel on va travailler.  Les procédures statistiques (sur lesquelles porte une bonne partie du cours) permettent de condenser les observations au travers de nombres ou de graphiques (souvent appelés statistiques). L'objectif commun à toutes ces procédures est de fournir une meilleure intelligibilité des données: que cette condensation soit faite sans perte, d'information ou avec perte d'information (comme c'est le plus souvent le cas). Il est naturel d'essayer une procédure puis l'autre, de revenir à la première, etc.  Les procédures utilisées sont de nature descriptive; si les données sont présentées sous ces aspects multiples, elles ne permettent pas d'étendre les résultats de l'échantillon à la population entière; cette extension implique un risque d'erreur.

     

Une simple description des données ne suffit pas en général: on souhaite mesurer le risque d'erreur inhérent à toute inférence c'est-à-dire à toute extension des résultats de l'échantillon à la population entière. Une partie du cours est consacrée à expliciter la nature du risque d'erreur et aux techniques permettant d'évaluer ce risque.

  La population apparaissant dans l'exemple du sondage est une population physique dont l'existence est bien réelle; mais les procédures d'inférence sont d'application dès le moment où on dispose d'une suite de valeurs observées, que ces valeurs soient effectivement des réponses fournies par des individus d'un échantillon ou que ces valeurs soient les résultats de mesures expérimentales par exemple. Dans ce dernier cas, la population n'existe pas réellement, elle devient une notion abstraite (exemple:

Statistiques

Page 1-3

Introduction le nombre de tempêtes par an): on peut imaginer que la population est l'ensemble des mesures expérimentales possibles, tout se passant comme si ces mesures étaient rassemblées et que l'expérience réalisée consistait à en prendre quelques unes au "hasard". Il est évident que ces notions sont parfaitement formalisées de manière à fonder avec rigueur les méthodes statistiques; nous n'insisterons pas sur cet aspect des statistiques et nous nous contenterons d'une vue simplifiée.

          

 On appelle variables nominales des variables prenant des valeurs sur lesquelles on ne peut faire ni des opérations arithmétiques, ni des comparaisons (en grandeur), comme par exemple une variable "classe sociale", une variable "sexe", etc. L'échelle nominale est utilisée pour représenter des variables dont les catégories ne sont pas naturellement ordonnées. En général, ces catégories sont représentées, pour simplifier la codification, par des nombres. Exemples:  l'état civil  le sexe    

 On appelle variables ordinales des variables prenant des valeurs sur lesquelles on peut effectuer un classement, comme par exemple un classement de préférence, un classement par juge, etc. L'échelle ordinale est utilisée pour représenter des variables dont les catégories sont ordonnées. Les différentes classes ou valeurs particulières sont en relation les unes par rapport aux autres. Cette relation peut s'exprimer en termes d'algèbre des inégalités; par exemple par des expressions: plus grand que, plus rapide que, moins riche que. Les valeurs particulières d'une telle échelle sont non-quantitatives. Ils indiquent uniquement une position dans une série ordonnée et non l'importance de la différence qui existe entre 2 positions successives de l'échelle. Exemple:  aimer pas du tout/moyennement/beaucoup     

 On appelle variables cardinales des variables prenant des valeurs sur lesquelles on peut effectuer des opérations arithmétiques (addition, soustraction, multiplication, division) et des classements. Exemples:  salaire  distance

Statistiques

Page 1-4

Introduction       On appelle variables continues (cardinales) des variables prenant des valeurs qui peuvent être arbitrairement proches les unes des autres. L'échelle continue est une échelle sur laquelle il existe, entre 2 valeurs adjacentes, une infinité de valeurs. La mesure d'une variable continue est toujours approximative. Exemples:  taille  masse  vitesse  longueur  temps      Une variable qui prend un ensemble discret ou discontinu de valeurs. Sur de telles échelles où l'intervalle entre 2 valeurs consécutives est fixe et constant, on peut dire que la mesure faite est toujours exacte. Exemples:  nombre de globules blances au centimètre carré  nombre d'enfants par famille    

Rappelons l'usage du signe de sommation: n

X 1  X 2  X 3... Xn   Xi i 1

Dans le cas particulier où les X1, X2,... sont égaux à une même quantité X, on trouve: n

X

i

 n. X

i 1

Un simple calcul montre que: n

n

 ( X  a)   X  n. a i

i

i 1

i 1

n

n

 (c. X )  c.  X i

i 1

Statistiques

i

i 1

Page 1-5

Distribution des fréquences et diagrammes

2

        

   

         On considère une variable nominale ou discrète, par exemple l'âge d'un individu (variable discrète), le sexe d'un individu (variable nominale), sa région d'habitation (variable nominale),... En regard de chaque valeur possible pour cette variable, on porte le nombre d'individus de l'échantillon qui ont cette valeur. Par exemple, voici un échantillon de 88 patients atteints d'une maladie spécifique; pour chacun de ces patients le service médical a attribué un degré de sévérité de la maladie, ce degré de sévérité est compris entre 1 et 4 (il s'agit bien d'une variable discrète, on peut même la qualifier d'ordinale). D'autres variables ont été prélevées: le nombre de jours passés à l'hôpital (DUJ), l'âge (AGE), le résultat de 6 tests (CARDIO, DOO, RXTH, RESPI, CUT, BIO tous codés par des chiffres.). 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

DUJ

SEV

AGE

CARDIO

DOO

RXTH

RESPI

CUT

9 5 3 11 7 9 13 12 19 29 16 13 21 30 25 11 7 20 11

3 3 2 2 1 1 3 1 3 2 3 2 3 3 2 2 2 3 1

91 83 82 81 80 80 79 79 78 78 76 76 75 74 74 73 73 73 72

0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

0 3 3 1 3 3 3 3 3 3 3 3 3 3 2 2 3 0 3

3 0 2 2 2 1 3 2 2 2 2 2 2 2 1 2 2 3 1

0 3 2 0 0 0 2 0 3 0 2 2 3 3 0 2 0 0 0

0 2 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Statistiques

BIO

7 1 1 2 1 1 3 1 4 2 3 1 2 2 2 1 2 2 2

Page 2-1

Distribution des fréquences et diagrammes

20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67

DUJ

SEV

AGE

CARDIO

DOO

RXTH

RESPI

CUT

11 3 2 11 12 16 12 15 22 15 16 11 12 16 8 22 15 12 22 11 16 14 14 14 8 11 14 13 7 12 17 21 14 12 13 11 16 6 12 13 16 22 14 12 23 3 11 28

1 2 1 3 2 2 3 1 3 1 2 2 2 3 2 2 3 1 1 1 1 1 1 1 1 1 1 3 2 1 1 3 3 2 3 2 1 1 1 1 2 2 1 3 1 1 1 1

72 72 72 71 71 71 70 70 69 69 69 66 66 66 65 65 65 65 65 65 63 63 63 62 62 61 60 60 60 60 60 59 58 58 58 57 57 56 56 56 56 55 55 55 54 53 53 53

1 0 1 1 1 2 1 1 1 1 2 1 1 1 1 2 2 1 1 1 1 1 1 1 1 1 2 2 2 1 1 3 3 1 1 2 1 1 1 1 2 3 1 1 1 1 1 1

3 0 0 3 3 3 3 3 3 0 3 3 0 3 3 0 3 3 0 3 2 3 3 0 3 3 0 3 3 0 3 3 3 0 3 0 0 3 3 3 0 0 0 3 0 0 0 3

1 2 1 1 2 2 2 2 0 1 2 1 2 1 2 2 0 1 1 2 1 1 1 0 1 1 1 1 1 1 1 2 2 1 1 2 1 1 1 1 1 2 1 1 1 0 1 1

0 2 0 0 0 0 0 0 3 0 0 2 0 3 2 2 2 0 0 0 0 0 0 0 0 0 0 2 1 0 0 2 0 2 0 0 2 0 0 0 0 2 2 0 2 0 0 2

0 0 0 0 0 2 0 0 2 0 0 0 2 0 2 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2 0 0 0 0 0 0 2 0 0 0 0 0 2 0

Statistiques

BIO

4 1 1 3 2 2 3 1 1 4 2 2 2 2 1 3 3 2 2 1 1 1 4 1 1 2 1 3 2 2 1 4 1 2 3 1 1 1 2 2 1 2 3 3 1 1 1 1

Page 2-2

Distribution des fréquences et diagrammes

68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88

DUJ

SEV

AGE

CARDIO

DOO

RXTH

RESPI

CUT

13 18 11 13 3 6 11 12 10 15 12 12 19 14 15 15 10 9 8 7 8

3 1 1 2 3 4 1 2 3 1 2 1 4 1 2 3 2 2 1 3 1

52 52 52 52 51 51 51 51 51 50 50 49 49 49 49 48 46 44 43 40 38

1 1 1 1 3 4 1 2 2 1 1 1 4 4 2 1 1 1 1 1 1

3 0 0 2 0 0 2 3 3 3 0 0 3 3 0 3 0 0 0 3 3

1 1 1 1 0 2 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1

2 0 0 2 0 0 0 2 0 0 0 0 0 0 0 0 2 2 0 0 0

2 0 2 0 0 0 0 0 2 0 0 0 0 2 2 0 2 0 0 0 0

BIO

3 3 4 2 3 4 4 4 3 4 2 1 4 1 4 3 1 2 1 3 1

Telles quelles, les données ne peuvent être facilement interprétées. Comment se répartissent les degrés de sévérité? Pour le savoir on porte en regard de chaque degré le nombre de patients qui ont ce degré: 1 : 37 2 : 26 3 : 23 4:2 Mais il ne faut pas oublier que le nombre en face de chaque degré est un nombre absolu (fréquence absolue): 37 sur 88 patients, 26 sur 88 etc.; donner ce tableau sans le préciser n'a guère de sens; on préfère donc donner en plus le pourcentage (fréquence relative): 37 sur 88 ou 42.05%. Pour être plus parlant, on trace une barre horizontale (ou verticale) dont la longueur est proportionnelle au pourcentage.

Statistiques

Page 2-3

Distribution des fréquences et diagrammes

Diagramme des fréquences absolues

2

4

3

SEV

23

2

26

1

37

0

5

10

15

20

25

30

35

40

Nbre patients

On pourrait se poser la question suivante: "dans l'échantillon 42.05% des individus ont une gravité 1, ce pourcentage se modifie-t-il suivant les résultats du test BIO?" Pour tenter de répondre à cette question, on peut reproduire le graphique précédent pour chaque valeur de la variable BIO (c’est-à-dire pour chaque résultat du test BIO): Diagramme des fréquences absolues par valeur de SEV

7

BIO

4

4 3 2 1

3

2

1

0

5

10

15

20

25

Nbre patients

Il semble bien qu'au sein de l'échantillon la réponse soit positive; pour étendre cette réponse au sein de la population, il faut quitter le domaine des statistiques descriptives et se tourner vers le chapitre consacré à l'inférence. Statistiques

Page 2-4

Distribution des fréquences et diagrammes

On présente souvent de tels graphiques verticalement: voilà ce qu'il donne pour la variable AGE: Diagramme des fréquences absolues 7

6

5

4

3

2

1

98

96

94

92

90

88

86

84

82

80

78

76

74

72

70

68

66

64

62

60

58

56

54

52

50

48

46

44

42

40

38

0

Age

A l'aide d'un tel graphique, on voit clairement comment se distribuent les fréquences relatives (graphique de la distribution des fréquences en "tuyau d'orgue" ou histogramme des fréquences). Le graphique est encore plus parlant lorsqu'on groupe les valeurs prises par la variable AGE:

Statistiques

Page 2-5

Distribution des fréquences et diagrammes

Diagramme des fréquences absolues Données groupées 16

14

12

10

8

6

4

2

0

[ -44]

[45-49]

[50-54]

[55-59]

[60-64]

[65-69]

[70-74]

[75-79]

[80- ]

Classes d'âges

Densité des fré quences 

fré quence é tendue

En partant d'une distribution des fréquences (relatives) regroupées en classe, on définit la densité des fréquences c’est-à-dire la proportion de la distribution par unité d'étendue de la classe; la densité des fréquences est donc un quotient: fréquence divisée par une étendue. Si on se donne une densité de fréquence, on retrouve les effectifs en multipliant la densité (l'ordonnée) par l'étendue (l'abscisse): ainsi dans le cas des densités des fréquences, ce sont les aires qui représentent des effectifs et non les ordonnées.

       Soient Xl, X2, X3,... ,Xn, les n valeurs observées d'une variable ordinale (ou ordinale ou moins). La fonction de répartition Fn(x) (x réel quelconque) est la fonction définie par: Fn( x ) 

nbreXi n

 X

C'est une fonction en escalier dont les marches sont situées aux points Xi (i=1,2,...,n) et dont la hauteur des marches est le nombre de Xi plus petits ou égaux à x divisé par n. Cette fonction dont le rôle théorique est fondamental "parle" moins que la distribution des fréquences. Statistiques

Page 2-6

Distribution des fréquences et diagrammes

La dernière colonne du tableau suivant donne la valeur de la fonction de répartition aux points Xi (Xl = l, X2 = 2, X3 = 3 et X4 = 4 seules valeurs distinctes observées) de la variable SEV de l'exemple précédent (la première colonne reprend les fréquences absolues, la 2e ces fréquences cumulées, la 3e les fréquences relatives (en pourcent) et la 4e ces fréquences cumulées ou la fonction de répartition):

SE V 1 2 3 4

Fréq. abs. 37 26 23 2

Fréq. abs. cum.

Fréq. rel. 42.05 29.55 26.14 2.27

37 63 86 88

Fréq. rel.cum. 42.05 71.59 97.73 100.00

Voici une représentation de la fonction de répartition pour la variable AGE: Diagramme des fréquences relatives cumulées ou fonction de répartition 120.0%

100.0%

80.0%

60.0%

40.0%

20.0%

0.0% 38

48

58

68

78

88

98

108

Age

      Il existe bien d'autres représentations que celle des diagrammes en "tuyau d'orgues", comme celle-ci donnant la répartition des valeurs de DUJ au sein de l'échantillon sous forme de "quartier de tarte":

Statistiques

Page 2-7

Distribution des fréquences et diagrammes Répartition des valeurs de DUJ Duj 3 5% Autres 17%

Duj 6 3% Duj 7 5% Duj 8 3% Duj 9 3%

Duj 22 5%

Duj 11 14%

Duj 16 8%

Duj 15 7%

Duj 12 14%

Duj 14 8% Duj 13 8%

Il est impossible de citer tous les graphiques possibles: diagrammes en ascenseurs, en building, nuages de points, etc.

Statistiques

Page 2-8

Quantiles

3

  

  On voudrait pouvoir répondre à des questions du type:

 "en Belgique, une personne sur 2 a moins de quel âge?"  “9 personnes sur 10 ont moins de quel âge?" Reprenons l'exemple du chapitre 2 pour voir comment répondre à ces deux questions. Dressons le tableau des fréquences absolues, des fréquences relatives exprimées en %, les fréquences absolues cumulées et les fréquences relatives cumulées exprimées en % (ou la fonction de répartition).

Statistiques

Page 3-1

Quantiles Age Fréquences Fréquences Fréquences Fréquences absolues relatives absolues relatives cumulées cumulées 38 1 1.1% 1 1.1% 40 1 1.1% 2 2.3% 43 1 1.1% 3 3.4% 44 1 1.1% 4 4.5% 46 1 1.1% 5 5.7% 48 1 1.1% 6 6.8% 49 4 4.5% 10 11.4% 50 2 2.3% 12 13.6% 51 5 5.7% 17 19.3% 52 4 4.5% 21 23.9% 53 3 3.4% 24 27.3% 54 1 1.1% 25 28.4% 55 3 3.4% 28 31.8% 56 4 4.5% 32 36.4% 57 2 2.3% 34 38.6% 58 3 3.4% 37 42.0% 59 1 1.1% 38 43.2% 60 5 5.7% 43 48.9% 61 1 1.1% 44 50.0% 62 2 2.3% 46 52.3% 63 3 3.4% 49 55.7% 65 6 6.8% 55 62.5% 66 3 3.4% 58 65.9% 69 3 3.4% 61 69.3% 70 2 2.3% 63 71.6% 71 3 3.4% 66 75.0% 72 4 4.5% 70 79.5% 73 3 3.4% 73 83.0% 74 2 2.3% 75 85.2% 75 1 1.1% 76 86.4% 76 2 2.3% 78 88.6% 78 2 2.3% 80 90.9% 79 2 2.3% 82 93.2% 80 2 2.3% 84 95.5% 81 1 1.1% 85 96.6% 82 1 1.1% 86 97.7% 83 1 1.1% 87 98.9% 91 1 1.1% 88 100.0%

On lit dans ce tableau que, par exemple:  il y a 1 personne ayant 48 ans soit 1.1% de l'échantillon  il y a 6 personnes ayant moins de 48 ans soit 6.8% de l'échantillon  il y a 3 personnes ayant 53 ans (soit 3.4% de l'échantillon)  il y a 24 personnes ayant moins de 53 soit 27.3% de l'échantillon. Pour déterminer l'âge A tel qu'il y ait une personne sur 2 soit 50% de l'échantillon ayant moins de A ans, cherchons l'âge pour lequel on a 50% dans la dernière colonne; on trouve A=61 ans ce qui répond à la première question. Pour répondre à la deuxième question, cherchons dans la dernière colonne 90%. A 76 ans on a 88.6% et à 78 ans on a 90.9%; la réponse est donc un âge entre 76 et 78

Statistiques

Page 3-2

Quantiles ans, mais l'échantillon ne permet pas de répondre plus précisément (non unicité de la réponse); pour donner toutefois une seule réponse (un seul âge), on a coutume d'interpoler linéairement entre 76 et 78 ans; A  76  2 

(90.0  88.6)  77.2ans (90.9  88.6)

On voit que pour répondre à des questions du type étudié, il faut "inverser" la fonction de répartition (en levant les indéterminations éventuelles).

    Grosso-modo, on veut définir une valeur Qp de la variable qui partage l'échantillon en deux parties: la première partie contient ceux qui ont une valeur de la variable inférieure à Qp, cette partie contenant p% des individus, et la deuxième contient ceux dont la variable est supérieure à Qp, cette partie contenant (1-p)% des individus. Qp est un quantile d'ordre p (0  p  1) si: Nbre Xi  Qp Nbre Xi  Qp  p n n Les quantiles sont des mesures de position qui ne tentent pas de déterminer le centre d'une distribution d'observations, mais de décrire une position particulière. Cette notion est une extension du concept de la médiane (qui divise une distribution d'observations en 2 parties). Le calcul des quantiles n'a de sens que pour une variable quantitative pouvant prendre des valeurs sur un intervalle déterminé.



  

    Les quartiles divisent l'ensemble des observations en 4 parties. Les cas particuliers p = 25%, p = 50%, p = 75% définissent les quartiles; le deuxième quartile (p = 50%) est appelé la médiane. Il y a 1 individu sur 2 dont la valeur de la variable est comprise entre Q25 et Q75. Les déciles divisent l'ensemble des observations en 10 parties. Les cas particuliers p = 10%, p = 20%, .... p = 90% définissent les déciles.

Statistiques

Page 3-3

Mesures de tendance centrale

4

!       

  Une mesure de tendance centrale permet de résumer un ensemble de données relatives à une variable quantitative. Plus précisément, elle permet de déterminer une valeur fixe, appelée valeur centrale, autour de laquelle l'ensemble des données à tendance à se rassembler. Supposons que les valeurs observées X1, X2,...; Xn soient cardinales et reportons-les sur un axe: --+-------*--*-*-*-***--*---------------------> Intuitivement et à l'oeil, on situerait le "centre" de ces points: --+-------*--*-*-*O***--*---------------------> Comment traduire cette intuition à l'aide d'une expression liant les X1, ..., Xn ?



          

 

   La moyenne arithmétique est définie par l'expression suivante: n

X 1  X 2 ... Xn X  n

X

i

i 1

n

La moyenne arithmétique:  dépend de la valeur de toutes les observations  est fréquemment utilisée comme estimateur de la moyenne de la population  peut voir sa valeur faussée par des données aberrantes

Statistiques

Page 4-1

Mesures de tendance centrale

 la somme des écarts au carré entre chaque observation Xi d'un ensemble de données et une valeur  est minimale lorsque  est égale à la moyenne arithmétique. n

min  ( X i   ) 2   moyenne arithmétique  i 1

 

   La moyenne harmonique est définie par l'expression suivante: mh 

n n

1

i 1

i

 x

Exemple d'utilisation: calcul de la vitesse moyenne

 

   La moyenne géométrique est définie par l'expression suivante: mg  n

n

(1  X )  1

 i

i 1

 n (1  X 1 ).(1  X 2 )....(1  X n )  1 Exemple d'utilisation: taux de croissance moyen

    La médiane est:

   

le deuxième quartile Q50 est facile à déterminer puisqu'elle n'exige qu'un classement des données n'est pas influencée par des observations aberrantes est utilisée comme estimateur de la valeur centrale d'une distribution notamment lorsque celle-ci est asymétrique ou qu'elle comporte des données aberrantes  la somme des écarts en valeur absolue entre chaque observation Xi d'un ensemble de données et une valeur  est minimale lorsque  est égale à la médiane. n

min  X i     mé diane  i 1

 Le mode est:

 la valeur observée la plus fréquente

Statistiques

Page 4-2

Mesures de tendance centrale

 on remarque que le mode n'est pas toujours univoquement défini: il peut y avoir zéro ou plusieurs modes dans un ensemble de données

"          



  L'écart de chaque observation Xi à la moyenne X est Xi  X ; cet écart est tantôt positif, tantôt négatif, plus ou moins grand suivant la valeur de Xi, mais la propriété qui caractérise X ( X est la seule quantité qui en jouit) est que la somme de ces écarts est nulle: ( X 1  X )  ( X 2  X ) ... ( Xn  X )  0 n

 ( X

i

 X)  0

i 1

La démonstration de cette propriété est simple.

        Que devient le "centre" de la distribution déterminé à l'œil, si on effectue un changement d'origine, ou une translation ou si on rajoute une constante identique à toutes les observations ? Intuitivement, le "centre" de la distribution doit "suivre" la transformation (changement d'origine ou translation) car celle-ci ne perturbe pas la position relative des points observés. On peut vérifier facilement que les trois mesures de tendance centrale introduites vérifient cette propriété: si Yi = Xi + B alors la mesure de tendance centrale des Yi est égale à celle des Xi plus B.

!"    On peut se poser la même question avec un changement d'échelle, un changement d'origine. On vérifie que si Yi = A * Xi alors la mesure de tendance centrale des Yi est égale à celle des Xi multiplié par A. Pour résumer ces deux propriétés: "on peut effectuer un changement d'origine ou un changement d'unité puis calculer une mesure de tendance centrale ou, de manière

Statistiques

Page 4-3

Mesures de tendance centrale équivalente, calculer la mesure de tendance centrale puis effectuer le changement d'origine ou le changement d'unité sur la mesure de tendance centrale."

    

    Il n'existe pas de lien systématique entre la moyenne et la médiane; cependant si:

 la moyenne est supérieure à la médiane, on dit que la distribution des valeurs observées présente une dissymétrie positive  la moyenne est inférieure à la médiane, on dit que la distribution des valeurs observées présente une dissymétrie négative  la moyenne est égale à la médiane, on dit que la distribution des valeurs observées est symétrique En effet, si la moyenne X est plus grande que la médiane MED, on a: MED  X X i  X  X i  MED n

 ( X

(i = 1,2,..., n)

n

i

i 1

 X )   ( X i  MED) i 1

n

0   ( X i  MED) i 1

en d'autres termes, les écarts positifs l'emportent en grandeur (il y a autant de XiMED positifs que négatifs) sur les écarts négatifs.

Statistiques

Page 4-4

Mesures de dispersion

5

!       

  Supposons que les valeurs observées Xl, X2, ..., Xn soient cardinales et reportons-les sur axes avec une mesure de tendance centrale marquée 0: ----+------ *--*-*-*O***--* ---------------------> Voici d'autres valeurs observées en même nombre et de même mesure de tendance centrale: --*-+---*---*---*---O--*--*--*------*-----------> Dans le premier cas toutes les valeurs sont concentrées autour de la mesure de tendance centrale, et dans le deuxième cas, elles sont très étalées autour de cette mesure. Voyons comment traduire celà dans une expression liant les X1, X2, ..., Xn.



           On peut classer les mesures de dispersion en 2 groupes:  les mesures définies par la distance entre 2 valeurs représentatives de la distribution  les mesures calculées en fonction des déviations de chaque donnée par rapport à une valeur centrale

#   L'étendue est la différence entre la plus grande et la plus petite des observations. Etendue  X max  X min

# $  %  L'intervalle inter-quartile est la différence entre le troisième et le premier quartile: Q75-Q25.

Statistiques

Page 5-1

Mesures de dispersion Il correspond donc à l'intervalle comprenant 50% des observations les plus au centre de la distribution. L'intervalle inter-quartile est une mesure de dispersion qui ne dépend pas du nombre d'observations, cette mesure est nettement moins sensible aux observations aberrantes.

#      Comme son nom l'indique, l'écart moyen absolu est la moyenne des écarts à la moyenne pris en valeur absolue: n

XX i

Ecart moyen absolu 

i 1

n

 $   On définit la variance comme la moyenne des carrés des écarts à la moyenne:

X  X  n

2

i

2 

i 1

n

#  % L'écart-type  est la racine carrée de la variance. L'écart-type s'exprime dans les mêmes unités que les Xi, contrairement à la variance.   2 n



(X i 1

i

 X )2

n L'écart-type est généralement noté lorsqu'il est relatif à une population et s lorsqu'il est relatif à un échantillon.

"      $   On peut démontrer la relation suivante:

Statistiques

Page 5-2

Mesures de dispersion n

  X  U  i

i 1

2

n



  Xi  X i 1



2



 n. X  U



2

U quelconque En d'autres termes: la somme des carrés des écarts des observations à une valeur quelconque U est égale à la somme des carrés des écarts à la moyenne plus n fois le carré de l'écart de U à X De cette relation, on déduit, en divisant par n et en prenant U=0, que: 1 n 1 n . ( X i  U )2  . ( X i  X )2  ( X  U )2 n i 1 n i 1 1 n . ( X i  U )2   2  ( X  U )2 n i 1 Si U  0 2 1 n 2 . X i   2  X n i 1 2 1  2  .  X i2  X n

expression permettant de calculer la variance à partir de la somme des carrés et de la moyenne. De la relation citée, se déduit aussi une propriété liant la moyenne et la variance: la somme des carrés des écarts prend sa plus petite valeur avec la moyenne, ce minimum, divisé par n, est la variance.

    "     

Si on effectue une translation sur les Xi, ou un changement d'origine, la dispersion ne change pas; qu'en est-il pour les mesures de dispersion ? On vérifie facilement qu'elles ne sont pas affectées par cette transformation (par exemple, l'écart-type des Yi avec Yi= Xi+B est égal à l'écart-type des Xi).

!"    Par contre, si on effectue un changement d'unité, la dispersion est affectée; on vérifie que les mesures de dispersion "suivent" le changement d'unité: si Yi = A.Xi alors la mesure de dispersion des Yi est égale à celle des Xi multipliée par A.

Statistiques

Page 5-3

Tableaux de contingence et mesures de dépendance

6

          

  

 On considère deux variables nominales ou ordinales (mais pas cardinales). On désire mesurer de quelle manière la première variable appelée variable indépendante influence la deuxième variable appelée variable dépendante. La variable dépendante dans un modèle d'analyse de régression est la variable considérée comme variant en fonction d'autres variables de l'analyse. On appelle variable indépendante dans un modèle de régression la ou les variables qui sont considérées comme exerçant une influence sur la variable dépendante ou qui expliquent les variations de la variable dépendante. Les exemples sont multiples: var. indépendante situation familiale classe d'âges salaire

var. dépendante réussite scolaire performance choix politique

     Contingence signifie dépendance. De sorte qu'un tableau de contingence est tout simplement un tableau qui montre comment une caractéristique dépend de l'autre. On a relevé le niveau scolaire (variable dépendante) et le statut du père (variable indépendante) de 200 enfants. Le niveau scolaire est codé D1, D2 et le statut du père I1, I2, I3, I4. On regroupe les résultats dans un tableau

Statistiques

Page 6-1

Tableaux de contingence et mesures de dépendance

D1 D2 Total

I1 21 14 35

I2

I3 11 4 15

60 65 125

I4

Total 98 102 200

6 19 25

Il y a donc 21 enfants dont le niveau scolaire est D1 et le statut du père I1; il y 98 enfants de niveau D1, 125 enfants dont le statut du père est I2. Les totaux en lignes et colonnes sont appelés totaux marginaux. Tel quel ce tableau n'est pas parlant: on rajoute les fréquences relatives (en pourcent du total global, 200 dans l'exemple): I1 D1

I2

21 10.50 % 14 7.00 % 35 17.50 %

D2 Total

I3

60 30.00% 65 32.50 % 125 62.50 %

I4

11 5.50 % 4 2.00 % 15 7.50 %

6 3.00 % 19 9.50 % 25 12.50 %

Total 98 49.00 % 102 51.00 % 200

Parce que plus parlant sur la nature des dépendances éventuelles, on rajoute les fréquences relatives en pourcent des totaux marginaux lignes et colonnes (dans la cellule D1,I1: 21.43%=21/98 et 60.00%=21/35, etc): I1 D1

D2

Total

21 10.50% 21.43% 60.00% 14 7.0% 13.73% 40.00% 35 17.50%

I2 60 30.00% 61.22% 48.00% 65 32.50% 63.70% 52.00% 125 62.50%

I3 11 5.50% 11.22% 73.33% 4 2.00% 3.92% 26.27% 15 7.50%

I4 6 3.00% 6.11% 24.00% 19 9.50% 18.63% 76.00% 25 12.50%

Total 98 49.00%

102 51.00%

200

On observe par exemple que:  dans l'échantillon, il y a 49.00% d'enfants au niveau D1 et 51.00% au niveau D2  si le statut du père est de I1, 60% des enfants sont au niveau D1  en revanche si le statut du père est I4, 24% des enfants sont au niveau D1  parmi les enfants qui sont au niveau D2, 3.92% ont un père de statut I3

Statistiques

Page 6-6-3

Tableaux de contingence et mesures de dépendance

      Sans tenir compte de la variable indépendante, la valeur la plus fréquente de la variable dépendante est D2 dans l'exemple avec 102 enfants (98 n'ont pas cette valeur). En tenant compte de la variable indépendante (c’est-à-dire par statut du père), la valeur la plus fréquente n'est pas toujours D1: Statut du père I1 I2 I3 I4

Niveau le plus fréquent D1 D2 D1 D2

On peut affirmer que 98 enfants n'ont pas le niveau le plus fréquent. Comment cette affirmation s'affine-t-elle en tenant compte de la variable indépendante (du statut du père): Statut du père I1 I2 I3 I4

Niveau le plus fréquent D1 D2 D1 D2

échappent 14 60 4 6 84

On passe de 98 à 84, soit un gain relatif de

98  84  14.3% 98

On appelle LAMBDA () cette mesure de dépendance calculée sur l'exemple. Citons quelques propriétés de :

 0 1  En toute généralité, on ne peut pas permuter le rôle des variables indépendante et dépendante sans changer la valeur de . Interprétons les valeurs possibles de 

  est presque nulle: les individus n'ayant pas la valeur la plus fréquente sont aussi nombreux que l'on précise ou non les valeurs prises par la variable indépendante,

Statistiques

Page 6-6-3

Tableaux de contingence et mesures de dépendance cette variable n'apporte pas beaucoup d'information en liaison avec la variable dépendante, donc la dépendance est faible.   est proche de 1: le nombre d'individus n'ayant pas la valeur de la variable dépendante la plus fréquente change beaucoup si l'on précise les valeurs prises par la variable indépendante: elle apporte beaucoup d'informations en liaison avec la variable dépendante, donc la dépendance est forte. Remarquons que la mesure  est "aveugle" à certaines dépendances; l'exemple suivant illustre ce cas “pathologique”:

D1 D2 Total

I1 23 22 45

I2 54 1 55

I3 21 19 40

I4 31 29 60

Total 128 72 200

Il est facile de voir que  est nul (la valeur la plus fréquente est toujours D1) cependant il existe une dépendance manifeste: “Si le statut est I2 alors le niveau est quasi toujours D1”.

  On peut montrer qu'il est équivalent de calculer  suivant ce qui a été décrit dans l'exemple ou par l'expression suivante:



 max(n

1J



, n2 J ,..., n Ij )  max(n1. , n2. ,..., ni . )

n..  max(n1. , n2. ,..., n I . )



où les nij, ni. et n.. sont les fréquences absolues et totaux marginaux du tableau de contingence:

1 2 ... i ... I Total

1 n11 n21

2 n12 n22

... ... ...

J n1J n2J

Total n1. n2.

ni1

ni2

...

niJ

ni.

nI1 n.1

nI2 n.2

... ...

nIJ n.J

nI. n..

Statistiques

Page 6-6-4

Tableaux de contingence et mesures de dépendance

      Définissons une mesure de dépendance entre deux variables ordinales. Pour ce faire, on définit d'abord la notion de paires d'individus concordante et discordante . Pour chaque individu on observe deux variables X et Y; pour l'individu i X prend la valeur Xi et Y la valeur Yi. Comparons les individus i et j quant à leurs variables X et Y: - on dit que “i est concordant avec j” si et seulement si: [Xi < Xj et Yi < Yj] ou [Xi > Xj et Yi > Yj] - on dit que “i est discordant avec j” si et seulement si: [Xi < Xj et Yi > Yj] ou [Xi > Xj et Yi < Yj] Bien sûr il existe des paires d'individus ni concordantes ni discordantes. Si on remarque que le nombre de paires concordantes domine, on peut suspecter une dépendance du type "si X est grand alors Y est grand"; de même, si le nombre de paires discordantes domine, on peut suspecter une dépendance du type "si X est grand alors Y est petit"; finalement si le nombre de paires concordantes est du même ordre de grandeur que le nombre de paires discordantes, on ne peut affirmer l'une ou l'autre des 2 propositions. D'où l'idée de la mesure de dépendance  (Gamma)  

CD CC

où C  nb. concordants D  nb. discordants Citons quelques propriétés de :

 -1    +1 Le signe de  s'interprète: positif si les concordants dominent, négatif dans le cas contraire.  On peut inverser le rôle de X et de Y sans changer la valeur de 

Statistiques

Page 6-6-5

Tableaux de contingence et mesures de dépendance

  Prenons un exemple pour illustrer la démarche à suivre.

Déterminons le nombre de concordants. \X Y\ + 0 -

-

0

+

1 5 20

4 30 6

10 2 2

On commence par la dernière ligne du tableau (Y=-) première colonne (X=-). Quels sont les individus concordants avec ces 20 individus? Ceux en italique: \X Y\ + 0 -

-

0

+

1 5 20 (°)

4 (*) 30 (*) 6

10 (*) 2 (*) 2

En effet on a 30 individus avec [X*=0 > X°=- et Y*=0 > Y°=-] 2 individus avec [X*=+ > X°=- et Y*=0 > Y°=-] 4 individus avec [X*=0 > X°=- et Y*=+ > Y°=-] 10 individus avec [X*=+ > X°=- et Y*=+ > Y°=-] 46 individus concordants avec les 20 soient 46 * 20 = 920 paires

On poursuit par la dernière ligne du tableau (Y=-) deuxième colonne (X=0). Quels sont les individus concordants avec ces 6 individus ? Ceux en italique: \X Y\ + 0 -

-

0

+

1 5 20

4 30 6 (°)

10 (*) 2 (*) 2

En effet on a 2 individus avec [X*=+ > X°=0 et Y*=0 > Y°=-] 10 individus avec [X*=+ > X°=0 et Y*=+ > Y°=-] 12 individus concordants avec les 6 soient 12 * 6 = 72 paires On poursuit par la dernière ligne du tableau (Y=-) troisième colonne (X=+). Quels sont les individus concordants avec ces 6 individus ? Il n'en existe pas.

Statistiques

Page 6-6-6

Tableaux de contingence et mesures de dépendance

\X Y\ + 0 -

-

0

+

1 5 20

4 30 6

10 2 2

On poursuit par la deuxième ligne du tableau (Y=0) première colonne (X=-). Quels sont les individus concordants avec ces 5 individus ? Ceux en italique: \X Y\ + 0 -

-

0

+

1 5 (°) 20

4 (*) 30 6

10 (*) 2 2

En effet on a 4 individus avec [X*=0 > X°=- et Y*=+ > Y°=0] 10 individus avec [X*=+ > X°=- et Y*=+ > Y°=0] 14 individus concordants avec les 5 soient 14 * 5 = 70 paires

On poursuit par la deuxième ligne du tableau (Y=0), deuxième colonne (X=0). Quels sont les individus concordants avec ces 30 individus ? Ceux en italique: \X Y\ + 0 -

-

0

+

1 5 20

4 30 (°) 6

10 (*) 2 2

En effet on a: 10 individus avec [X*=+ > X°=0 et Y*=+ > Y°=0] 10 individus concordants avec les 30 soient 30 * 10 = 300 paires Au total 920 + 72 + 70 + 300 = 1362 paires concordantes. Déterminons le nombre de paires discordantes. On commence par la première ligne du tableau (Y=+) première colonne (X=-). Quels sont les individus discordants avec cet individu? Ceux en italique: \X Y\ + 0 -

-

0

+

1 (°) 5 20

4 30 (*) 6 (*)

10 2 (*) 2 (*)

Statistiques

Page 6-6-7

Tableaux de contingence et mesures de dépendance

Statistiques

Page 6-6-8

Tableaux de contingence et mesures de dépendance En effet on a: 30 individus avec [X*=0 > X°=- et Y*=0 > Y°=+] 2 individus avec [X*=+ > X°=- et Y*=0 > Y°=+] 6 individus avec [X*=0 > X°=- et Y*=+ > Y°=+] 2 individus avec [X*=+ > X°=- et Y*=+ > Y°=+] 40 individus discordants avec le 1 soient 40 * 1 = 40 paires

On poursuit par la première ligne du tableau (Y=+) deuxième colonne (X=0). Quels sont les individus discordants avec ces 4 individus. Ceux en italique: \X Y\ + 0 -

-

0

+

1 5 20

4 (°) 30 6

10 2 (*) 2 (*)

En effet on a 2 individus avec [X*=+ > X°=0 et Y*=0 > Y°=+] 2 individus avec [X*=+ > X°=0 et Y*=+ > Y°=+] 4 individus discordants avec les 4 soient 4 * 4 = 16 paires

On poursuit par la première ligne du tableau (Y=0) troisième colonne (X=+). Quels sont les individus discordants avec ces 10 individus? Il n'en existe pas. \X Y\ + 0 -

-

0

+

1 5 20

4 30 6

10 2 2

On poursuit par la deuxième ligne du tableau (Y=0) première colonne (X=-). Quels sont les individus discordants avec ces 5 individus? Ceux en italique: \X Y\ + 0 -

-

0

+

1 5 (°) 20

4 30 6 (*)

10 2 2 (*)

En effet on a: 6 individus avec [X*=0 > X°=- et Y*=- > Y°=0] 2 individus avec [X*=+ > X°=- et Y*=- > Y°=0] 8 individus discordants avec les 5 soient 8 * 5 = 40 paires

Statistiques

Page 6-6-9

Tableaux de contingence et mesures de dépendance

On poursuit par la deuxième ligne du tableau (Y=0) deuxième colonne (X=0). Quels sont les individus discordants avec ces 30 individus? Ceux en italique: \X Y\ + 0 -

-

0

+

1 5 20

4 30 (°) 6

10 2 2 (*)

En effet on a: 2 individus avec [X*=+ > X°=0 et Y*=- > Y°=0] 2 individus discordants avec Ïes 30 soient 2 * 30 = 60 paires Au total 40 + 16 + 40 + 60 = 156 paires discordantes. On a donc  

1362  156  79.45% 1362  156

     On perd dans l'analyse toutes les paires où Xi=Xj ou Yi=Yj. On peut introduire un  modifié en divisant par [nr. concordant + nr. disconcordant + EY], où EY est le nombre de paires avec [XiXj et Yi=Yj]. CD   C  D  EY   est "aveugle" à certaines dépendances.

Statistiques

Page 6-6-10

Tableaux de contingence et mesures de dépendance

   

       Considérons 2 variables cardinales (ou ordinales): X et Y. On désire mesurer la dépendance de Y (variable dépendante) en X (variable indépendante). Pour fixer les idées, prenons l'exemple d'un échantillon de 11 observations où X est l'âge et Y le salaire: Observation 1 2 3 4 5 6 7 8 9 10 11

X 36 45 37 42 55 28 25 30 50 49 18

Y 132 150 126 160 157 100 95 110 160 146 78

Si une petite valeur de X entraîne régulièrement une petite valeur pour Y, on peut affirmer que Y dépend de X; il en va de même, si une petite valeur de X entraîne régulièrement une grande valeur pour Y. Par contre, si une petite valeur de X entraîne indifféremment une grande ou une petite valeur de Y, on peut dire que Y ne dépend pas de X. Trions donc les valeurs de X par ordre croissant et de même pour les valeurs de Y. Observation 1 2 3 4 5 6 7 8 9 10 11

X 36 45 37 42 55 28 25 30 50 49 18

Y 132 150 126 160 157 100 95 110 160 146 78

Rangs des X 5 8 6 7 11 3 2 4 10 9 1

Rangs des Y 6 8 5 10.5 9 3 2 4 10.5 7 1

Note: si plusieurs données ont la même valeur, on utilise le rang moyen.

Statistiques

Page 6-6-10

Tableaux de contingence et mesures de dépendance Calculons la différence entre les rangs de X et ceux de Y. Observation 1 2 3 4 5 6 7 8 9 10 11

X 36 45 37 42 55 28 25 30 50 49 18

Y 132 150 126 160 157 100 95 110 160 146 78

Rx 5 8 6 7 11 3 2 4 10 9 1

Ry 6 8 5 10.5 9 3 2 4 10.5 7 1

Rx-Ry -1 0 1 -3.5 2 0 0 0 -0.5 2 0

Il est vain de résumer ces 11 différences par une moyenne: elle vaut nécessairement 0, en effet: (5-6)+(8-8)+(6-5)+(7-10.5)+(11-9)+(3-3)+(2-2)+(4-4)+(10-10.5)+(9-7)+(1-1) = 5+8+6+7+11+3+2+4+10+9+1-6-8-5-10.5-9-3-2-4-10.5-7-1= 1+2+3+4+5+6+7+9+9+10+11-1-2-3-4-5-6-7-8-9-10.5-10.5 = 0 Prenons plutôt le carré des différences et sommons-les: Observation 1 2 3 4 5 6 7 8 9 10 11

X 36 45 37 42 55 28 25 30 50 49 18

Y 132 150 126 160 157 100 95 110 160 146 78

Rx 5 8 6 7 11 3 2 4 10 9 1

Ry 6 8 5 10.50 9 3 2 4 10.5 7 1

Rx-Ry -1 0 1 -3.5 2 0 0 0 -0.5 2 0

(Rx-Ry)2 1 0 1 12.3 4 0 0 0 0.3 4 0 24.6

On peut démontrer que D2 (toujours positif) prend une valeur maximale égale à n.(n 2  1) ,où n est le nombre d'observations. 3 On ramène cette quantité à une valeur comprise entre -1 et +1.

Statistiques

Page 6-6-11

Tableaux de contingence et mesures de dépendance n.(n 2  1) 0 D  3 i 1 n

2 i

n

0

D

2 i

i 1

1

n.(n 2  1) 3 n

0

3.  Di2 i 1 2

1

n.(n  1) n

0

6.  Di2 i 1 2

2

n.(n  1)

n

1 0  1

6.  Di2 i 1 2

n.(n  1)

 1 2

n

1  1

6.  Di2 i 1 2

n.(n  1)

 1

On définit le coefficient de corrélation des rangs de Spearman par l'expression: n

Rs  1 

6.  Di2 i 1

n.(n ²  1)

où Di2  Rxi  R yi Dans l'exemple: 6  22.6 135.6 Rs  1   1  0.897 11  (11²  1) 1320 Si Rs est proche de -1, ou de +1, la dépendance est forte, si Rs est proche de 0, la dépendance est faible.

Statistiques

Page 6-6-12

Diagramme de Pareto et indice de concentration

7

         

 

     Les diagrammes de Pareto sont principalement utilisés dans le contexte des analyses qualitatives (cercles de qualité,...). L'analyse de Pareto est une méthode simple permettant de séparer les causes majeures d'un problème, des causes mineures. Le diagramme de Pareto permet de distinguer d'emblée les premières causes, problèmes ou autres conditions. Pareto énonça la règle des 80/20:  80% des ventes sont attribuées à 20% des équipes de vente  80% des effets résultent de 20% des causes  etc. Considérons donc une variable nominale et calculons les fréquences relatives. On appelle diagramme de Pareto le diagramme en bâtonnet des fréquences relatives, où les valeurs de la variable sont classées par ordre décroissant des fréquences. Prenons l’exemple suivant. Pendant 6 mois, on a dénombré 60 accidents à un carrefour particulièrement dangereux les causes de ces accidents ont été enregistrées: Causes dépassement mauvaise visibilité refus de priorité alcoolisme état du véhicule état de la route vitesse excessive autres causes

Fréquence absolue 2 8 12 2 11 1 19 5

Le diagramme de Pareto est représenté ci-après. La fonction de répartition (fréquences relatives cumulées) est représentée sur le même graphique: les ordonnées des fréquences relatives (diagramme de Pareto) se lisent à gauche, celles de la fonction de répartition à droite.

Statistiques

Page 7-1

Diagramme de Pareto et indice de concentration

Sur le diagramme de Pareto se distingue d’emblée la première cause d’accident: la vitesse excessive (32% des cas); les 3 premières causes expliquent 70% des accidents (le 3e bâtonnet de la fonction de répartition est à cette hauteur) et la quasitotalité (90%) des accidents est expliquée par les 5 premières causes (cfr fonction de répartition). Diagramme de Paretto 100% 80% 60%

Fréq. relatives Fct répartition

40% 20% 0% Vitesse

Priorité

Etat véh

Visibilité

Autres

Dépass

Alcool

Etat route

Causes

En fait, le but du diagramme est de mettre en évidence (si les données le permettent!) une répartition très déséquilibrée, c’est-à-dire une répartition où les 2 ou 3 valeurs les plus fréquentes représentent la majorité de la distribution. Dans ce cas, la hauteur des bâtonnets décroît très rapidement, ou, de manière équivalente, la fonction de répartition présente une forte concavité. Notons que a contrario, si toutes les valeurs de la variable ont la même fréquence (diagramme plat), la fonction de répartition présente des marches régulières le long d’une droite.

    

    Pour mesurer la concavité de la fonction de répartition ou pour mesurer le déséquilibre de la répartition, observons le graphique suivant.

Statistiques

Page 7-2

Diagramme de Pareto et indice de concentration

100% 83% 80%

U

T

S

100%

98%

95%

92% R

70% P

60%

52% O

40%

32% N

20% B

A

0% Vitesse

Priorité

C Etat véh

D Visibilité

E Autres

G

F Dépass

Alcool

Etat route

Causes

On y a représenté la fonction de répartition avec la base des marches reliée par des segments de droites (0N, NO, OP, PR,...) ainsi que la droite 0V. Rappelons qu’un diagramme de Pareto plat (répartition uniforme) possède une fonction de répartition dont les marches s’échelonnent régulièrement le long de cette droite. On introduit alors le coefficient de concentration de Gini défini comme étant le rapport entre l’aire du polygone 0N, NO, OP, ..., UV, V0 et l’aire du triangle rectangle 0VH. Calculons ces 2 aires: L’aire du polygone se déduit par différence entre, d’une part, l’aire S1 du polygone 0N, NO, OP, ..., UV, VH, H0 et, d’autre part, l’aire S2 du triangle 0VH. L’aire S1 se décompose à son tour en 8 aires partielles S11, S12, S13, ..., S18 S11 est l’aire du triangle 0AN soit S11 

base  hauteur 2

d  0.32 2

où d est la base des bâtonnets S12 est l’aire du trapèze ANOB soit S12 

hauteur  (grande base  petite base) 2

d  (0.32  0.52) 2

Semblablement, on a pour le trapèze BOPC: S13 

d  (0.52  0.70) 2

et ainsi de suite pour S14, ..., S18 On a donc pour S1:

Statistiques

Page 7-3

Diagramme de Pareto et indice de concentration d d d d  (32%  52%).  (52%  70%). ... (93%  100%). 2 2 2 2 d d d S1  32%. .2  52%. .2 ...100%. 2 2 2 100% S1  (32%  52% ... ). d 2 S1  5.72  d S1  32%.

L’aire du triangle S2 se détermine facilement: S2 

8. d  100 .  4. d 2

En rassemblant des résultats on déduit la valeur du coefficient de concentration de Gini: 

S1  S 2 S2

Dans l'exemple: 5.72. d  4. d 5.72  4 Gini    0.43 4. d 4 L’interprétation est simple:  une valeur du coefficient proche de 0 indique une distribution proche d’une distribution uniforme. Il n'y a pas de concentration des données  une valeur du coefficient proche de 1 indique un déséquilibre important dans la répartition, déséquilibre que veut mettre en évidence le diagramme de Pareto. Il y a concentration des données.

Statistiques

Page 7-4

Principales distributions

8

     



 

Une loi de probabilité peut admettre deux fonctions: la première consiste à décrire de la façon la plus adéquate possible un mécanisme réel étudié (répartition des salaires, répartition des âges, mesure de temps de réponses, etc), la deuxième consiste à décrire le comportement des instruments techniques utilisés dans le traitement des données. La première fonction est une fonction de modélisation: il s'agit de savoir si, par exemple, la durée de fonctionnement sans défaillance de tel appareil qu'on assimile à une variable aléatoire peut être décrit par telle loi de probabilité. La justification de l'emploi de telle loi plutôt qu'une autre est en général propre au domaine étudié. En fait cette loi est rarement connue entièrement, il subsiste en général plusieurs paramètres qui doivent être adaptés (estimés) au cas précis étudié. La loi avec ses paramètres inconnus (en fait il s'agit d'une famille de lois puisque chaque valeur assignée aux paramètres inconnus en définit une) est appelée loi théorique du phénomène étudié. La loi théorique est censée modéliser le phénomène étudié. La deuxième fonction est interne à la statistique: elle décrit le comportement (la loi de probabilité) de tel outil statistique (moyenne, variance, quantile, etc). La connaissance de ce comportement est fondamentale pour passer d'un stade descriptif à un stade inférentiel. Le comportement (la loi de probabilité) de tel outil est en géneral lié à la loi théorique du phénomène étudié; cette dépendance pose un problème: comme la loi du phénomène n'est pas connue entièrement (paramètres inconnus), le comportement des outils utilisés n'est pas non plus connu entièrement! Cependant, dans une vaste gamme de problèmes, la dépendance disparaît; il est nécessaire de connaître les conditions qui permettent de s'en assurer. Il faut remarquer que certaines lois peuvent assumer les deux fonctions.

   

  

Nous allons passer en revue certaines distributions communément utilisées pour modéliser certains phénomènes physiques. Cette énumération est loin d'être exhaustive. Statistiques

Page 8-1

Principales distributions

    Une importante classe de variables aléatoires est induite par une suite d'expériences aléatoires du type suivant: chaque observation fait apparaître (avec une probabilité p) ou non (avec une probabilité de 1-p) l'événement A; p reste constant, les observations sont mutuellement indépendantes et on effectue n observations. Xi = 0 Xi = 1

avec une probabilité p avec une probabilité (1 - p) n

B ( n, p )   X i i 1

La loi binomiale décrit la répartition du nombre total d'apparition X de l'événement A. Cette loi est étudiée en détail au cours de probabilité. Retenons ici, l'expression de la densité: P[ X  i ]  Cin . p i .(1  p) ( n i ) où Cin est le coefficient binomial, E  X   E  X 1  X 2 ... X n 

 E  X 1   E  X 2 ... E  X n   p  p ... p  n. p

n Var X   Var  X i i 1  n.Var ( X i )

   n.(11 . . p  0.0. q )  p   n. E ( X i2 )  ( E ( X i )) 2 2

 n.( p  p 2 )  n. p.(1  p) X = B(n,p) est la fréquence absolue de A, mais la fréquence relative X B ( n, p ) f   n'est plus distribuée suivant une loi binomiale, mais n n

Statistiques

Page 8-2

Principales distributions  B(n, p)  n. p E( f )  E p   n  n pq p.(1  p) Var ( f )   2   n n pq p.(1  p)   n n A la lumière de l'expression de l'écart-type de f (sa dispersion), on peut dire que la fréquence relative:  voit sa dispersion diminuer avec n  se disperse de moins en moins autour de p, la probabilité d'apparition de l'événement, quand n augmente  voit sa dispersion divisée par 2, 10 ou k (toutes autres choses restant égales) si le nombre d'observations est multiplié par 4, 100 ou k2  a une dispersion qui dépend de la probabilité d'apparition de l'événement A (avec un maximum de 1/(2n) en p = 0.5)  a une moyenne de p On peut rappeller les propriétés asymptotiques de la loi binomiale. B(n, p)  np n   N (0,1) npq

  

Dans le même contexte que le point précédent, on peut s'intéresser au nombre d'épreuves nécessaires pour que la fréquence absolue soit égale à k exactement: si on appelle X ce nombre, alors parmi les observations 1, 2, .... (X-1) on a (k-l) fois l'événement A et parmi les observations 1, 2, ..., X, on a k fois l'événement A. On recherche le nombre d'échecs avant le k ième succès. La loi de probabilité de X dépend de p et de k. L'expression analytique de cette loi ne nous intéresse pas directement, mais E( X ) 

k p

Var ( X ) 

k .(1  p) p2

Cette loi est appliquée à la statistique des accidents et des maladies, dans les problèmes d'analyse des quantités d'individus d'une espèce donnée contenus dans un échantillon, etc. Souvent on ne connaît pas p, raison pour laquelle on monte une expérience pour en déterminer la valeur.

Statistiques

Page 8-3

Principales distributions

    La loi de Poisson décrit le nombre d'apparitions pendant une unité de temps d'un événement  dont la réalisation ne dépend pas du nombre de réalisations passées et n'influe pas sur les futures (il y a indépendance entre des intervalles disjoints)  les épreuves se déroulant dans des conditions stationnaires. Cette loi est étudiée en détail au cours de probabilités, retenons ici son expression analytique: P[ X  n]  e   .

n n!

où  est un paramètre, E( X )   Var ( X )   X    N (0,1)  Cette loi, dépendant d'un seul paramètre, décrit le nombre de pannes d'une chaîne ou d'un système complexe par unité de temps (régime de croisière), le nombre d'arrivées par unité de temps d'une station, les lois statistiques de sinistres, etc. Souvent on réalise un montage expérimental pour déterminer .

    Cette loi est capitale dans la théorie et la pratique des recherches statistiques. Son rôle pratique peut être compris en se référant au théorème central limite qui permet d'affirmer que, si une variable continue dépend d'un très grand nombre de facteurs aléatoires indépendants dont l'action est très petite et de caractère additif, alors cette variable suit une loi normale (voir cours de probabilité pour une formulation rigoureuse de cette affirmation). Son rôle théorique découle du fait que la plupart des statistiques utilisées sont (ou peuvent être approchées par) une somme de variables aléatoires remplissant les conditions du théorème central limite. L'expression analytique de la loi normale est: 1  x  m 



2

. 1 f ( x)  .e 2   . 2

E X   m

Var X    2

Statistiques

Page 8-4

Principales distributions C'est une distribution unimodale, symétrique par rapport à m, de moyenne m et d'écart-type . La loi normale dépend de deux paramètres: m et . Lorsque m=0 et =l, on a parle de loi normale centrée et réduite. Le théorème central limite nous dit que: N (m,  )  m  N (0,1)  La fonction de répartition de la loi réduite (x) = P[X  x] est tabulée. Par symétrie, il suffit de construire une table pour les valeurs positives de x ((-x) = 1 (x)). La fonction de répartition d'une loi normale non réduite F(x) se déduit de la table par la relation: ( x  m) F ( x)  ( )  La loi normale prend, avec une forte probabilité, des valeurs proches de sa moyenne, ce qui s'exprime par la règle des 3 : P X  m     0.3173  3173% .

P X  m  2.   0.0455  4.55% P X  m  3.   0.0027  0.27%

Il est donc "très rare" (dans moins de 5% des cas) qu'une normale s'écarte de sa moyenne de plus de 2 fois son écart-type et "exceptionnel" (dans moins de 0,3 % des cas) qu'elle s'écarte de plus de 3 écarts-types. Il existe des liens entre les lois normale et binomiale, ces liens sont vu au cours de probabilités. Une somme de normales indépendantes (ou non) est distribuée suivant une loi normale; les moyennes s'additionnent, si les variables sont indépendantes, les variances (attention pas les écart-types !!) s'additionnent. La loi normale est très souvent utilisée dans des domaines divers: économie, médecine, biologie, théories des erreurs, etc. La loi normale est utilisée comme approximation de la loi chi-carrée, la loi t de student, la loi binomiale et la loi de Poisson.

  

Une variable aléatoire positive X suit une loi log-normale si son logarithme (népérien) suit une loi normale. ln( X )  N (m,  )

Statistiques

Page 8-5

Principales distributions

En d'autres termes, cette variable continue dépend d'un très grand nombre de facteurs aléatoires indépendants dont l'action est très petite et de caractère multiplicatif (l'action du facteur est proportionnelle à la valeur déjà prise par la variable au moment de cette action). L'expression analytique de cette loi ne nous intéresse pas ici, retenons:

 que cette loi présente un seul mode  que le mode, la médiane et la moyenne se suivent dans cet ordre (dissymétrie positive). La loi log-normale dépend de deux paramètres: la moyenne et l'écart-type de la variable normale. La loi log-normale se rencontre en socio-économie, en physique des formations cosmiques, dans l'étude de la durée de vie des équipements, etc.

   Les lois "tronquées" se rencontrent assez souvent dans divers problèmes, ces lois décrivent le comportement de populations "tronquées", c’est-à-dire dont on a retiré tous les éléments en deça ou au-delà d'une certaine valeur x0. Cette situation peut se décrire par une loi de Pareto dont la fonction de répartition est: x  F ( x)  1   0   x



où x > x 0

Le mode est en x0. Cette loi dépend de deux paramètres x0 et .

  

La loi exponentielle est la seule loi jouissant de la propriété suivante: la probabilité que la variable soit comprise entre x et x+a sachant qu'elle est supérieure à x ne dépend pas de x mais de a seulement. Par exemple, si cette variable modélise la durée de vie d'un équipement, la distribution de la durée de vie de cet équipement au delà de t sachant que cet équipement a fonctionné jusqu'en t est indépendante de t. On appelle cette propriété “propriété d'oubli”. La forme analytique de la densité de probabilité d'une exponentielle est: f ( x)  . e avec x0 0

Statistiques



 x 

Page 8-6

Principales distributions Cette distribution dépend d'un paramètre . On a aussi: E( X ) 

1 

1 2 La distribution exponentielle décrit également la distribution de l'intervalle de temps séparant la réalisation successive de 2 événements qui suivent une loi de Poisson. Var ( X ) 

La loi exponentielle se rencontre dans l'étude des files d'attente, en fiabilité, etc.

        

Voir plus haut.

       Cette loi apparaît naturellement dans l'étude de la distribution de probabilité de la variance calculée sur un échantillon suivant une loi normale. Donnons ici la définition de la loi Chi-carrée: la loi Chi-carrée à n degrés de liberté est la loi d'une somme de n variables normales réduites indépendantes au carré. n

 ( n )   N 2 (0,1) i 1

Cette loi dépend d'un seul paramètre, le nombre de degrés de liberté.  2( x y )   2( x )   2( y ) Une somme de Chi-carrée est distribuée suivant une Chi-carrée, les degrés de liberté s'additionnant. Les quantiles de cette distribution sont tabulés (tables à double entrée: l'ordre du quantile et le nombre de degrés de liberté). L'expression analytique de la densité ne nous intéresse pas, retenons que; E( n )  n Var (  n )  2n

Statistiques

Page 8-7

Principales distributions Cette loi est unimodale et présente une dissymétrie positive. 30 2  n n  N ( 2n  1,1)

Pour n suffisamment grand, la variable

2 est approximativement normale de

2n  1 et d'écart-type 1 (approximation valable pour n > 30).

moyenne

        Cette loi est liée à la distribution des écarts entre la moyenne théorique et la moyenne calculée sur un échantillon issu d'une population normale. N (0,1) tn   2n n La définition est la suivante, la loi t de Student à n degrés de liberté est la distribution du quotient d'une loi normale centrée réduite par la racine carrée d'une Chi-carrée divisée par son degré de liberté n; normale et Chi-carrée étant indépendantes. Cette loi ne dépend que d'un seul paramètre n. Les quantiles de cette distribution sont tabulés (table à double entrée: l'ordre du quantile et le nombre de degrés de liberté). L'expression analytique de la densité ne nous intéresse pas, retenons que: E (t )  0 Var ( t ) 

n n 1

Cette loi est unimodale et symétrique par rapport à 0. 30 t n n  N (0,1) Pour n suffisamment grand, la variable t est approximativement normale de moyenne 0 et d'écart-type 1 (approximation valable pour n > 30).

 ! !   

  Cette distribution est liée à la comparaison de deux variances.  n1 Fn1 ,n2 

n1  n2 n2

Statistiques

Page 8-8

Principales distributions La définition est la suivante, une loi F de Fisher à nl et n2 degrés de liberté est la distribution du quotient de 2 Chi-carrées indépendantes à nl et n2 degrés de liberté divisées par leurs degrés de libertés respectifs. Cette loi dépend de 2 paramètres nl et n2. Les quantiles de cette distribution sont tabulés (tables à triple entrée: l'ordre du quantile et les 2 nombres de degrés de liberté). L'expression analytique de la densité ne nous intéresse pas.

"   ##       Rappelons comment calculer ce coefficient mesurant la dépendance entre 2 variables ordinales (ou cardinales): 1e var

2e var

X1 X2 X3 . . . Xi . . . Xn

Y1 Y2 Y3 . . . Yi . . . Yn

Rs  1 

Rangs des X RX1 RX2 RX3 . . . RXi . . . RXn

Rangs des Y RY1 RY2 RY3 . . . RYi . . . RYn D² =

Diff. au carré (RX1-RY1)² (RX2-RY2)² (RX3-RY3)² . . . (RXi-RYi)² . . . (RXn-RYn)² (RXi-RYi)²

6. D ² n.(n ²  1)

Déterminons la distribution de probabilité de Rs en supposant que les deux variables X et Y soient indépendantes. Les valeurs possibles pour Rs se déduisent de celles des RXi et des RYi. Les valeurs possibles pour les RXi sont les permutations des entiers 1,2,3, .... i, .... n; toutes ces permutations sont équiprobables (les Xi sont indépendantes entre elles) et comme on dénombre n! permutations, une configuration quelconque des RXi 1 apparaît avec la probabilité de . n! Le même raisonnement peut se faire pour les RYi et en supposant que les Yi sont indépendantes des Xi, la probabilité d'observer un couple quelconque de 1 configurations des RXi et des RYi est de . (n !) 2

Statistiques

Page 8-9

Principales distributions

Pour chacune de ces n!2 valeurs possibles pour les RXi et les RYi, on peut calculer la valeur de Rs et en déduire ainsi sa distribution de probabilité. On regroupe les différentes valeurs possibles et on affecte à chaque valeur une probabilité. Mais on peut se montrer plus astucieux: en effet, la valeur de Rs ne change pas si on permute les termes de la somme  (RXi-RYi)2 . Pour dénombrer les valeurs possibles de Rs, on peut donc se limiter au cas où RX1=1, RX2=2, ... , RXn=n. Détaillons ces valeurs possibles dans le cas où n=2 (ce qui constitue un cas d'école, dans la pratique il est très risqué de tirer des conclusions sur un échantillon de 2 observations!). X 1 2

Cas possibles pour Y 1 2

Différence des rangs au carré 2 0 1 1 0 1 Valeurs du coeff. de Spearmann 1.00 -1.00

Donc Rs prend 2 valeurs +1 et -1 avec la même probabilité.

Statistiques

Page 8-10

Principales distributions Passons au cas n=3. X Cas possibles pour Y 1 1 2 3 3 1 2 2 1 1 2 3 3 3 3 2 1 2

2 3 1

Différence des rangs au carré 0 1 4 4 0 1 0 1 1 0 1 1 0 0 1 4 1 4 Valeurs du coeff. de Spearmann 1.00 0.50 -0.50 -1.00 0.50 -0.50

Donc Rs prend 4 valeurs distinctes : -1, -0.5, 0.5, +1 avec les probabilités de 1/6, 1/3, 1/3, 1/6. Remarquons que Rs peut prendre la valeur +1 (-1) alors que les deux variables sont indépendantes, ce cas est relativement rare (1 fois sur 6) mais possible. C oe ff. d e c orréla tio n d e S p e arm a n n =3 2.5

2

Probabilité

1.5

1

0.5

0 1

0.5

-0.5

-1

V aleu rs p o ssib les

Passons au cas n=4. En présentant les valeurs possibles pour RYi dans un tableau semblable au précédent, on a: 1 2 3 4

2 1 3 4

3 1 2 4

3 2 1 4

1 3 2 4

2 3 1 4

4 1 2 3

4 2 1 3

4 3 1 2

Cas possibles pour Y 4 4 4 1 2 3 1 2 4 4 2 3 3 2 1 1 2 1 3 3

3 4 1 2

3 4 2 1

1 4 3 2

2 4 3 1

1 2 4 3

2 1 4 3

3 1 4 2

3 2 4 1

1 3 4 2

2 3 4 1

Différence des rangs au carré 9 9 9 9 0 1 4 4 0 1 0 1 4 4 0 1 1 1 1 0 4 4 4 4 4 4 0 1 1 0 1 1 4 1 0 0 1 4 4 1 0 0 1 1 1 1 1 1 4 9 4 9 1 1 4 9 4 9 1 1 4 9 4 9 Valeurs du coeff. de Spearmann 1.0 0.8 0.4 0.2 0.8 0.4 -0.2 -0.4 -0.8 -1.0 -0.4 -0.8 0.4 0.0 -0.6 -0.8 0.2 -0.4 0.8 0.6 0.0 -0.4 0.4 -0.2 0 0 0 0

1 1 0 0

4 1 1 0

Statistiques

4 0 4 0

0 1 1 0

1 1 4 0

9 1 1 1

9 0 4 1

Page 8-11

Principales distributions Donc RS prend 12 valeurs distinctes: -1, -0.8, -0.6, -0.4, -0.2, 0, +0.2, +0.4, +0.6, +0.8, +1 avec des probabilités de 1/24, 3/24=1/8, 1/24, 1/13, 2/24=1/12, 1/12, 1/12, 1/24, 1/8, 1/24. Remarquons à nouveau que RS peut prendre la valeur +1 (-1) même si les variables Xi et Yi sont indépendantes; ce cas est cependant rare: 1 fois sur 24, mais possible. C oe ff. d e c orréla tio n d e S p e arm a n n =4 4.5

4

3.5

Probabilité

3

2.5

2

1.5

1

0.5

0 -1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

V aleu rs p o ssib les

C oe ff. d e c orréla tio n d e S p e arm a n n =5 12

10

Probabilité

8

6

4

2

0 1

0.90

0.8

0.70

0.6

0.50

0.4

0.30

0.2

0.10

0

-0.10

-0.2

-0.30

-0.4

-0.50

-0.6

-0.70

-0.8

-0.90

-1

V aleu rs p o ssib les

La distribution de probabilité de RS est tabulée pour différentes valeurs de n.

Statistiques

Page 8-12

Estimations: principes

9

      



 

On considère un échantillon de taille n, aléatoire et simple. "Aléatoire et simple" signifie que les variables aléatoires sont:  indépendantes entres elles  de même distribution F(x,) Prenons un exemple. Soit une population donnée; on s'intéresse à la taille moyenne m. Supposons que la répartition des tailles individuelles soit normale de moyenne m et d'écart-type connu . On prélève un échantillon de n individus. Comment estimer m et comment donner une mesure de la précision de cette estimation? Si on appelle Xi (i=1,2,...,n) les tailles observées, Xi est une réalisation d'une variable normale de moyenne m et d'écart-type . En toute généralité, la distribution n'est pas nécessairement normale; chaque valeur observée est la réalisation (indépendante des autres valeurs) d'une variable aléatoire dont la densité de probabilité est f(x,), où  est un (ou plusieurs) paramètre inconnu.  ( X 1 , X 2 ,..., X n )  estimateur de   une variable alé atoire La question abordée dans les chapitres qui suivent est celle de l'estimation de : comment construire une fonction des observations (un estimateur) qui donne pour tout échantillon une valeur "proche" de  (l'estimation de  est notée,  ).  est le paramètre inconnu; il ne fluctue pas, c'est une constante. Généralement, on monte une expérience en vue de l'estimer à partir des observations.

       Toute fonction des observations ne convient pas pour estimer ; formulons des critères que doivent remplir les estimations pour être sûres dans un certain sens.

$  

Un estimateur  de  est convergent s'il tend stochastiquement vers la valeur à estimer lorsque n tend vers l'infini, et ceci quel que soit :

Statistiques

Page 9-1

Estimations: principes





P      n  0  En d'autres termes, le risque que l'estimateur  ne s'écarte du paramètre inconnu de plus de  tend vers 0 lorsque le nombre d'observations tend vers l'infini. Si la probabilité de commettre une erreur absolue de plus de  ne tend pas vers 0 lorsque le nombre d'observations tend vers l'infini, cet estimateur n'a guère de sens pratique. Mais cette propriété est asymptotique: elle ne joue que pour des échantillons de très grande taille. Cette propriété n'est pas suffisante à elle seule.

$ On dit qu'un estimateur est sans biais si, pour tout n, l'espérance théorique de cet estimateur est égale à la valeur inconnue du paramètre: E( )    fluctue autour de . Si on calcule plusieurs fois l'estimateur sur des échantillons différents, la moyenne des estimateurs est généralement égale à . Attention estimateur  paramètre inconnu    variable aléatoire  constante L'absence de biais élimine (en moyenne) l'erreur systématique d'estimation qui, d'une manière générale, dépend de n et qui, en cas de convergence de l'estimateur, tend vers 0 lorsque n tend vers l'infini. Le biais d'un estimateur est: b( )  E ( )  

$ ##

La dispersion d'un estimateur autour de la valeur inconnue du paramètre est une donnée importante; en général, on mesure cette dispersion par: E (   ) 2  D 2 ( )   2 ( ) (pour un estimateur non biaisé, il s'agit de la variance de  ).

Statistiques

Page 9-2

Estimations: principes On dit qu'un estimateur est efficace si la mesure de dispersion 2(  ) de cet estimateur est plus petite que celle de tout autre estimateur de . La variance théorique de l'estimateur (la dispersion de l'estimateur autour du paramètre inconnu) doit être minimale parmi tous les estimateurs possibles. On peut montrer que, sous des conditions de régularité, il existe un estimateur efficace (ou asymptotiquement efficace). Construire un estimateur convergent, non biaisé et efficace n'est pas simple.

      Il existe plusieurs méthodes d'estimation. La méthode du maximum de vraisemblance fournit dans les cas réguliers des estimations convergentes, non biaisées et efficaces. La démarche est la suivante.

 % 

On détermine la fonction de vraisemblance L, c'est-à-dire la probabilité d'observer l'échantillon que l'on a sous les yeux. n

L( X 1 , X 2 ,..., X n ;  )   ( fX i ;  ) i 1

 f ( X 1 ; ). f ( X 2 ;  )...( fX n ;  ) Dans L, les Xi sont connus (ce sont les valeurs observées) et  est le paramètre inconnu. Dans le cas continu, il s'agit du produit des densités de probabilité. Dans le cas discret, il s'agit de la loi de probabilité.

" % 

Regardant L comme fonction de  seulement, on prend pour estimation de  la valeur  qui rend L, la vraisemblance maximale c'est-à-dire l'échantillon le plus probable, le plus vraisemblable. max L( )  L( ) Comme L ou ln(L) atteignent leur extremum pour la même valeur de , on travaille de préférence avec le ln(L) car il est souvent plus facile à calculer. Dans les cas réguliers, on sait que la recherche d'un extremum revient à trouver la valeur  qui annule la dérivée première du ln(L): Statistiques

Page 9-3

Estimations: principes

d ln( L)  tel que:  d



df ( Xi ,  ) 0 d

On remarque qu'il faut connaître l'expression analytique de f; cette connaissance n'est pas nécessaire pour toutes les méthodes d'estimation, comme pour la méthode des moindres carrés par exemple.

  Le but recherché est de prévoir, maîtriser le phénomène "montant annuel des dommages dus aux catastrophes naturelles". Il y a 2 étapes à considérer:  la fréquence des catastrophes naturelles (nb de catastrophes/an)  le montant des dommages dus aux catastrophes naturelles (nb de F/catastrophe) Les données: Année 1983 1987 1989 1990 1990 1990 1990 1991 1991 1992 1992 1993 1993 1994 1995 1995 1995 1995 1996

Evénements Cyclone Alicia Tempête d'hiver Cyclone Hugo Tempête Daria Tempête Herta Tempête Vivian Tempête Wiebke Typhon Mireille Incendie Oakland Cyclone Andrew Ouragan Iniki Blizzard Inondations Séisme Séisme Orage de grèle Ouragan Luis Ouragan Opal Ouragan Fran

Dommages (mia $) 1.3 3.1 4.5 5.1 1.3 2.1 1.3 5.2 1.7 20 1.6 1.8 1.0 12.5 3.0 1.1 1.5 2.1 1.6

#&     Le nombre de catastrophes est bien décrit par une distribution de Poisson.

Statistiques

Page 9-4

Estimations: principes n P ( X  n)  e . n! 

Il faut estimer  sur base des observations. $ ' Quelle est la fonction du maximum de vraisemblance? Quelle est la probabilité d'obtenir l'échantillon? X1 = nb de catastrophes en 1983 X2 = nb de catastrophes en 1984 ... X14 = nb de catastrophes en 1996 L  P( X 1 ;  ). P( X 2 ;  )... P( X 14 ;  )  e  .

 X1    X 2 Xn .e . ... e   . X1 ! X2 ! Xn !

  X 1 X 2 ... X n  e  n . .

X 1 ! X 2 !... X n ! $ ( On recherche le maximum de ln(L).   n.   X 1 X 2 ... X n  ln( L)  ln e .

  X 1 ! X 2 !... X n !    n.   ( X 1  X 2 ... X n ).ln(  )  ln( X 1 ! X 2 !... X n !) Le maximum de ln(L) se trouve au point où sa dérivée première par rapport à  s'annule. d ln( L) 0 d   n  ( X 1  X 2 ... X n ).

1 0 

  n  ( X 1  X 2 ... X n ).

1 

n  ( X 1  X 2 ... X n ). X  X 2 ... X n   1 n

1 

Dans notre exemple: Nb

Statistiques

Fréq. abs.

Nb total

Page 9-5

Estimations: principes catastrophes par an

obs. 0 1 2 3 4 5

catastrophes 4 5 3 0 2 0

0 5 6 0 8 0 19

nb. total. catastrophes nb. anné es 19  14  135 .



En moyenne, il y a 1,35 catastrophes par an.

Nombre de catastrophes 0.400

0.350

Fréquences relatives (%)

0.300

0.250 Fréq. rel. obs. Fréq. rel. théor.

0.200

0.150

0.100

0.050

0.000 0

1

2

3

4

5

Nb. de catastrophes par an

Nous verrons plus loin si les différences entre les fréquences observées et théoriques sont significatives au point de remettre en question la loi de Poisson.

    Le montant des dommages est bien modélisé par une loi de Pareto:

Statistiques

Page 9-6

Estimations: principes x  F ( x;  )  1   0   x



 1  x 0 . x  avec:    x0  x

le paramètre à estimer 1 milliard de $ le montant des dommages dF ( x;  ) dx  0   . x 0 . x  1 .( 1) 1   . x 0 11 .  1 x 1   . x 0 1 . x 01 .  1 x

f ( x;  ) 

 x   . 0  x0  x 

 1

$ ' L'expression de la fonction du maximum de vraisemblance est:  x  L  . 0  x0  x1 

 1

 x  . . 0  x0  x2 

 1

 x  ... .  0  x0  xn 

 1

 x n.( 1) .  1 0 1  1 x0 x1 . x2 ... xn ln( L)  n.ln( )  ln( x0 )  n.(  1).ln( x0 )  (  1).ln( x1 )  (  1).ln( x2 ) ... (  1).ln( xn )  n.

$ ( On recherche le maximum de ln(L) d ln( L) n   0  n.ln( x 0 ).1  ln( x1 )  ln( x 2 ) ... ln( x n ) d  n  ln( x1 )  ln( x 2 ) ... ln( x n )  n.ln( x 0 )  n   ln( x1 )  ln( x 2 ) ... ln( x n )  n.ln( x 0 ) n  x  x  x  ln 1   ln 2  ... ln n   x0   x0   x0  Dans notre exemple:

Statistiques

Page 9-7

Estimations: principes

Montants (mia $)

ln($/x0)

1.0 1.1 1.3 1.5 1.6 1.7 1.8 2.1 3.0 3.1 4.5 5.1 5.2 12.5 20.0



Fréq. abs. obs.

0.0 0.1 0.3 0.4 0.5 0.5 0.6 0.7 1.1 1.1 1.5 1.6 1.6 2.5 3.0

Ln($/x0)* fréq. abs. 1 1 3 1 2 1 1 2 1 1 1 1 1 1 1

0.00 0.10 0.79 0.41 0.94 0.53 0.59 1.48 1.10 1.13 1.50 1.63 1.65 2.53 3.00 17.36

n x  x  x  ln 1   ln 2  ... ln n   x0   x0   x0 

19 17.36  1.094 

Distribution du montant d'une catastrophe (Loi de Pareto) 1.200

Fréquences relatives cumulées (%)

1.000

0.800

Fréq. rel. cum. obs. Fréq. rel. cum. théor.

0.600

0.400

0.200

0.000 0.0

5.0

10.0

15.0

20.0

25.0

Montant (mia $)

Statistiques

Page 9-8

Estimations: principes

 !   On considère une fonction d'expression analytique connue: (x,), où x est l'argument et  un (ou plusieurs) paramètre inconnu, par exemple (x,) = l + 2.x. Supposons qu'à l'issue de la i ième expérience on observe la valeur Yi de la fonction (Xi,) avec une erreur aléatoire Ei (inconnue) et avec une valeur connue de la variable auxiliaire Xi. La méthode des moindres carrés donne pour estimation la valeur  qui minimise la somme des carrés des écarts SCE: SCE =  (Yi - (Xi,) )2



   "  Une estimation ponctuelle de  (  ) n'est pas suffisante: il n'y a aucune raison pour que  =  ; si l’estimateur est non biaisé, l'égalité est réalisée en moyenne, si l'estimateur est efficace,  fluctue (est dispersé) le moins possible autour de , s'il est convergent, cette fluctuation diminue avec n. On préfère alors donner une "fourchette" encadrant , donner un intervalle [1, 2] contenant . Cependant il est impossible de donner un intervalle qui contienne  avec certitude; au mieux on peut donner un intervalle qui contient  avec un forte probabilité fixée à priori et égale à 1- ( petit : 10%, 5%, ou 1%). 1- est appelé le degré de confiance et l'intervalle de confiance au niveau .

Statistiques

Page 9-9

Population normale

10

           

  

# 

 Soit Xl, X2, ..., Xn, un échantillon simple aléatoire tiré d'une population normale de moyenne m inconnue et d'écart-type  connu; c’est-à-dire que X1, X2, ..., Xn sont des variables aléatoires normales indépendantes et identiquement distribuées suivant une loi normale de moyenne m inconnue et d'écart-type connu . Comment estimer m, quelle est la précision de cette estimation et comment construire un intervalle de confiance au niveau  ?

$ Construisons l'estimateur du maximum de vraisemblance de m. $ ' La fonction de vraisemblance L(X1,X2,...,Xn;) est: n

L   ( f ( X i ; )) i 1

1  X i  m   1 .

  .e 2    i 1   . 2

2

n

1  X 1  m 



2

. 1  .e 2   . 2

1

n

1  X 2  m 



. 1 . .e 2   . 2

 Xi m 



   1  2 .   . e i 1   . 2  n

    2

1  X n  m 



2

. 1 ... .e 2   . 2

2

Le logarithme de L est: n

1 n  Xi  m   1  ln L  ln    .   2 .  2 i 1   



  n.ln

Statistique



2  n.ln  

2

n 1 .  Xi  m2  2 2. i 1

Page 10-1

Population normale $ ( On doit trouver la valeur de m qui rend L maximum ou qui annule la dérivée première du logarithme de L: 1  n ln( L)  .  Xi  m2  2

m 2. m i  1 

1 n .  2.( Xi  m).( 1) 2. 2 i 1



n 1  .( 2 ).  ( Xi  m) 2. 2 i 1



1 n .  ( Xi  m)  2 i 1

On en déduit que la valeur m (1'estimateur recherché) de m qui annule la dérivée première est: 1 n .  ( Xi  m)  0  2 i 1 n

 ( Xi  m)  0 i 1

n

 ( Xi )  n.m  0 i 1

n

n. m   Xi i 1 n

m 

 Xi i 1

n

X

 m est-il biaisé ? Cet estimateur est non biaisé en effet:

Statistique

Page 10-2

Population normale  n    Xi  E ( X )  E  i 1   n      1 n  . E ( Xi ) n i 1 1 n  . m n i 1 1  . nm n m m est-il convergent ? On sait qu'une somme de normales indépendantes est encore une normale dont la variance est la somme des n variances ²; donc m est normale  . m est donc convergent (ce résultat se généralise: de moyenne m et d'écart-type n voir cours de probabilité). On peut montrer que m est efficace.

)   #     Soit u



(1 ) 2

le quantile d'ordre (1 

 ) d'une loi normale réduite. 2

Un intervalle de confiance pour m au niveau  est donné par :    IC ( )  X  u1 . ; X  u1 .

2 2 n n Vérifions cette affirmation:    P X  u1 .  m  X  u1  . 2 2 n n     P  u1 .  X  m  u1  . 2 2 n n  X m

 P  u1   u1

 2 2



n  P  u1  N (0,1)  u1 

2 2

 1 Commentons l'expression de cet intervalle de confiance. Statistique

Page 10-3

Population normale

 Il est centré sur X , la moyenne de l'échantillon.  La longueur de l'intervalle de confiance est proportionnelle à , la dispersion du phénomène étudié; cela est conforme à l'intuition: toutes autres choses restant égales, si le phénomène étudié est très dispersé, l'intervalle de confiance est plus grand que si le phénomène étudié est très peu dispersé autour du paramètre inconnu.  La longueur de l'intervalle de confiance est inversement proportionnelle à n; cela est conforme à l'intuition: plus le nombre d'observations est grand, plus grande est la précision qu'on peut espérer (au même niveau , c’est-à-dire avec le même risque d'erreur).  Si on veut diminuer la longueur de l'intervalle de confiance (en prenant le même risque d'erreur, c’est-à-dire en gardant le même ) on peut augmenter n; mais pour diminuer par 2 (par k) cette longueur, il faut multiplier par 4 (par k2) le nombre d'observations.  Plus le risque d'erreur est petit, plus long est l'intervalle de confiance: si  diminue, u  augmente. (1 ) 2

$  ## La moyenne observée vaut 15.1; il y a 10 observations; on sait que  vaut 0.70; on choisit un niveau de confiance 0.95 (un risque d'erreur de 5%) ; on a X  15,1 n  10   0,70 u1  1,960 2

 0,70  1,960.  0,43386 2 n 10 m  15,10 0,43 u1 .

l'intervalle est donc: IC  14,67;15,53

$  

# 

 Soit Xl, X2, ..., Xn, un échantillon simple aléatoire tiré d'une population normale de moyenne m inconnue et d'écart-type  inconnu; c’est-à-dire que X1, X2, .... Xn sont des variables aléatoires normales, indépendantes et identiquement distribuées suivant une loi normale de moyenne inconnue et d'écart-type inconnu. Comment estimer m et , quelle est la précision de ces estimations et comment construire un intervalle de confiance au niveau  pour m et ?

Statistique

Page 10-4

Population normale

$ Construisons les estimateurs du maximum de vraisemblance de m et de  $ ' Pour rappel, le logarithme de L est:



Ln( L)   n.ln



2  n.ln  

n 1 2 . Xi  m 2  2. i 1

$ ( On doit trouver les valeurs de m et de  qui rendent L maximum ou qui annulent les dérivées premières du logarithme de L par rapport à m et : Ln( L) 0 m on en déduit que la valeur m (1'estimateur recherché) de m qui annule la dérivée première est: m 

1 n .  Xi  X n i 1

Pour la dérivée par rapport à : n Ln( L)  n 1   .( 2). 3 .  ( Xi  X ) 2   2 i 1



n 1 n  3 .  ( Xi  X ) 2   i 1

n 1 n  3 .  ( Xi  X ) 2   i 1 n

1 n .  ( Xi  X ) 2  2 i 1

on en déduit que l'estimateur recherché est: 1 n  2  .  ( Xi  X ) 2  s 2 n i 1 2 s est la variance calculée sur l'échantillon.

 On démontre le résultat suivant:

Statistique

Page 10-5

Population normale

 X est distribuée suivant une loi normale de moyenne m et d'écart-type

 n

   X  N  m,   n  ns²/² est distribué suivant une loi chi-carrée à n-1 degrés de liberté n. s2   n 1 2  X et s² sont indépendants Les propriétés suivantes découlent de ce résultat. ' X est un estimateur non biaisé et convergent. ( s², la variance biaisée calculée sur l'échantillon, est estimateur biaisé de ², la variance de la population. En effet: l'espérance d'une chi-carrée à n-1 degrés de liberté est égale à n-1, donc (n  1) l'espérance de ns²/² est n-1 et l'espérance de s² est  ² . (<  ² ). n E   n 1   n  1 donc  n. s 2  E 2   n  1   n . E (s2 )  n  1 2  n 1 2 E (s2 )  . n s *2 

n . s2 n 1

Le biais de ² est connu:

n 1 ( ! 1) n

s2 sous-estime 2. s*2 est la variance non-biaisée calculée sur l'échantillon.

Statistique

Page 10-6

Population normale

s*2 

n . s2 n 1 n



 ( X

n i . n 1 n



( X i 1

i

i

 m) 2

1

n  m) 2

n 1

* s² est convergent.

)   #       Soit t ( n 1;1

2

)

le quantile d'ordre 1-/2 d'une distribution t à n-1 degrés de liberté; un

intervalle de confiance au niveau  est donné par: s s  ; X  t ( n 1;1 ) 

X  t ( n 1;1 2 ) 

2 n 1 n  1 Vérifions cette affirmation.

Statistique

Page 10-7

Population normale s s  P X  t( n 1;1  ) .  m  X  t( n 1;1 ) . 2 2 n 1 n  1 s s   P  t( n 1;1 ) .  X  m  t( n 1;1 ) . 2 2 n 1 n  1  n 1  P  t( n 1;1 )  ( X  m).  t( n 1;1 ) 2 2 s  n 1  n  P  t( n 1;1 )  ( X  m). . .  t( n 1;1 ) 2 2 s n  

( X  m) n  1  P  t( n 1;1 )  .  t( n 1;1 )  2 2 s n





n  

( X  m) n  1

 P  t( n 1;1 )   t( n 1;1 ) .  2 2

n. s2

2 n   n 1 t  P  t( n 1;1 )  N (0,1). 

( n  1;1  ) 2 2  2n 1



N (0,1)

t   P  t( n 1;1 )  ( n 1;1  2 ) 2 2

 n 1

n 1  P  t( n 1;1 )  tn 1  t( n 1;1 )

2 2  1

Le numérateur

X m est distribué suivant une loi normale réduite.  n

Le

ns ²  ² est la racine d'une chi-carrée divisée par son degré de liberté. dénominateur n 1 Le numérateur et le dénominateur sont indépendants, le quotient est donc une t de Student à n-1 degrés de liberté. s s  IC  X  t( n 1;1 ) . ; X  t( n 1;1 ) . 2 2 n 1 n  1  s* s*  X  t( n 1;1 ) . ; X  t( n 1;1 ) . 2 2 n n

Statistique

Page 10-8

Population normale En effet n . s2 n 1 *2 s s2  n n 1 * s s  n n 1 s*2 

Quand on passe d'une normale de  connu vers une normale de  inconnu, on remplace: u1  t( n 1;1  ) 2

2

s

*

)   #      + Soit t n 1; et t n 1;1 2

2

les quantiles d'ordre /2 et 1-/2 d'une loi chi-carrée à n-1

degrés de liberté; un intervalle de confiance au niveau  pour 2 est donné par  n. s2 n. s2

;

tn 1;1  tn 1; 2 2 Vérifions cette affirmation.  n. s2 n. s2 2

P   tn 1;

tn 1;1 2 2  1 1 2  P

  n. s2 tn 1;

tn 1;1 2 2  1 1 n. s2  P

 2  tn 1;1 

tn 1; 2 2  1 

$  ## La moyenne observée vaut 15.1 et la variance observé (s²) vaut 0,7; il y a 10 observations; on choisit un niveau de confiance 0,95 (un risque d'erreur de 5%); on a t ( n 1;1 )  t ( 9;0.025)  2,262 2

t ( n 1;1

2

)



Statistique

0,7 s  2,262   0,63084 9 n 1

Page 10-9

Population normale

l’intervalle est donc: [14.47, 15.73]

Statistique

Page 10-10

Estimation d'une proportion

11

        



 

On s'intéresse à l'estimation de la proportion p d'individus d'une population présentant une certaine caractéristique. Pour chacun des n individus de l'échantillon, on appelle Xi (i = 1,2,...,n) l'indicateur de la caractéristique: Xi=l si et seulement si l'individu i la présente. Xi = l avec la probabilité p. Le nombre total Y (= E (Xi)) d'individus de l'échantillon qui présentent la caractéristique est distribué suivant une loi binomiale de paramètres n et p. L'estimateur "évident" de p est Y/n (la fréquence relative); retrouvons cet estimateur en appliquant la méthode du maximum de vraisemblance.

  

$ ' La fonction de vraisemblance est: L( y; p)  "Y  y   C yn . p y .(1  p) ( n  y ) où C(n,y) est le coefficient binomial.

$ ( Recherchons le maximum de L(y;p) (ou de son logarithme) par rapport à p

Statistiques

Page 11-1

Estimation d'une proportion ln( L)  ln( C)  y.ln( p)  ( n  y ).ln(1  p) dLn( L) y n  y   dp p 1  p 0 y n y  p 1  p y.(1  p )  p .(n  y ) y  y. p  p . n  y. p y  p . n y p  n Donc l'estimateur du maximum de vraisemblance est la fréquence relative observée.

   La fréquence relative est un estimateur:  non biaisé E ( y ) n. p E ( p )   p n n  convergent car la fréquence relative observée converge vers la fréquence théorique  y E   p  n  efficace



   "      p.(1  p)   p n  N  p;  n   L'expression analytique de la distribution de Y/n est connue (elle dépend de p) Comme l'écart-type dépend du paramètre inconnu, on effectue une transformation en utilisant la propriété suivante: 1  1    g ( x )  2.arcsin p   N  2.arcsin p ;   N  g ( p);    n n x h( x )  g 1 ( x )  sin 2 2 Remarque: les arguments des fonctions trigonométriques sont exprimés en radians.

Statistiques

Page 11-2

Estimation d'une proportion Soit u1 le quantile d'ordre 1-/2 d'une distribution normale réduite 2

y u1 2  n n y u1 2 z 2  2.arcsin  n n z z  IC  sin 2 1 ; sin 2 2 2 2

z1  2.arcsin

est un intervalle de confiance au niveau  (approché) pour p. Vérifions cette affirmation. z z  P sin 2 1 ! p ! sin 2 2 2 2  Ph( z1 ) ! p ! h( z 2 )

 P g (h( z1 )) ! g ( p) ! g (h( z 2 ))  P z1 ! g ( p) ! z 2 

 y u1 2 y u1 2

 P 2.arcsin  ! g ( p) ! 2.arcsin  n n n n

u1   y  u1  y 2 2

 P g   ! g ( p) ! g     n n n

 n  u1  u1  y 2 2

 P  ! g    g ( p) !    n n n

  y g    g ( p)

 n  P  u1 ! !  u1 1 2 2



n  P  u1 ! N (0,1) !  u1

2 2  1

  !"" 72% des personnes d'un échantillon de 50 présentent une caractéristique; on choisit un niveau de 5%.

Statistiques

Page 11-3

Estimation d'une proportion n  50 y  0.72 n 196 . .  174921 50 196 . z 2  2.arcsin 0.72   2.30358 50 . 174921 h( z1 )  sin 2  0.589 2 2.30358 h( z 2 )  sin 2  0.834 2 L'intervalle de confiance est donc [58.9 %; 83.4 %] z1  2.arcsin 0.72 

   Il existe des abaques donnant des intervalles de confiance au niveau  "exacts" (non asympotiques)  L'intervalle de confiance est approché, dans la pratique l'approximation est valable pour n>36  Un autre intervalle de confiance (approché) au niveau  est obtenu en utilisant l'approximation normale de la binomiale 

p  u1 2

p .(1  p ) ; p  u1 2 n

p .(1  p )

n

où p est la fréquence relative observée.

Statistiques

Page 11-4

Estimation de la différence entre 2 moyennes

12

    "" 

%&





 

On dispose de 2 échantillons, X1,X2, ...., Xnl et Y1,Y2, ... Yn2,  indépendants  issus de 2 populations normales de moyennes ml et m2 inconnues  de même écart-type  inconnu On désire estimer la différence entre ml et m2 (m1-m2).

   Les résultats suivants se déduisent du résultat fondamental concernant la distribution et l'indépendance de XBAR et s²:

 XBAR1 (moyenne échantillon du premier échantillon) est distribué suivant une  loi normale de moyenne ml et d'écart-type n1  XBAR2 (moyenne échantillon du deuxième échantillon) est distribué suivant une  loi normale de moyenne ml et d'écart-type n2 ( n1 * s1²  n2 * s2² )  est distribué suivant une loi chi-carrée à nl+n2-2 degrés de ² liberté où sl et s2 sont les écarts-types observés du premier et du deuxième échantillon  XBAR1, XBAR2, (nl S1² + n2 s2²) sont indépendants De ces résultats, on déduit facilement que le rapport: n1  n2  2 ( X 1  X 2)  (m1  m2) * est distribué suivant une loi t de Student à 1 1 n1 * s1²  n2 * s2²  n1 n2 nl+n2-2 degrés de liberté.

Statistiques

Page 12-1

Estimation de la différence entre 2 moyennes



   "      ' Soit t le quantile d'ordre 1-/2 de la distribution de Student à nl+n2-2 degrés de liberté; un intervalle de confiance au niveau  pour ml-m2 est donné par: 

( X  X )  t n s 2  n s 2 2 1 1 2 2

1



1 1  n1 n2 n1  n2  2

,( X 1  X 2 )  t n1 s12  n2 s22

1 1 

n1 n2 n1  n2  2



  !"" Le premier échantillon est : 12, 5, 14, 3, 10, 9, 8, 11, 16. Le deuxième échantillon est : 219 19, 18, 8, 14, 12, 20, 13, 11, 15 On choisit un niveau de 5%. On a n1 = 9 n2 = 10 n1+n2-2 = 17 XBAR1= 9.778, s1² = 15.06 XBAR2 = 15.1, s2² = 16.49 XBAR1-XBAR2 = -5.322 t 9 10 2;0,975  2,110

t n1 s12  n2 s22

1 1  n1 n2 n1  n2  2

 2,11  17,33  0,1114  4,07

l'intervalle de confiance est donc: -5.322 + 4.07 [-9.392 -1.2521]

Statistiques

Page 12-2

Test d'hypothèses: principes

13

(  !&  !$   



 

Dans certains cas, plutôt que d'estimer des paramètres inconnus sur base d'un échantillon, on préfère émettre une hypothèse concernant la population ou le phénomène étudié, et ensuite, vérifier dans quelle mesure cette hypothèse est confirmée ou infirmée par les faits. Les exemples sont multiples:  telle variable sociologique influence-t-elle les résultats scolaires ?  le nombre de fonctionnaires masculins et féminins de tel niveau est-il le même ?  tel traitement influence-t-il le comportement de tels animaux étudiés ?, ... On remarque que l'hypothèse émise amène à une réponse non quantitative, du type "oui/non"., soit l'hypothèse est confirmée soit elle est infirmée. Remarque: les tests d'hypothèses sont normalement réalisés avant l'estimation

)&  !$ # 

'!&  !$

 L'hypothèse émise est appelée hypothèse nulle. La négation de cette hypothèse est appelée contre-hypothèse. Le travail théorique du statisticien consiste à mettre au point une procédure appelée test statistique, ou test d'hypothèses; en suivant les directives de calcul de ce test d'hypothèse, le statisticien déclare le rejet (noté RH0) ou l'acceptation (notée AH0) de l'hypothèse nulle.

Statistiques

Page 13-1

Test d'hypothèses: principes

 $ $  $  Rejeter l'hypothèse nulle (RH0) comporte un risque: celui de rejeter comme fausse une hypothèse qui est vraie dans la réalité des faits mais qui, sur base de l'échantillon recueilli, semble déraisonnable. Ce risque est appelé le risque de première espèce et est mesuré par la probabilité de commettre l'erreur (appelée erreur de première espèce) de rejeter une hypothèse vraie. Cette probabilité est notée . Accepter l'hypothèse nulle (AH0) comporte un risque: celui d'accepter comme vraie une hypothèse qui est fausse dans la réalité des faits mais qui, sur base de l'échantillon recueilli, semble raisonnable. Ce risque est appelé le risque de deuxième espèce et est mesuré par la probabilité de commettre l'erreur (appelée erreur de deuxième espèce) d'accepter une hypothèse fausse. Cette probabilité est notée #. Exemple: H0: "est atteint d'une maladie incurable et mortelle"  Erreur de 1e espèce: on lâche un infectieux dans la nature  Erreur de 2e espèce: la personne n'est en fait pas malade On peut résumer les erreurs dans le tableau suivant:

décision de RH0 décison de AH0

H0 est vraie erreur de espèce pas d'erreur

1e

H0 est fausse pas d'erreur erreur espèce

de

2e

Les probabilités correspondantes sont:

décision de RH0 décision de AH0

H0 est vraie  1-

H0 est fausse 1-# #

On souhaite que les 2 risques ( et #) soient petits; mais en général il n'est pas possible de les contrôler tous les deux simultanément. La convention adoptée est de majorer  qui est appelé le niveau du test et de choisir une procédure qui, si possible, minimise #. On choisit pour  une petite valeur de l'ordre de 10%, 5%, 1%. Le risque de lère espèce est donc contrôlé (il est au plus égal au niveau du test), le risque de 2ème espèce est, au mieux, le plus petit possible. La puissance du test est définie comme étant égale à 1-# (en général c'est une fonction): plus la puissance du test est élevée, plus la probabilité de RH0 une hypothèse fausse est grande et "meilleure" est la procédure choisie.

Statistiques

Page 13-2

Test sur une proportion

14

(     

(  !&  !$ Testons l'hypothèse nulle suivante: "la proportion d'individus présentant une caractéristique donnée est égale à 1/2. Un test d'hypothèse au niveau  consiste à RH0 ssi  u1 2 RH0 ssi 2.arcsin f   2 n où f est la fréquence relative observée et u(l-/2) le quantile d'ordre 1-/2 de la loi normale centrée réduite. Vérifions cette affirmation; nous devons vérifier que le test est au niveau , ou que le risque de lère espèce est , ou que la probabilité de rejeter l'hypothèse nulle alors qu'elle est vraie vaut :   u1 2

P RH 0 H 0. vraie  P 2.arcsin f   2 n

  u1 2

 1  P 2.arcsin f  ! 2 n

u1  u1  2 2

P .arcsin f 1 2    !  ! 2 n n

u1  u1 1 2 2

 1  P  ! 2.arcsin f  2.arcsin ! 2 n n

 1 2.arcsin f  2.arcsin

2 ! u

 1  P  u1 !  1 2 1 2



n Si H0 est vraie

Statistiques

Page 14-1

Test sur une proportion  1 1  2.arcsin f   N  2.arcsin ;  2 n  Donc, P RH 0 H 0. vraie  1  P  u1 ! N (0,1) !  u1

2 2

 1  (1   )  11  Exemple chiffré Sur 82 naissances annuelles, il y a 37 chiots mâles et 45 femelles. La probabilité d'une naissance mâle est-elle la même que celle d'une naissance femelle? 2.arcsin u1 n

2



37    1473 .  1571 .  0.098  0.098 82 2 196 .  0.216 82

Comme la valeur calculée est inférieure à la valeur tabulée, on ne rejette pas l'hypothèse nulle.

       

Un calcul simple permet d'évaluer la puissance du test précédent: la puissance du test (notée ici PUIS) est la Proba[RH0 alors que H0 est fausse]. Si H0 est fausse, c'est que le pourcentage n'est pas de 1/2 mais p; la puissance est une fonction de p: PUIS(p). Un calcul explicite donne:

Statistiques

Page 14-2

Test sur une proportion P RH 0 H 0. fausse  Puissance( p, n)   u1 2

 P 2.arcsin f   2 n

  u1 2

 1  P 2.arcsin f  ! 2 n

u1  u1  2 2

 1 P  ! 2.arcsin f  !  2 n n

  u1  u1 2 2

 1  P  ! 2.arcsin f !  2 n n

2  u1  u1  2.arcsin f  2.arcsin p  

2  2  ! ! n .   2.arcsin p   1  P n .   2.arcsin p 

    1 2 2 n n

   



n       1  P n .   2.arcsin p   u1 ! N ( 0,1) ! n .   2.arcsin p   u1     2 2 2 2        1  n .   2.arcsin p   u1  n .   2.arcsin p   u1 2  2  2 2 où u est le quantile d'ordre 1-/2 d'une loi normale réduite et $ sa fonction de répartition. On remarque que la puissance dépend de n également: PUIS(p;n). P uissan ce d u test sur u ne pro po rtion 100%

90%

80%

Puissance=P[RH0|H0 faux]

70% 30 40 50 100 200 500

60%

50%

40%

30%

20%

10%

0% 0.00

0.20

0.40

0.60

0.80

1.00

1.20

V aleu r d u p aram ètre in co n n u p

Statistiques

Page 14-3

Test sur une proportion La connaissance de PUIS(p;n) permet de répondre à 2 questions:  "Si p=p0, quel est le nombre d'observations nécessaires pour rejeter l'hypothèse nulle avec une forte probabilité de A ?" Pour répondre à cette question, il suffit de résoudre l'équation en n: PUIS(p0;n) = A. Par exemple, si p0=0.25 et A=0.851, on trouve n=33. En d'autres termes, si on veut rejeter l'hypothèse nulle presque sûrement (avec une probabilité de 0.851) si la proportion est de 0.25, il faut au moins 33 observations.

 2ème question: "Si on a n0 observations, quelle est la valeur de p qui conduit au rejet avec une forte probabilité de A?". Pour répondre à cette question, il suffit de résoudre l'équation en p: PUIS(p;n0) = A. Par exemple, si N=1000 et A=0.851, on trouve p=0.453. En d'autres termes, avec 1000 observations on rejette presque sûrement (avec une probabilité de 0.851) l'hypothèse nulle si p=0.453

Statistiques

Page 14-4

Test d'égalité de 2 moyennes

15

(    % &



 !

    

 ,  Les conditions d'application sont les suivantes:  2 populations indépendantes  la première population est distribuée suivant une loi continue quelconque de moyenne ml (inconnue) et la deuxième est distribuée suivant la même loi mais éventuellement translatée d'une quantité % inconnue. Sur base d'un échantillon de taille nl issu de la première population et d'un échantillon de taille n2 issu de la deuxième, on veut tester l'hypothèse nulle "%=0".

$ 

Considérons l'exemple suivant. On a mesuré la taille de 10 personnes d'un groupe social donné A et la taille de 10 personnes d'une population de référence B. Rangeons par ordre croissant les 20 mesures effectuées (seuls la dénomination du groupe et le rang qu'occupe la mesure sont repris) Populations A A A A A A A B A A B A B B

Statistiques

Rangs 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Page 15-1

Test d'égalité de 2 moyennes Populations B B B B B B

Rangs 15 16 17 18 19 20

Si, une fois groupés, les individus du groupe A occupent en général les rangs faibles (ou élevés), on peut douter de l'hypothèse nulle "%=0". Pour déterminer si les individus de l'échantillon A occupent en général les rangs faibles (ou élevés), comptons pour chaque individu de la population A, le nombre d'individus de la population B qui le précédent: Populations A A A A A A A B A A B A B B B B B B B B

Rangs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total:

Nb de B 0 0 0 0 0 0 0 1 1 2

4

La somme de ces nombres vaut 4. Cette statistique, notée U, est appelée "statistique de Mann-Whitney. La statistique U est d'autant plus petite ou plus grande que les deux échantillons sont translatés l'un par rapport à l'autre. On aurait pu, semblablement, compter le nombre d'individus de l'échantillon A qui précédent chaque individu de l'échantillon B: cette manière de faire n'apporte rien de neuf : la somme U' de ces nombres se déduit de U à l'aide de la relation U' = nl . n2 - U

Statistiques

Page 15-2

Test d'égalité de 2 moyennes

"  - . U est une variable aléatoire dont on peut déterminer le comportement. n1 . n2 2 n . n .(n  n2  1)  2 (U )  1 2 1 12 . Si les deux populations sont les mêmes, les rangs de la première se mélangent aux rangs de la deuxième sans tendance particulière à se situer parmi les petits ou les grands rangs. En fait toutes les configurations de rangs sont équiprobables; on peut donc par simple énumération des cas possibles déterminer la distribution de U. E (U ) 

La distribution de U sous H0 est ainsi tabulée pour différentes valeurs de nl et n2. La table reproduite en annexe donne le seuil de rejet de l'hypothèse nulle "%=0" au niveau =5% . Pour utiliser la table, on procède de la manière suivante:

 on calcule U  on calcule U' = nl.n2 - U  si min(U, U') est inférieur ou égal à la valeur lue dans les tables, on rejette l'hypothèse nulle "%=0" (au niveau 5%) RH 0 ssi min(U , U ')  table U  E (U ) n1 ,n2     N (0,1) D(U ) Pour des valeurs de nl ou de n2 plus élevées que celles des tables, on utilise l'approximation normale: on peut en effet démontrer que U centrée et réduite converge en loi vers une distribution normale de moyenne 0 et d'écart-type 1. RH 0. ssi.

U  E (U )  u1 2 D(U )

Concrètement, on calcule U, on lui enlève sa moyenne, on divise par son écart-type. Si la valeur ainsi obtenue dépasse en valeur absolue le quantile d'ordre 1-/2 d'une normale centrée, réduite, on rejette l'hypothèse nulle au niveau . Remarquons que, pour simplifier les calculs, la statistique U vaut U  n1 . n2 

Statistiques

n1 .(n1  1)  R1 2

Page 15-3

Test d'égalité de 2 moyennes

où R1 est la somme des rangs du premier échantillon.

$   &

Les deux échantillons indépendants A et B suivants sont-ils significativement différents ?  A: 56 60 67 71 73 80 83 87 89  B: 37 41 49 53 58 62 65 66 72 77 79 81 82 84 On a : nl=9, n2=14 et nl+n2=23 . Les valeurs ordonnées sont: 37
View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF