(Analysis Of Variance).

January 9, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités

Short Description

Download (Analysis Of Variance)....

Description

ANALYSE DE VARIANCE GLOSSAIRE Analyse de variance L’analyse de variance permet d’étudier l’influence d’une ou de plusieurs variable(s) qualitative(s) sur une variable quantitative Y. La variable Y est dite variable à expliquer, les variables qualitatives sont appelées variables explicatives. Y est encore appelée variable dépendante, les variables qualitatives variables indépendantes. Y est parfois appelée réponse. L’analyse de variance revient à comparer plusieurs moyennes simultanément. Lorsque l’influence de plusieurs variables qualitatives est étudiée, on décrit en plus les moyennes en tenant compte des effets des différentes variables explicatives combinées, afin d’expliquer les différences entre les moyennes. L’analyse relève des méthodes de statistique inférentielle. Les questions étudiées portent sur des paramètres caractéristiques de populations. L’étude réalisée utilise des échantillons issus de ces populations. C’est à partir de ces échantillons que des tests statistiques permettent de conclure sur les paramètres étudiés. L’analyse de variance est souvent codée ANOVA (Analysis Of Variance). Facteur Dans le cadre de l’analyse de variance, une variable qualitative explicative est appelée facteur. Une variable qualitative correspond à une caractéristique observée sur les individus, qui permet de placer ceux-ci dans des catégories de même nature (ex : couleur des yeux, race bovine, régime alimentaire, type d’exploitation….). Les catégories sont appelées modalités ou niveaux du facteur. Selon l’étude réalisée, on utilisera la méthode d’analyse de variance à un facteur, à deux facteurs croisés, à trois facteurs… Modalité Une modalité équivaut à une valeur prise par une variable qualitative (c’est une catégorie décrite par cette variable). Si les modalités sont naturellement ordonnées (ex : peu sucré, sucré, très sucré), la variable est qualitative ordinale. S’il n’y a pas d’ordre entre les modalités (ex : Charolais, Limousin, Aubrac), la variable est qualitative nominale. Facteurs croisés Deux facteurs sont croisés si chaque modalité du premier facteur est combinée à chacune des modalités du deuxième facteur. 1

Modèle Un modèle est une expression mathématique visant à décrire ou à prédire la réalité. Le modèle décrit l’influence d’une ou plusieurs variables sur la variable à expliquer Y Chaque valeur mesurée sur un individu pour la variable Y est décomposée en deux termes qui s’ajoutent : un terme correspondant au modèle et décrivant l’influence des variables explicatives et un terme appelé résidu du modèle. Individu statistique Les individus statistiques sont les éléments (les unités) de même nature sur lesquels sont mesurées ou observées des variables (ex : personnes / couleur des yeux, vaches / race bovine, exploitations agricole / type d’exploitation…). L’ensemble des individus statistiques constitue une population si cet ensemble est complet. Une population peut être infinie. L’ensemble des individus statistiques constitue un échantillon, s’il correspond à une partie d’une population. Echantillon aléatoire Un échantillon est aléatoire si chacun des individus qui le constituent a été tiré de la population au hasard et avec la même probabilité. Un échantillon aléatoire et simple correspond à des tirages équiprobables et indépendants. La réalisation de tels échantillons permet de respecter le postulat d’indépendance de l’analyse de variance. Il est donc très important de travailler avec des échantillons aléatoires. Répétitions Une étude présente des répétitions si plusieurs individus statistiques différents sont mesurés pour chaque modalité du facteur étudié. Un modèle peut décrire (ou prédire) assez bien la réalité sans fournir d’explication correcte de celle-ci (attention à l’explication biologique du modèle, par exemple). Paramètre Un paramètre du modèle est un terme qui traduit l’influence d’une variable explicative sur la variable Y. Pour les modèles d’analyse de variance, les paramètres sont des espérances (des moyennes de populations) ou des écarts entre des espérances, dont les valeurs traduisent l’effet des modalités d’un facteur. Ce sont donc des valeurs exprimées dans l’unité de Y. Résidu Le résidu est la différence entre la valeur observée sur un individu et la valeur prédite par le modèle. Le résidu, encore appelé erreur du modèle ou écart du modèle, dépend de : 2

-

ce que le modèle ne décrit pas (omission de variables explicatives dans le modèle) l’effet individuel. Celui-ci traduit la part de la valeur observée due à l’individu. Des individus avec les mêmes caractéristiques pour les variables explicatives n’ont pas les mêmes valeurs car la variable Y présente une variabilité naturelle. L’erreur expérimentale, l’erreur commise lors de la mesure. Cette erreur doit donc être minimisée. La variance résiduelle (variance des résidus) mesure la dispersion des résidus. Si aucune variable n’est omise dans le modèle, cette variance résulte de la variabilité entre individus et de la variabilité des erreurs de mesure. Elle mesure la variabilité existant dans chaque population correspondant à une modalité du facteur étudié (ou à chaque combinaison des facteurs étudiés). Modèle linéaire Un modèle est linéaire si son expression mathématique est une combinaison linéaire des paramètres du modèle. Pour l’analyse de variance, cette combinaison linéaire est une somme de paramètres. Les résidus sont des variables aléatoires qui suivent des conditions qu’on appelle postulats du modèle linéaire. Test statistique / Statistique de test Un test statistique permet de choisir une hypothèse relative à des populations, parmi deux hypothèses envisagées, H0 et H1. Une seule de ces hypothèses est vraie. La décision est basée sur une statistique de test dont la valeur est calculée à partir des échantillons. La statistique de test suit une loi de probabilité connue quand l’hypothèse nulle H0 est vraie. Quelle que soit la décision prise à l’issue du test statistique, elle est assortie d’une erreur ayant une probabilité. Si on rejette H0 (c'est-à-dire si on accepte H1), l’erreur commise, rejeter H0 alors qu’elle est vraie, est l’erreur de première espèce. Sa probabilité est appelée risque de 1ère espèce,  ; elle est fixée a priori par la personne interprétant l’étude. Si on accepte H0, l’erreur commise, accepter H0 alors qu’elle est fausse, s’appelle l’erreur de deuxième espèce. Sa probabilité est le risque de 2ème espèce,  ; sa valeur n’est pas connue (mais peut être calculée) et dépend de l’hypothèse H1. Un test statistique est paramétrique si les deux hypothèses formulées portent sur des paramètres caractérisant une variable dans des populations. Les tests statistiques utilisés en analyse de variance sont des tests paramétriques car ils font intervenir des moyennes de populations. Statistique inférentielle C’est l’ensemble des méthodes qui permettent de populations en utilisant les observations réalisées sur issus des populations. A partir des échantillons, on populations, à l’aide d’intervalles de confiance ou de tests 3

caractériser des des échantillons conclut sur les statistiques.

Interaction Dans le modèle, les termes d’interaction décrivent l’influence propre à chaque combinaison de deux facteurs croisés. D’un point de vue statistique, l’interaction est l’écart au modèle additif ; c'est-à-dire que le terme d’interaction s’ajoute aux effets moyens des deux facteurs pour décrire l’influence de la combinaison sur la variable Y. Si l’interaction est non significative, les effets moyens des facteurs A et B informent correctement sur l’influence des deux facteurs. La connaissance des effets moyens i et j suffit pour prédire l’effet de la combinaison AiBj. Si l’interaction est significative, la somme des effets moyens n’est pas suffisante pour décrire l’influence de la combinaison des facteurs sur Y. Conclure à partir des tests sur les effets moyens est insuffisant, voire erroné. Si l’interaction est significative, l’effet du facteur A dépend de la modalité du facteur B avec laquelle le facteur A est combiné (et réciproquement). Par exemple, s’il y a interaction entre la dose d’azote (facteur A) et la variété de blé (facteur B) pour le rendement, cela signifie que les différences entre les rendements obtenus avec les doses testées varient selon la variété considérée. Une interaction significative indique que les deux facteurs agissent sur la variable Y.

4

(Analysis Of Variance).

Short Description

Description

Comments

We need your help!