Ecart-type

January 9, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Ecart-type...

Description

STATISTIQUES INTRODUCTION I Statistique descriptive à une dimension - fréquence d'une distribution. - représentation graphique. - Les paramètres de position. - Les paramètres de dispersion : la variance et l'écart-type. II Probabilités et distributions théoriques - binomiale - normale

III Statistique descriptive à deux dimensions - corrélation - régression

IV Tests d'hypothèse - test de Student - test de ² (chi 2) - Analyse de variance (ANOVA).

DEFINITIONS : - Statistiques : ensemble des méthodes scientifiques, à partir desquelles on recueille, organise, résume, présente, et analyse les données qui permettent d'en tirer des conclusions et de prendre des décisions judicieuses. - Population et échantillon : Quand on rassemble des données caractéristiques d'un ensemble d'individus ou d'objets, il est difficile d'observer toutes les données. On en examine une partie, c'est ce qu'on appelle l'échantillon. Une population peut-être finie : échantillon. Une population peut-être infinie : nombre de lancers : n, n+1, n+2, ... - Statistique descriptive et inductive : -Lorsqu'un échantillon est représentatif de la population, on peut tirer des conclusions sur la population entière : c'est la statistique inductive. Lorsqu'on a un échantillon et qu'on se borne à le décrire, c'est de la statistique descriptive ou déductive. - Variables discrètes et variables continues : Variable : symbole qui peut prendre toutes les valeurs d'un ensemble donné, le domaine de la variable. Lorsqu'une variable ne peut prendre qu'une seule valeur, on dit que c'est une variable constante. Une variable peut théoriquement prendre toutes les valeurs situées entre deux valeurs données : c'est une variable continue (Ex : la taille des gens) Dans le cas contraire, on dit que c'est une variable discrète (Ex : nombre d'enfants). LA STATISTIQUE DESCRIPTIVE A UNE DIMENSION I Les distributions de fréquences Enumération de données observées : série statistique. On peut regrouper ces données dans la fréquence. A) La fréquence absolue (FA)

C'est le nombre d'occurrences d'une même valeur donnée. Exemple : la taille : 1.76 m - 1.76 m - 1.68 m - 1.68 m - 1.80 m - 1.72 m - 1.64 m FA: 2 2 2 2 1 1 1 B) La distribution de fréquence C'est l'ensemble des valeurs xi , rangés par ordre croissant, avec en face les fréquences correspondantes ni . i p

N : nombre d'observations total Exercice :

Tailles 162 164 169 170 171 180 181

FA 1 1 5 6 4 2 1

 ni = N = effectif total i 1

FAC (Cumulés) 1 2 7 13 17 19 20=N

FR 1/20 1/20 5/20 6/20 4/20 2/20 1/20

FRCumulés 1/20 2/20 7/20 13/20 17/20 19/20 20/20=1

n'i =ni / N  Fréquence relative (FR). FRC xn =1 II Représentation graphique Polygones de fréquence (= histogramme) : diagramme en ligne : représentation en bâton :

III Les paramètres de position A) La moyenne arithmétique Elle est notée . n

x

x1  x 2... xn 1 = i 1 = N N N i

N termes : x1, x2, ..., xn.

n

x

i

i 1

. p

n1x1  n2 x 2 ... npxp Si x1...xp avec des fréquences n1...np : = n1  n2 ... np

n x

i i

i 1 p

n

i

i 1

p

Or,

 ni = N i 1

Moyenne arithmétique de l'ensemble des tailles :

=

1 N

p

n x

i i

i 1

=

162x1  164x1  169x5  170x 6  171x 4  180x 2  182x1 20

=

162  164  845  1020  684  360  182 20

=

3417 = 170,85 m. 20

La moyenne d'une distribution de fréquence, c'est la moyenne des xi, pondérée par ni. Quelques propriétés de la moyenne :

n

* x' =

 (xi  x ) = 0. i 1

* a et b constantes :

x'i = a+bxi ' = a+b

On montre que la moyenne de plusieurs séries statistiques est égale à la moyenne des moyennes pondérés par les effectifs des différentes séries.

B) La médiane x~ : paramètre tel que la moitié des observations lui soit inférieure ou égale, et la moitié des observations lui soit supérieure ou égale. n 1 ~ - n impair : la médiane est l'observation de rang =x 2 Exemple : 3,4,4,5,6,8,8,8,10 n=9 n  1 9  1   5  x5  6 x~ = 2 2  n  n      1 2 2  - n pair : la médiane est l'observation de rang 2 Exemple : 3,4,4,5,6,8,8,8,10,11 n=10

 x 5  6 6  8 5 6   7 x~ = 2 x 6  8 2



Lorsque n est impair, la médiane appartient toujours à la série. Lorsque n est pair, la médiane peut ne pas appartenir à la série.

C) Le mode (M) Ce mode correspond à la valeur xi, qui a la plus grande fréquence ni. Une même série statistique peut avoir un seul mode (série unimodale), ou plusieurs (série plurimodale).

RELATION ENTRE LES PARAMETRES : * Pour une série unimodale et symétrique : M= x~ =. normale).

(Loi de Gauss, ou distribution

M= x~ =  * Pour une série unimodale et dissymétrique à gauche (a une skewness négative) : M < x~ < 

< x~ < 

Mode

* Pour une série unimodale et dissymétrique à droite : M > x~ > 

Le mode et la médiane ne sont pas influencés par des valeurs extrêmes, au contraire de la moyenne.

IV Les paramètres de dispersion A) L'étendue (e) Soit une série statistique : x1, ..., xn. On définie l'étendue e, telle que e = xn - x1 , si les x sont rangés par ordre croissant. B) La variance La variance d'une série statistique ou d'une distribution de fréquence correspond à la moyenne des carrés des écarts par rapport à la moyenne. V=

1 N

V=

1 N

n

 (x  x )² i

i 1 p

 n ( x  x )² i

i

i 1

Exemple : 0 1 2 3 4

pour une distribution de fréquence. (xi- x )² (0-5)²    

25 16 9 4 1

     

5 6 7 8 9 10

0 1 4 9 16 25

 (x  x )²  110 i

110  10  V  10 11 C) Ecart-type En prenant l'écart-type, on a une valeur de dispersion, standardisée par rapport à la moyenne. En moyenne, les valeurs de la série xi s'étalent de la valeur  autour de la moyenne. Ecart-type = Variance 1 n =  ( xi  x )² N i 1

Ecart-type = E.T.= 

Exemples : variance et écart-type de la série statistique :

1 2 3 4 5

(xi- x )² 4 1 0 1 4 10

5 10 15 20 25

(xi- x )² 100 25 0 25 100 250

*

*

x =3

10/5=2  V=2   =

2

x =3

250/5=50  V=50   = 50

On utilise les symboles suivants : Variance = ² ,pour une population, et Variance= S², pour un échantillon ou une estimation Ecart-type = 

x

x'i =

xi  x



x i  0 xi  1

x'i est une série statistique centrée ( x =0) et réduite ( = 1). x'i permet de placer deux séries statistiques sur le même graphique.

Seulement 68.27 % de la population appartient à l'intervalle  x   ; x    , mais 95.45% de la population appartient à l'intervalle  x  2 ; x  2  , et 99.73% de la population appartient à l'intervalle  x  3 ; x  3  . PROBABILITE ET DISTRIBUTION THEORIQUE DES PROBABILITES I) PROBABILITE Soit E consiste en n expériences également probables. Parmi les n cas, où il y ait H cas favorables à E, on définit la probabilité de e comme étant : H P(E) = n nH Probabilité de la non-réalisation de E : P( E )=Q=  1  P( E ) . n P+Q= 1 Un dé : 1,2,3,4,5,6.  P(5) = 1/6 P(3 ou 4) = 1/3 P( 3ou4) = 2/3 Probabilité de tirer une dame ou un coeur dans un jeu de 52 cartes : P(dame) = 4 / 52  4 13 1 16 4  P( DouC )      P(coeur) = 13 / 52 52 52 52 52 13 Si A et B sont deux éléments distincts, on désigne par P(B / A), c'est à dire la probabilité conditionnelle de B sachant que A s'est produit : P(B / A) = P(B) si A n'influence pas B P(A et B) = P(A)  P(B / A). Une boîte renferme 3 boules blanches et 2 boules noires. Soit A : la première est noire. Soit B : la deuxième est noire. Si les événements sont exhaustifs, quelle est la probabilité de (A et B) ? P(A et B) = P(A)  P(B / A) = 2/5  1/4 = 2/20 = 1/10

II) DISTRIBUTION THEORIQUE DE PROBABILITES DISCRETES Soit X (variable aléatoire) une variable prenant les valeurs x1 à xn. P(x1) = P(X=x1) P(x) est la distribution de probabilité de la variable aléatoire. Fonction de distribution : F(x)= P(X  x) ou = P(X  x) Exemples : X 1 P(X) 1/6

* Dé à 6 faces. Calculer la distribution de probabilité. 2 3 4 5 6 1/6 1/6 1/6 1/6 1/6

* Calculer la distribution de probabilité d'une variable aléatoire définie par la différence entre le lancer du dé numéro 1 et du dé numéro 2. X P(X)

-5 1/36

-4 2/36

-3 3/36

-2 4/36

-1 5/36

0 6/36

1 5/36

2 4/36

3 3/36

4 2/36

5 1/36

En s'aidant du tableau suivant : 1 2 3 4 5 6

1 0 -1 -2 -3 -4 -5

2 1 0 -1 -2 -3 -4

3 2 1 0 -1 -2 -3

4 3 2 1 0 -1 -2

5 4 3 2 1 0 -1

6 5 4 3 2 1 0

* Dans une famille de trois enfants, calculer la distribution de probabilité des garçons et des filles, sachant qu'il y a équiprobabilité des naissances. FFF FFG FGF GFF GGF GFG FGG GGG

1/6 1/6 1/6 1/6 1/6 1/6 1/6 1/6

Que des garçons : Que des filles : Deux garçons, une fille : Deux filles, un garçon :

1/8 1/8 3/8 3/8

III) LA LOI BINOMIALE n expériences identiques et indépendantes. A chacune sont associés deux événements exclusifs A et B. Identiques : P(A) et P(B) ne varient pas d'une expérience à une autre. Soit P(A) = p P(B) = q = 1-p  Schéma de Bernouilli (Exemple : pièce de monnaie) Nombre de réalisation X de l'événement A au cours des n expériences est une variable aléatoire discontinue, dont la loi de probabilité est : x C n px q n  x = p(X=x). n! x Par convention : 0! = 1 C n = x !( n  x )! Soit X la variable aléatoire représentée par le résultat du lancer d'une pièce de monnaie. Si on effectue dix lancers, quelle est la loi de probabilité de cette variable aléatoire ? x 10  x 10  1  1  1 1 x x x x  C10     C10  10 P(X=x) = C n  px  q n  x  C10        2  2  2 2

1 10! 1 5040 1 210 105  10     10  2 4! 6! 2 24 1024 1024 512 P(au moins 8 faces identiques) = P(X=8) + P(X=9) + P(X=10)  0,05. P(4 faces identiques) =

 10

C

4

Calculer la distribution de probabilité dans une feuille de trois enfants : X = nombre de garçon P(X=0) = 1/8 P(X=1) = 3/8 P(X=2) = 3/8 P(X=3) = 1/8 Exercice : La probabilité pour qu'un étudiant sorte diplômé de l'université est de 0,4, quelle est la probabilité pour que sur cinq étudiants, aucun, un seul, au moins un, et tous soient diplômés ?

Quelle est la loi suivie par la variable aléatoire ? P(aucun) = 0,65 = 0,07776. 1 1 P(un seul) = 0,64 0,4  C 5  0,05184  C 5  0,05184  5  0,2592 . P(au moins un) = 1 - P(aucun) = 1-0,07776=0,92224. P(tous) = 0,45 = 0,01024

IV) LA DISTRIBUTION NORMALE Si l'on considère la distribution binomiale, et que l'on fasse varier n sans faire varier la probabilité, lorsque n tend vers l'infini, la variable aléatoire tend à être continue. On obtient une ligne continue, et non constituée seulement de points reliés.

1/ 2 ( X   )²    np 1 Avec : y  avec e ²  8   npq 

Et : A 

 f ( x ) dx  1

ce qui permet de calculer : P(x0  X).



Distribution cumulée de l'ensemble des probabilités : utilisation de tables. Exemple : La taille moyenne de 500 élèves d'un lycée est de 1,51m, avec un écart-type de 15cm.  N(151, 15) On va utiliser la table N(0, 1). Comment passer de la table N(, ) à la table N(0, 1). x ' i  0 x0    x'i  Loi normale centrée réduite. avec   ( xi )  1 Quelle la probabilité pour qu'un élève ne mesure pas plus de 155cm ? P(X  155)=

 X  151 155  151  X  151 4   X  151    P P     P  0,26  15  15  15  15  15  On note  (0,26), et on trouve grâce à la table : 0,01 0,02 ... 0,06 0,1 0,2 0,6026 0,3  (0,26) = 60,26% P= 60,26%

Quelle est la probabilité pour qu'un élève mesure moins de 140 cm ?

 X  151 140  151  X  151  X  151  11   P P      P  0,73  15  15  15  15  15   ( 0,73)  1   ( 0,73)  1  0,6773  0,3227

Quelle est la probabilité pour qu'un élève mesure entre 140 et 162cm ?

140  151 X  151 162  151  P 140  X  162  P    15 15 15    X  151  P 0,73   0,73   15    0,73    0,73   ( 0,73)  [1   ( 0,73)]   ( 0,73)  1   ( 0,73)  0,7673  0,7673  1  0,5346 Quelles sont les valeurs limites 1 et 2, telles que 95% de la population soit comprises entre 1 et 2 ? P (1  X  2) = 0,95  (2) -  (1) = 0,95 1 = -2 ou 2 = -1  (2) -  (2) = 0,95  (2) - 1 +  (2) = 0,95 2 (2) = 1,95   (2) = 0,975  1 = -1,96 et 2 = 1,96 Ces chiffres, très important en statistiques, servent pour des tests à très grands effectifs. V) CŒFFICIENT D'ASYMETRIE ET D'APLATISSEMENT Kurtosis)

Z Skewness (Cœfficient d'asymétrie) =

3

avec : Z 

N

(=

Skewness

x0  x



Pour faciliter le calcul, on peut le représenter sous forme de tableau (comme pour la variance et l'écart-type). Si : -1,96  Skewness  1,96

On dit que la symétrie est normale.

Kurtosis (Cœfficient d'aplatissement) = Si : -1,96  Kurtosis  1,96

Z N

4

3

On dit que l'aplatissement est normal.

Si la symétrie et l'aplatissement sont normaux, alors la population est normale. STATISTIQUE DESCRIPTIVE A DEUX DIMENSIONS Elle a pour objectif de mettre en évidence les relations ou les différences qui existent entre deux séries d'observation réalisées en même temps.  Tests statistiques. I) Cœfficient de corrélation linéaire - PEARSON - SPEARMAN Cov ( x; y ) r  ( x ) ( y )

avec Cov ( x; y ) = Covariance

Sachant que Cov ( x; y ) 

1 (xi  x )( yi  y ) N

Pour simplifier les calculs, on peut utiliser un tableau : x y X = xi - x Y = yi - y XY 1 ... n  XY  Cov ( x; y ) x y N

N

N





 X²

 Y²

N

N

écarts- type Exercice sur la loi normale : On considère que la taille des individus sur le plan national suit une loi normale de moyenne 175 cm, et d'écart-type 10 cm. Calculer la probabilité qu'un individu mesure moins de 180 cm, qu'un individu mesure plus de 160 cm, et qu'un individu mesure entre 160 et 180 cm.

 X  175 180  175   X  175    P P( X  180)  P   0,5   ( 0,5)  0,6915  69,15% .  10  10  10   X  175 160  175   X  175 3   1  P P( X  160)  1  P( X  160)  1  P     10   10 10 2  1   ( 1,5)  1  1   (1,5)  93,32%. P(160  X  180)  P 1,5  X  0,5   ( 0,5)  1   (1,5)  0,6915  1  0,9332  62,47%. Exemple d'annales : Le muscle vaste latéral comporte un contingent de fibres de type lent (type 1) dont la proportion moyenne est susceptible de varier avec l'âge. Chez des individus d'âges différents, on recueille les pourcentages des fibres de type 1 : Age Fibres

17 55%

18 52%

21 53%

22 51%

23 50%

24 49%

25 50%

27 48%

 Déterminer la corrélation qui lie ces deux variables.  Estimer une valeur ponctuelle de la proportion de fibres lentes chez un individu de 30 ans.  Déterminer un encadrement pour cette valeur avec un intervalle de confiance de 95%.  On trouve, en réalisant le tableau, r = -0,91 Le cœfficient de corrélation doit toujours être tel que : -1  r  1 De plus : - lorsque r tend vers 1, on dit qu'il y a corrélation, ou co-variation (les deux séries varient dans le même sens. - lorsque r tend vers -1, on dit qu'il y a variation inverse (les deux séries varient en sens inverses : quand l'une augmente, l'autre descend, ou inversement). - lorsque r tend vers 0, les deux séries n'ont rien à voir. Tables de corrélation : les colonnes représentent les cœfficients de corrélation théoriques. On compare rcalculé et rthéorique. N (nombre de sujets) - 1 = df .05 = .666 Ici : N - 1 = 8 - 1 = 7   .01 = .798 - Si rcalculé < rthéorique  On prend l'hypothèse H0 : les deux séries sont indépendantes l'une de l'autre. - Si rcalculé > rthéorique  On rejette l'hypothèse H0, avec le risque  de la table (.05 = 5% ou .01 = 1%), et on prend l'hypothèse H1 : les deux séries sont liées. Le risque ne doit jamais excédé 5%.

Ici : rcalculé  0,9  rthé orique  0.666  les deux séries sont donc liées, avec un risque égal à 5%. On pourrait même prendre un risque égal à 1%, car 0,9 est aussi supérieur à 0,798. Formules pour calculer le cœfficient de corrélation r :

r

r

r

r

cov( x; y )  ( x ) ( y )

 ZxZy

avec Z(valeurs standardisé es)=

N

xi  x  (x)

 xy  (xy ) N  ( x ) ( y )

N   xy     x    y 

 N   x ²     x  ²  N   y ²     y  ²

Test réalisé par un psychologue, cherchant à montrer l’anxiété des personnes âgées à l’idée de perdre leur conjoint : Age Anxiété

65 114

x 65 73 66 63 62 73 62 76 68 72 ______ 680 x = 68

r



73 135

66 140

y 114 135 140 115 105 207 102 260 125 167 _______ 1470 et

63 115

62 105

x² 4225 5329 4356 3969 3844 5329 3844 5776 4624 5184 ________ 46480

73 207

62 102 y² 12996 18225 19600 13225 11025 42849 10404 67600 15625 27889 ________ 239438

76 260

68 125

72 167

xy 7410 9855 9240 7245 6510 15111 6324 19760 8500 12024 _________ 101979

y = 147

N  xy   x  y 

N  x²    x ²N  y ²    y ²



10  101979  680  1470 10  46480  46240010  239438  2160900

1019790  999600 20190   0,85 2367,75 2400  233480

On a donc : r = 0,85 les deux séries sont donc liées, avec un risque de .01, soit 1%. rcalculé  rthéorique Il y a donc co-variation.  Plus les gens sont âgés, plus ils sont anxieux à l’idée de perdre leur conjoint. r² = 0,72 : signification du cœfficient = variance commune

 72% de la variation en y est expliquée par la variation en x. 72% de l’augmentation de l’anxiété est expliquée par l’augmentation de l’âge. Les autres 28% sont sans explication. Si r = 0,2  r² = 0,04, soit 4% de variance commune. Ici, r ( = 72%) a une bonne significativité. Graphiquement : y co-variation  r = 1 r tthéorique  H0 rejetée au risque  = .05 (au moins). On accepte donc H1 au risque . Si les deux moyennes sont différentes, il faut bien sûr préciser laquelle est supérieure à l’autre. Exercice : Le psychologue qui faisait ses études sur l’anxiété a en fait utilisé un échantillon représentatif de dix personnes, sur les 25 qu’il avait à sa disposition. Voici les âges des personnes non retenues : 72, 70, 69, 67, 61, 58, 51, 49, 47, 43, 42, 41, 40, 40, 35. Peut-on considérer que les dix personnes retenues sont réellement représentatives de l’échantillon ? Que peut-on en déduire ? Moyenne des sujets retenus : x1  68 ans. Ecart-type : 1 = 4.89 Moyenne des sujets non retenus : x 2  52,3 ans. Calcul de 2 : X X = xi - x 72 19,7 70 17,7 69 16,7 67 14,7 61 8,7 58 5,7 51 -1,3 49 -3,3 47 -5,3 43 -9,3 42 -10,3 41 -11,3

X² 388,09 313,29 278,89 216,09 75,69 32,49 1,69 10,89 28,09 86,49 106,09 127,69

40 40 35

 X ²  2267,35 Donc :

t

x1  x 2   1²  2²  n1 n2

-12,3 -12,3 -17,3

Donc 2 =

151,29 151,29 299,29

2267,35  151,15  12,29 15

68  52,3 15,7 15,7    4,45 4,89² 12,29² 12,461 3,53  10 15

On a donc tcalculé = 4,45. Or, d’après les tables, tthéorique = 3,767 à .001 On a donc tcalculé > tthéorique avec un risque  = 0,001 = 0,1%. D’où, à un risque de 0,1%. Les deux moyennes ne sont donc pas semblables, et x 1 est supérieur à x 2 : le psychologue a donc, dans son étude de départ, pris les sujets qui l’arrangeaient le mieux. L’étude 1 n’est donc pas valide, et devrait donc être recommencée soit avec les 25 personnes, soit avec un échantillon réellement représentatif. Les personnes retraitées de l’étude 1 ont une anxiété qui est donc plus grande que des personnes ayant un âge allant de 35 à 72 ans. ² : significativité de la différence. t²  1 4,45²  1 18,80 ²     0,43 t ²  n1  n2  1 4,45²  25  1 43,8 43% de la différence entre x 1 et x 2 provient de l’âge. La différence observée entre deux séries est bien imputable au choix des deux séries. Exemple : On fait passer trois épreuves distinctes à 17 sportifs. On recueille pour chaque épreuve la VO2 max. Moyenne Ecart-type Piste 56,8 7,1 Navette 51,1 6,9 Tapis 54,4 6,7 1°) Comparer les valeurs de VO2 max. obtenues lors du test sur piste et lors du test par navette. D’un point de vue physiologique, peut-on conclure à une similitude entre ces deux tests ? 2°) Tester l’hypothèse que le test en laboratoire reproduit les conditions de la piste, au seuil de signification de 5%. Que peut-on en conclure ? 1°) Calcul de t : x1  x 2 56,8  51,1 t    1²  2² 7,1² 6,9²   n1 n2 17 17

5,7 5,7   2,375 50,41 47,61 2,4  17 17

tcalculé = 2,375 tthéorique = 2,04 tth < tcal  Rejet de H0  H1 : les 2 tests sont différents.  On a une consommation de O2 supérieure par le test sur piste, comparativement au test sur navette. 2°)

tcal = 1,01

tth > tcal  acceptation de H0.

tth = 2,042

Conclusion : le test sur tapis roulant représente bien le test sur piste. La différence observée est non représentative par rapport à l'échantillonnage. II) TEST ² (CHI 2 OU CHI CARRE) Brun 70 40 110 (NA)

Garçon Fille Total

Blond 30 60 90 (NB)

Total 100 (N1) 100 (N2) 200 (N)

La couleur de cheveu est-elle liée au sexe ? Tableau d'effectif théorique :

Garçon Fille

² 

Brun NA  NB  55 N NA  N2  55 N

Blond NB  N1  45 N NB  N2  45 N

²  

ddl = (l – 1) (c – 1) ddl = (nombre de lignes – 1) (nombre de colonnes – 1)

70  55²  30  45²  40  55²  60  45² 55

45

55

(obs - th)² th

45



225 25 25 15 250 40       18,18 55 45 55 45 55 45

² = 18,18 H0 : il y a indépendance entre la couleur des cheveux et le sexe. Si ²th < ²obs  Rejet de H0  H1 Si ²th > ²obs  H0 Ici : ddl = 1. P = 0,05  ²th = 3,85 On a : ²th < ²obs à p = 0,001.  Rejet de H0  H1 : le sexe influence la couleur des cheveux. Exercice : Un professeur d'EPS enseigne à deux classes de terminale :à la première terminale, il enseigne en présentant de façon séquentielle, à la seconde par une méthode de démonstration globale. Pour l'évaluation, il juge des effets des deux apprentissages, en comptant le nombre d'élèves possédant une bonne, moyenne, ou faible maîtrise de l'habileté : Bonne Moyenne Faible Total Méthode séqu. 15 27 13 55 Méthode globale 21 19 12 52 Total 36 46 25 107 Que pouvez-vous en conclure ? Après avoir fait un tableau d'effectif théorique, et calculé ², on trouve : ²cal = 2,378 Or, ²th = 5,99, à p = .05, donc, on a : ²cal < ²th H0 est donc conservée : les deux méthodes sont indépendantes, donc le résultat ne dépend pas de la méthode de travail. La maîtrise de l'habileté ne dépend du choix de la méthode. Est-ce que l'habileté considérée n'influence pas les résultats ? Exercice : On cherche à comparer l'influence du travail de musculation sur la morphologie des individus chez les deux groupes de sportifs qui s'entraînent soit en travail dynamique, soit en travail statique. On mesure le rapport entre la circonférence et la longueur de la cuisse (dont la

longueur moyenne est égale à 1). On compare alors le nombre d'individus, qui, dans chaque groupe considéré, présente un rapport supérieur ou inférieur à 1. (rapport = )  < 1  > 1 Total Travail dynamique 11 19 30 Travail statique 6 9 15 Total 17 28 45 Posez l'hypothèse d'analyse des résultats. Que peut-on en conclure sur l'influence du type de travail sur la morphologie des sujets ? Le gain de masse musculaire est-il favorisé par un type d'entraînement particulier ? On trouve : ² = 0,046 Or, ²th = 3,84 à p = .05  ²obs < ²th  H0  Les deux types de travail sont équivalents, donc le gain de masse musculaire est identique pour les deux types d'entraînement. EXERCICES

I) La taille moyenne de 500 élèves de petite classe d'un lycée est de 151 cm, d'écart-type 15 cm. Si la taille est distribuée normalement, calculer : 1°) La probabilité qu'un élève mesure 128 cm. 2°) La probabilité qu'un élève mesure au moins 120 cm. 3°) La probabilité qu'un élève ne mesure pas plus de 155 cm. 4°) Combien d'élèves ont leur taille comprise entre 120 et 155 cm. 5°) Combien d'élèves mesure au moins 185 cm.

1°) Il faut tout d'abord ramener N (151 ; 15) à N (0 ; 1), et, en plus faire un encadrement proche de 128 cm, soit : 127 , 9  151 X  151 128 , 1  151 X  151     P(127,9  X  128,1)  P    1,526    P  1,54  15 15 15 15     1   (1,54)  P( X )  1   (1,526) P( X )  1   (1,526)  1   (1,54) P( X )  0,937  0,9382 P( X )  0,0012  P( X )  0,12%

2°) Il faut trouver P(X120) :  X  151 120  151  P( X  120)  1  P     (t )  2,06 15  15   (t )  1   (t )  1  1   (t )  1  1   (t )  98,08% 3°) Il faut trouver P(X155) :  X  155 155  151  P( X  15)  P     (0,27)  60,64% 15  15  4°) Il faut trouver P(120X155) :  120  151 X  151 155  151  P      (2,06)  P( X )   (027) 15 15  15   P( X )   (0,27)   (2,07)   (0,27)  1   (2,07)  58,72% Soit environ 294 élèves.

5°)Il faut trouver P(X185) :  X  151 185  151  P( X  185)  1  P( X  185)  1  P    1   (2,27)  1  98,81%  1,2% 15  15  Soit environ 6 élèves.

II) On va comparer deux méthodes de mise à niveau de certaines notions en mathématiques. On dispose de 20 individus, auxquels on fait subir un pré-test, avant de les affecter aléatoirement à deux groupes de 10 (chacun a une méthode de travail). La même épreuve sert de post-test. Voici les résultats :

Méthode 1 Pré-test 10 7 8 4 9 7 3 8 9 6

Méthode 2

Post-test 15 8 11 7 10 10 6 10 12 11

Pré-test 5 8 5 9 11 8 7 6 4 6

Post-test 10 9 13 11 11 11 14 12 9 10

Tester les hypothèses suivantes : 1°) Il n'y a pas de différence significative entre les individus au pré-test. 2°) Chaque méthode permet une amélioration des connaissances. 3°) L'amélioration par la méthode 1 est corrélée négativement au résultat du pré-test.

1°)

t

Moyenne du pré-test de la méthode 1 : 7,1 Moyenne du post—test de la méthode 1 : 10

Ecart-type : 2,12 Ecart-type : 2,45

Moyenne du pré-test de la méthode 2 : 6,9 Moyenne du post-test de la méthode 2 : 11

Ecart-type : 2,02 Ecart-type : 1,55

x1  x 2   1²  2²  n1 n2

7,1  6,9  2,12² 2,02²  10 10

0,2  0,216 0,858

Au risque  = 0.05 : tthéorique > tcalculé  H0 acceptée : les deux groupes sont équitables (les individus sont équitablement répartis). 2°) t 

x1  x 2   1²  2²  n1 n2

10  7,1 2,9   2,83 2,12² 2,45² 1,05  10 10

Au risque  = 0.02 : tthéorique < tcalculé H0 est rejetée  acceptation de H1 : les deux moyennes sont différentes. Comme x1 > x2, les connaissances ont augmenté.

généralités

Toute série statistique porte sur un ensemble appelé population, dont les éléments sont appelés les individus. L'étude peut porter sur un sous-ensemble de la population, appelé échantillon, dont le nombre d'éléments est appelé effectif. Le caractère étudié est quantitatif s'il est mesurable, qualitatif dans les autres cas. Quand il est quantitatif, il peut être continu (s'il peut prendre toutes les valeurs possibles entre les deux limites) ou discret (discontinu) dans le cas contraire (il ne peut alors prendre que des valeurs isolées). Exemple de qualitatif : la couleur des yeux d'un individu. exercice (test droitier / gaucher) La population est à caractère discret (pas de demi-points). On peut faire des regroupements par classe. Soit x le caractère étudié (la note) : x1, x2, … xn représentent les notes 1, 2, … 20. Si l'on connaît pour chaque valeur de x le nombre ni d'individus qui présentent ce caractère, alors l'ensemble des couples (xi, ni) constitue une série statistique. effectif de la classe ni effectif total n 6 Exemple : f 11   0,19  19% 31

La fréquence fi 

Mesures de la tendance centrale i n

x

i

    

La moyenne : x 

i 1

n La médiane : la médiane d'un ensemble de nombres rangés par ordre croissant est la valeur du milieu (cas impairs) ou la moyenne des deux valeurs centrales (cas pairs). Le mode : c'est la valeur du caractère que l'on rencontre le plus souvent. Mesures de la dispersion L'étendue : c'est la différence entre la plus petite et la plus grande valeur. Les quartiles : ce sont les valeurs Q1, Q2 et Q3 qui partagent la série ordonnée en 4 parties de même effectif. Q2 est donc aussi la médiane. (Q3-Q1) est aussi appelé l'écart interquartile.

Exemple de l'exercice :



Droitiers Gauchers Moyenne 11,94 11,74 Mode 11 11 Médiane 12 12 Q1 10 11 Q2 12 12 Q3 13 14 Le diagramme de Turkey (aussi appelé boîte de dispersion, ou boîte à moustaches).

Mini

Droitiers 4

Gauchers 8

Max Etendue

19 15

16 8

0

5

10

15

Q1

Q2

Droitiers

20

Q3

12 4

10

14

19

Mode Q2

Q1

Q3

12

Gauchers 8

11

13

16

 Variance et écart-type : la variance représente la moyenne des carrés des écarts à la moyenne. i n

 ( x  x )² i

La variance d'un ensemble de n valeurs :  ² 

i 1

n

. i n

L'écart-type est égal à la racine carrée de la variance :  

 ( xi  x )² i 1

n

i n

x ² i



i 1

n

 x² .

statistiques descriptives à deux variables Covariance :

1 n 1 n  ( x i  x )( y i  y )     xiyi   x y  n i 1  n i 1  Application : Test anaérobie On évalue la puissance maximale anaérobie lors d'une exercice de courte durée. Pour chaque sujet on relève la puissance et l'on dispose de données anthropométriques. Dans un premier temps on présente la puissance développée en fonction de l'âge du sujet (variable expliquée y en fonction de la variable explicative x). Ensuite, on présente la puissance développée en fonction du volume musculaire de la jambe. Cov( X , Y ) 

1- Pour chacune des variables A, V et P, calculer la moyenne et l'écart-type de la population. 2- A) Calculer la covariance (A, P) B) Calculer les paramètres a et b de la droite de régression liant P à A, ainsi que le coefficient de corrélation r. C) Comparer les valeurs à celles du graphique. 3- Sachant que r² est égal au rapport de la variance expliquée sur la variance totale, quelle est la part en pourcentage de la variance non expliquée par l'ajustement affine P = 73,8A – 470. Par quoi peut-elle s'expliquer ? 4- A partir de quel âge un enfant est-il susceptible dans cet exercice de fournir une puissance de 500W ? 1000W? 5- Reprendre les questions 2 et 3 pour une étude de P en fonction de V. Calculer le coefficient de régression. 6- Quelle variable A ou V exprime le mieux la puissance P musculaire par ajustement linéaire ?

 A  11,59 ans 1- Age :  A  1,54 an

P  385,54 W Puissance :  P  141,41 W V  5,45 L Volume :  V  1,02 L 60424,8 1  2- A) Cov( A, P)     xy   x y   11,59  385,54  179,65 13  13  Cov( A, P) 179,65 B) b    73,8 A² 1,54² M ( A , P ) vérifie y  73,8 x  a

a  385,54  73,8 11,5  470  P  470  73,8A Cov( A, P) 179,65 r   0,81 A  P 1,56 141,4 r ²  0,66 3- La variance non expliquée est égale à 33%. Elle peut être due à l'adresse, à l'entraînement…. des différents sujets. 4- Interpolations et extrapolations : P  73,8 A  470

500  73,8 A  470 970  13,1 ans. C' est une interpolat ion (l' âge se situe dans les bornes étudiées). 73,8 1000  73,8 A  470 1470  19,9 ans. 73,8 Ce dernier chiffre est une extrapolation, car il se situe en dehors des bornes étudiées. Il n'est donc pas sûr. Par exemple, on pourrait extrapoler pour une puissance de 10000W, et on tomberai sur un centenaire. 5- On arrive par les mêmes calculs à P = 133,1 V – 340. On trouve de même r = 0,922, et donc r² = 0,91. Seulement 9% des cas ne sont donc pas expliqués par le volume musculaire. 6- C'est donc V qui explique le mieux la performance (0,91 > 0,67). la distribution normale (exemples et exercices) Cf. feuilles de cours Attention au changement de variable : t 

xx





x



, possible mais pas obligatoire.

Taille des individus La moyenne nationale est de 174cm pour les hommes, avec un écart-type de 9cm. Elle est de 168 chez les femmes, avec un écart-type de 6cm. 

Combien d'individus ont une taille inférieure à 183cm? 183  176 x  183cm, donc t  t   1 donc t  1   (t )  84,13% 7  Quelle est la probabilité pour qu'un individu pris au hasard est une taille supérieure à 185cm?

t  t 

185  176 9   1,286 7 7



 (1  t )  0,90



 (t )  10%



Quelles sont les tailles minimales et maximales à prendre en compte pour couvrir de manière bilatérale 95% de la population féminine ?  (t )  0,95  t  1,96

b

b  168  6 11,76  b  168  b  179,8 b  168-11,8  b  156,2 t 



1,96 

et

 1,96 

b  168 6

statistiques mathématiques C'est faire des inférences, des estimations sur l'ensemble de la population d'où sont issus les échantillons. Danger : si l'échantillon n'est pas parfaitement représentatif (corrélation qui n'existe pas avec la population, ou si l'on passe à côté de quelque chose de particulier qui pourrait exister dans la population). On peut néanmoins contrôler le risque d'erreur, en calculant une fourchette autour de la valeur trouvée et en précisant les chances que la valeur réelle se trouve bien dans cet intervalle de confiance (loi normale). La probabilité que le "vrai" résultat se trouve dans un intervalle de confiance Ic autour de la valeur mesurée sur l'échantillon est le plus souvent donné par la loi normale. Si l'on prend un grand intervalle de confiance : faible risque d'erreur. Si l'on prend un petit intervalle de confiance, on a un risque d'erreur plus important. Masse corporelle On a mesuré la masse corporelle de 35 individus. On trouve comme valeur moyenne : m  67,6kg , avec un écart-type e  6,9kg . En supposant l'échantillon représentatif de la population masculine française et la distribution normale, calculer un intervalle de confiance à 95% de la moyenne nationale. Donné un encadrement bilatéral de la masse corporelle, prenant en compte 95% de la population. 

Il faut commencer par estimer la valeur de l'écart-type "réel", à partir de celui qui nous est fourni : 35 se  6,9kg  s  6,9   7kg 34 xx t   1,96  x1  7 1,96  67,6  81,3 s  x 2  67,6  7 1,96  53,9 53,8  m  81,3 est un encadrement bilatéral prenant en compte 95% de la population.

Attention de ne pas confondre avec une autre question : 7 7 67,6  1,96   m  67,6  1,96  35 35 65,28  m  69,92 est un intervalle de confiance à 95% de la moyenne nationale. Saut en hauteur Dans un groupe de 15 élèves, la performance réalisée en saut en hauteur présente les caractéristiques suivantes : x  110cm , se  19cm . Donner un intervalle de  à 95% de confiance. 

Formule à utiliser quand on a un groupe de petite taille (
View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF