Exercices et problèmes

January 13, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités
Share Embed Donate


Short Description

Download Exercices et problèmes...

Description

Université René Descartes UFR Biomédicale, 45 rue des Saints-Père, 75 006 Paris

LMD Sciences de la Vie et de la Santé M1 de Santé Publique Spécialité Biostatistique

M1 BIOSTATISTIQUE I

Bases : Probabilités, Estimation et Tests.

Exercices et problèmes C. Huber

1

Semaines 1 et 2

Probabilités, probabilités conditionnelles, indépendance, formule de Bayes. Fonction de répartition, espérance et variance d'une variable aléatoire réelle.

Rappels de cours : Définition d'une probabilité conditionnelle La probabilité de B étant supposée différente de 0, on appelle probabilité de A conditionné par B, que l'on note P(A/B), le rapport : P(A∩B) _________ P(A/B) = . P(B) On peut donc écrire : P(A↔B) = P(A/B) P(B) = P(B/A) P(A) . Formule de Bayes Cette formule, aussi appelée "théorème de la probabilité des causes", conditionnement. P(B/A) ___________________________ P(A/B) = P(A) . P(B/A) P(A) + P(B/Ac) P(Ac)

permet de renverser un

Elle est valable dès que P(B) est différent de 0. Définition de l'Indépendance On dit que A et B sont indépendants si (1) P(A∩B) = P(A) P(B) C'est équivalent à (2) et à (3) : (2) (3)

P(A/B) = P(A) P(B/A) = P(B)

Définition de la Fonction de répartition F d'une variable aléatoire réelle X en un point x C'est la probabilité pour qu'e cette variable aléatoire X soit inférieure ou égale à x : F(x) = P(X ≤ x) On la note souvent f.r. . Définition de l'Espérance L'espérance, ou moyenne, d'une variable aléatoire réelle X est notée E(X) ou EX . Si X est discrète et vaut xj avec la probabilité pj, pour j variant de 1 à k, alors k E(X ) = ∑ pj xj j =1

M1_TD_sem_1_2.doc

1/4

C. Huber

2 Si X est continue et admet f comme densité de probabilité +∞ x f(x) dx -∞

EX =

Changement d'origine et d'unité E (aX + b) = a E(X ) + b .

Variance Var (X ) = E [ (X-EX)2] = E(X2) - (EX)2 Ecart-type σ (X)

=

Var(X)

Changement d'origine et d'unité Var (aX + b) = a2 Var X Variable centrée réduite associée à X : X* : X* =

X - EX _______ σ (X)

Alors : E(X* ) = 0 et Var (X* ) = 1. Définition d'un échantillon : Soit X1, X2, ..., Xn des variables indépendantes et de même loi . On dit que (X1,..., Xn ) est un échantillon de taille n ou un n - échantillon de la variable X1 . X + ... + X n Xn = 1 n est appelée moyenne de l'échantillon. ou moyenne empirique. Si E(X1) = µ et var(X1) = σ2 , alors

n E(Xn) = 1 ∑ E (Xi) = µ n i=1 n

2

Var (Xn) = 12 ∑ Var (Xi) = σ n n i=1

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ @@@

Exercices 1. Chasse au canard Trois chasseurs tirent sur un canard. Chacun a la probabilité 1/3 de l'atteindre et ils sont indépendants. Quelle est la probabilité que le canard soit atteint ? 2. Pari

M1_TD_sem_1_2.doc

2/4

C. Huber

3 Une urne est pleine de billes de bois (B) ou de verre (V) de couleur rouge (R) ou noire (N). Les 2/3 des billes sont rouges, le reste noir. La moitié des billes rouges sont en bois, ainsi que le quart des noires. Vous devez plonger la main dans l'urne et parier sur la couleur. Que faites vous? 3 Américanisme Les Anglais et les Américains orthographient le mot rigueur , respectivement rigour et rigor. Un homme ayant pris une chambre dans un hôtel parisien a écrit ce mot sur un bout de papier. Une lettre est prise au hasard dans ce mot, c''est une voyelle. Or 40% des anglophones de l'hôtel sont des Anglais et 60% des Américains. Quelle est la probabilité que l'auteur du mot soit anglais ? 4. Alcootest : Un laboratoire a mis au point un alcootest et décide d'en vérifier la crédibilité . Les résultats obtenus sont les suivants : 2% des personnes contrôlées par la police sont effectivement en état d'ébriété. 95 fois sur 100 l'alcootest s'est révélé positif alors que la personne était réellement en état d'ébriété. 5 fois sur 100, l'alcootest s'est révélé positif, alors que la personne n'était pas en état d'ébriété. a) Quelle est la probabilité que l'alcootest donne une indication correcte ? b) Quelle est la probabilité qu'une personne soit réellement en état d'ébriété lorsque l'alcootest est positif ? 5. Au café Cinq filles et cinq garçons s'assoient le long du comptoir d'un café sur les dix tabourets situés côte à côte. On suppose qu'ils se placent au hasard. Quelle est la probabilité qu'ils se trouvent ainsi placés : a) toutes les filles côte à côte ? b)parfaitement alternés ? On distinguera deux cas : 1) Un comptoir en long (ou formant éventuellement un coin). 2) Un comptoir circulaire. 6. Espérance et espérance conditionnelle On lance deux dés équilibrés. Quelle est l'espérance (autrement dit la moyenne) de la somme des deux nombres montrés par les deux dés ? Quelle est la fonction de répartition correspondante ? Mêmes questions sachant que l'un au moins des deux dés montre un 6. Cette deuxième espérance est appelée une espérance conditionnelle; de même, cette deuxième f.r. est appelée fonction de répartition conditionnelle. Facultatifs : 7. Enquête On a utilisé la méthode suivante pour estimer le nombre des personnes de plus de 50 ans dans une ville dont la population s'élève à 100 000 âmes. Elle consiste, pour l'expérimentateur, à enregistrer le pourcentage des gens de plus de 50 ans, lors de ses déplacements dans la rue. L'expérience s'étend sur quelques jours. Discuter cette méthode. Vous paraît elle convenable ? A titre d'indication, on notera p la vraie proportion des gens de plus de 50 ans dans cette ville, q1 la proportion du temps qu'une personne de 50 ans ou plus passe dans la rue et q2 le même paramètre pour les moins de 50 ans. Quelle est la grandeur que la méthode employée estime en réalité ? Cette estimation convient elle pour p ? D'autres éléments pourraient ils entrer en jeu ? 8. Particules (BOLTZMAN , BOSE-EINSTEIN et FERMI-DIRAC ) I

On considère n particules identiques supposés discernables en physique classique. C'est à dire qu'on peut les numéroter, puis, au moins en principe, suivre la trajectoire de chacune d'elles. Supposons que les particules puissent être réparties entre k états physiques distincts, le nombre de particules dans chacun des états pouvant être quelconque. C'est l'hypothèse de la statistique de Boltzman. a) Combien y a-til de répartitions possibles ? b) Combien y a-t-il de répartitions possibles telles qu'il yait n1 particules dans l'état 1, n2 particules dans l'état 2, .., nk particules dans l'état k ? II

En mécanique quantique, les particules sont indiscernables. C'est la statistique de Bose-Einstein. Reprendre alors les questions précédentes.

M1_TD_sem_1_2.doc

3/4

C. Huber

4 III On suppose maintenant que k ≥ n et qu'il ne peut pas y avoir plus d'une particule dans chacun des états. C'est la statistique de Fermi-Dirac. Reprendre les questions dans ces conditions. (On commencera par supposer les particules distinguables, puis indistinguables). c)

En supposant les particules réparties 'au hasard 'dans les k états, dire, dans chacune des conditions précédentes si les différentes répartitions possibles sont équiprobables.

M1_TD_sem_1_2.doc

4/4

C. Huber

1

Semaines 3 et 4

Lois de probabilité usuelles pour une variable aléatoire réelle.

Rappels de cours : 1 - Lois normales N (µ, σ2): Définition : loi normale réduite N(0,1) Z suit la loi normale N(0,1), ou loi normale réduite, si elle a pour densité -

z 2

2

1 e , 2π La fonction de répartition correspondante sera notée Φ : z Φ (z) = P(Z Š z) = ϕ(t) dt

ϕ(z) =

z ∈ IR .

−∞

Loi normale quelconque N (µ, σ2) : Si X suit la loi normale N(µ,σ2) , ce qu'on note X ~ N(µ,σ2), X se comporte comme µ + σ Z : P(X ≤ x) = P(µ + σZ ≤ x) = P(Z ≤(x-µ)/σ ) = Φ [(x−µ) / σ]

Propriété : X et Y indépendantes X ~ N(µ, σ2) Y ~ N(µ', σ'2)

X + Y ~ N (µ+µ', σ2 + σ'2)

2 - Lois de Poisson π (λ) Définition X suit la loi de Poisson de paramètre λ > 0, notée π (λ), si λk P (X = k) = e - λ __ k!

k = 0, 1, 2,... λ paramètre > 0

( 0! = 1 par définition). Moyenne et variance E (X) = Var (X) = λ .

propriété X et Y indépendantes X ~ π (λ) ⇒

X+Y ~ π (λ+µ)

Y ~ π (µ) 3 - Lois binomiales B (n,p)

On a un n échantillon X1,X2,..,Xn dont chaque élément suit la loi de Bernoulli de paramètre p (0≤p≤1) , notée b(p) :

M1_TD_sem_3_4.doc

1/4

C. Huber

2

1 avec la probabilité p , Xi = 0 avec la probabilité q = 1 - p . Sn est la statistique qui représente la somme des "succès" : Sn

= X1 + X2 + .. + Xn

n! _______ P (Sn = j ) = j! (n- j) !

pj qn-j

,

j = 0,1,2,....n .

Espérance et variance : ESn = np , Var (Sn) = npq . Approximation normale des lois binomiales Lorsque n tend vers l'infini , Sn se comporte comme une variable normale de moyenne sa moyenne np et de variance sa variance npq : P(Sn ≤ k) ≅ P(np + npq Z ≤ k) où Z ~ N(0,1). En pratique, on admet l'approximation dès que np et nq sont ≥ 5. Approximation normale d'une somme Plus généralement, si Sn est la somme de n v.a. indépendantes Xi de même loi , de moyenne µ et d'écarttype σ , lorsque n tend vers l'infini , Sn se comporte comme une variable normale de moyenne sa moyenne nµ et de variance sa variance nσ2

P(Sn ≤ k) ≅ P( nµ + σ n Z ≤ k) En pratique, si Xi a une loi continue, on admet que l'approximation est valable dès que n ≥ 30.

Approximation de Poisson des lois binomiales Si Sn est une variable binomiale B(n,p) telle que p soit petit et n grand, la loi de Sn ne dépend (presque plus) que du produit np, ce qui fait que la loi de Sn est pratiquement la même que l'on ait fait 10 observations d'un phénomène de probabilité 1/10 (np = 1) ou 100 observations d'un phénomène de probabilité 1/100 (np = 1 aussi) Plus précisément, si n tend vers l'infini et np reste constant, ce qui revient à ce que p tende vers 0 quand n croît, on a l'approximation de Poisson suivante pour la loi binomiale :

P(Sn = k) ≅

(np)k --------k!

e-np

En pratique on utilisera la règle suivante : Pourvu que p ≤ 0,1 et 1 ≤ np < 10 on remplacera la loi binomiale B(n,p) par la loi ci-dessus qu'on appelle la loi de Poisson de paramètre np. Quelle approximation choisir ? Lorsque np est compris entre 5 et 10, on a droit aux deux approximations, normale et de Poisson, mais bien sûr, celle de Poisson est d'autant meilleure, et donc préférable, que p est plus proche de 0.

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

M1_TD_sem_3_4.doc

2/4

C. Huber

3

Exercices 1. Capacité respiratoire La quantité d'air (en litres) rejetée par un sujet sain lors d'une expiration forcée, est une variable aléatoire X qui est supposée normale N( µ= 1,65, σ2 = 0,5). La capacité respiratoire d'un sujet est mesurée par la quantité d'air Y rejetée lors de deux expirations forcées successives espacées de 2 minutes. On suppose que les deux résultats sont indépendants. Quelle est la loi de Y? Quelle est la probabilité que la capacité respiratoire d'un sujet sain dépasse 4 litres? 2. Accidents Le nombre d'accidents touchant un individu lors d'une année donnée est une variable aléatoire de Poisson d'espérance l . On suppose que cette espérance varie en fonction des personnes et qu'elle vaut 2 pour 60% de la population et 3 pour les 40% restants. On choisit une personne au hasard. Quelle est la probabilité qu'au cours d'une année elle n'ait aucun accident ? qu'elle en ait 3 ? Quelle est la probabilité conditionnelle qu'elle ait trois accidents une année, sachant qu'elle n'en a pas eu l'année précédente ? 3. Footballeurs La capacité respiratoire de sujets normaux, de sexe masculin, âgés de 20 à 30 ans est supposée obéir à une loi normale de moyenne 3,5 litres et de variance 1. On tire au hasard dans la population des joueurs de football âgés de 20 à 30 ans, 100 sujets dont on mesure la capacité respiratoire. Onze d'entre eux ont une capacité respiratoire qui dépasse 4,64 l. Si on considère que la capacité respiratoire de ces joueurs obéit à la loi précédente, quelle était la probabilité que 11 de ces joueurs ou davantage aient une capacité respiratoire supérieure à 4,64 litres ? 4. Tolérance à l'aspirine Des études ont été faites sur des médicaments contenant de l'aspirine pour essayer de réduire l'intolérance observée chez certaines personnes. Le but de l'expérimentation décrite est de décider s'il faut ou non remplacer le médicament habituel A par un nouveau B. Le médicament A a une probabilité connue πο d'intolérance, égale à 0,20. On administre B à un échantillon de 64 sujets et on observe une proportion po d'incidents. Quelle est la loi de nPo si B provoque le même taux d'incidents que A ? Pouvez vous en donner une approximation ? En déduire la loi de Po, sa moyenne et sa variance. Exercices facultatifs : 5. Loi de Pascal (ou binomiale négative) B-(k,p) On suppose que X est une variable de Bernoulli b(p), de probabilité de succès p et que l'on fait N observations indépendantes X1, ..., XN jusqu'à ce que l'on ait obtenu exactement k succès. Le nombre d'observations nécessaires N est aléatoire et a pour loi de probabilité la loi de Pascal (ou binomiale négative) de paramètres p ∈ [0 ; 1] et k entier, notée B-(k,p). Ce type de modèle est celui que l'on emploie par exemple en expérimentation biologique lorsqu'on étudie l'apparition ou non de certains troubles sur des cobayes soumis à des conditions particulières : on fait des observations jusqu'à ce que l'on observe un certain nombre, fixé à l'avance d'animaux présentant ces troubles. 1) Quelles sont les valeurs possibles de N ? Calculer P(N = n), pour n entier positif. 2) Calculer l'espérance de N. On rappelle que

1+



∑t i =1

j

⎛k + ⎜⎜ ⎝ j

j⎞ 1 ⎟⎟ = (1 − t) k +1 ⎠

3) Lorsque p est très petit, et pour éviter que la valeur de N ne soit trop grande et donc l'expérience trop longue et trop coûteuse, on se limite en général à l'observation du premier succès, c'est à dire à k = 1. Que vaut dans ce cas la loi de N ? son espérance ? sa variance ? 6. Loi hypergéométrique H (N,M,n)

M1_TD_sem_3_4.doc

3/4

C. Huber

4

Le personnel d'une entreprise soumis à un risque professionnel comprend N personnes parmi lesquelles M sont atteintes d'une certaine maladie. On a décidé d'observer n personnes prises au hasard parmi les N. Parmi elles, m sont atteintes. On dit que m est la réalisation d'une v.a.r. X dont la loi est appelée la loi hypergéométrique H(N,M,n). Calculer la probabilité p(m∧Ν,Μ,n) = P(X = m). (On pourra montrer que M N-M N n-m si max (0,M+n - N) Š m Š min ( M , n ) p ( m ⎮ Ν,Μ ,n ) = N n et 0 sinon).

M1_TD_sem_3_4.doc

4/4

C. Huber

1

Semaine 5

Couple de variables aléatoires. Régression.

Rappels de cours : Espérance d'une somme E(aX+bY) = a EX + b EY . En particulier, E (X+Y)

= EX + EY et

E(aX) = a EX .

Définition de la covariance de X et Y : cov (X,Y) = E [(X - EX) (Y - EY)] = E(XY) - EX . EY . Définition du coefficient de corrélation ρ (X,Y) ρ(X,Y) = cov(X,Y) σ(X) σ(Y)

Variance d'une somme Var (X + Y) = VarX + VarY + 2 E [ (X - EX) (Y - EY)] = VarX + VarY + 2 cov(X,Y) Var(aX) Si X et Y sont indépendantes :

=

a2 VarX

cov (X,Y) = 0 et donc Var(X+Y) = VarX + VarY .

Mais si Cov (X, Y) = 0, X et Y ne sont pas forcément indépendantes. Par contre, pour des variables normales, indépendance et covariance nulle sont équivalents. Droite de régression On cherche la droite y = ax + b la "plus proche" de Y au sens des moindres carrés : E [(Y - (aX + b))2] minimum On trouve cov (X,Y) y - EY = __________ (x - EX) σ2 (X) qui peut aussi s'écrire :

M1_TD_sem_5.doc

y − E(Y ) x − E( X) = ρ (X,Y ) σ ( X) σ (Y )

1/3

C. Huber

2

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

Exercices 1. Datation par le carbone 14 Le carbone radioactif 14C est produit dans l'atmosphère par l'effet des rayons cosmiques sur l'azote atmosphérique. Il est oxydé en 14C02 et absorbé sous cette forme par les organismes vivants qui, par suite, contiennent un certain pourcentage de carbone radioactif par rapport aux carbone 12C et 13C qui sont stables. On suppose que, lorqu'un organisme meurt, ses échanges avec l'atmosphère cessent et que la radioactivité due au carbone 14C décroît suivant une loi exponentielle : (*) A = Ao e- λ t λ étant une constante positive, t étant le temps exprimé en années et A étant la radioactivité exprimée en nombre de désintégrations par minute et par gramme de carbone. Un étalonnage de la méthode a été réalisé par l'analyse de troncs de très vieux arbres, des Séquoias géants et des pins aristaca. Par un prélèvement effectué sur le tronc, on peut obtenir son âge t, en années en comptant le nombre des anneaux de croissance et sa radioactivité A en mesurant le nombre de désintégrations. On a ainsi obtenu : t A

500 14.5

1000 13.5

2000 12.0

3000 10.8

4000 9.9

5000 8.9

6300 8.0

La relation (*) entre t et A ne peut pas être vérifiée exactement par toue les couples de valeurs ainsi mesurées, mais elle l'est en principe aux erreurs de mesure aléatoires près. Comment proposez vous d'évaluer les constantes Ao et λ ? (On pourra penser à faire une régression de ln(A) sur t).

2. Taux d'alcool Une étude du taux d'alcool dans le sang, exprimé en milligrammes par litre, au cours de l'autopsie de victimes d'accidents de la circulation a consisté à faire un prélèvement dans la jambe (x) et dans le coeur (y). Les résultats ont été les suivants : Cas 1 2 3 4 5 6 7 8 9 10 x 27 28 35 39 44 54 65 68 72 75 y 39 31 36 50 44 49 70 84 80 82 Cas 11 x y

12 84 78

13 84 91

14 83 83

15 96 98

16 138 139

17 149 155

18 150 143

19 153 154

20 176 182

180 185

Cas 21 22 23 24 25 26 27 28 29 30 x 180 187 205 230 249 250 265 265 272 286 y 187 195 208 228 249 256 269 277 290 502 Quelle est la droite de régression de y par rapport à x ? et celle de x par rapport à y ? Laquelle de ces deux droites vous paraît présenter le plus d'intérêt ? Analyser les résidus correspondants. On pourra calculer la droite de régression de y par rapport à x en ôtant tour à tour chacun des trente sujets et prévoir, pour celui-ci y connaissant x. Les prévisions ainsi obtenues sont elles bonnes ? Cette méthode, appelée le jacknife, permet de se rendre compte de la qualité de la régression.

3. Affections respiratoires L'une des mesures qui sont faites lors de l'investigation des affections respiratoires est celle du volume expiratoire moyen par seconde, appelé Vems. Sur 8 sujets tirés au sort parmi la population saine d'âge compris entre 30 et 35 ans, on a mesuré la taille, T,. en mètres et le Vems, V, en litres par seconde, et obtenu les résultats suivants : Sujet 1 2 3 4 5 6 7 8 T 1,85 1,72 1,51 1,62 1,60 1,80 1,75 1,68

M1_TD_sem_5.doc

2/3

C. Huber

3 V 4,5 3,6 2,7 3,1 3,6 4,4 4,3 3,8 Tracer la fonction de répartition empirique du Vems, et tracer la droite de régression observée de V par rapport à T. Un neuvième sujet survient qui mesure 1,70 m. Quel Vems peut on prévoir pour lui ? En fait son Vems est de 4 litres. Quelle erreur a-t-on commise ?

M1_TD_sem_5.doc

3/3

C. Huber

1

Semaine 6

Estimation. Estimation ponctuelle et par intervalle de confiance.

Rappels de cours : 1 Estimation ponctuelle : Estimateur d'un paramètre t : c'est une fonction des observations (aléatoire par conséquent) qui est une évaluation de t. Il est sans biais si sa moyenne est égale à t quel que soit t, et convergent (ou consistant) s'il tend vers t quand le nombre des observations tend vers l'infini. Si le paramètre t est la moyenne ou la variance d'une variable X, on a des estimateurs très simples : la moyenne empirique (observée) et la variance (presque) empirique : Estimateur sans biais de µ : n

X =

∑X i =1

i

n En particulier l'estimateur d'une proportion p, qui est la moyenne d'une variable de Bernoulli b(p), est la proportion observée notée po. Estimateur sans biais de σ2 : n

S2 =

∑ (X i =1

i

− X) 2

n-1

Dans les autres cas, on utilise une méthode très générale appelée le "maximum de vraisemblance": On écrit la probabilité des observations comme fonction du (ou des) paramètre(s) t et on estime t par la (ou les) valeur (s) qui rend(ent) maximum cette probabilité. 2 Estimation par intervalle de confiance : La confiance est la probabilité avec laquelle l'intervalle couvre la vraie valeur du paramètre. On veut que cette probabilité soit proche de 1. On la note 1 - α, avec α petit. En général α est de l'ordre de 0,05 ou moindre. Pour une proportion p : proportion observée po plus ou moins un terme qui dépend de la confiance 1 - α que l'on veut pouvoir accorder à l'intervalle p1 ; p2 = p0

M1_TD_sem 6.doc

-

p 0 q0 n

z 1-α/ 2

1/3

;

p0

+

p 0 q0 n

z 1-α/ 2

C. Huber

2

Dans cette expression, z1 - α est le 1 - α quantile de la loi N(0,1) : P(Z ≤ z1 - α) = 1 - α La confiance est la probabilité avec laquelle l'intervalle couvre la vraie valeur de p. De même pour une moyenne : s s µ1 ; µ2 = ; xn z 1− α/2 xn + z 1− α/2 n

n

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

Exercices 1.Gaz nocif Dans l'atmosphère, le taux d'un gaz nocif, pour un volume donné, suit une loi normale d'espérance µ et de variance σ2 . On effectue n prélèvements conduisant aux valeurs x1, x2, ..., xn. a) On sait que σ2 = 100, mais on ne connaît pas µ. Sur n = 10 prélèvements, on a trouvé une valeur moyenne de 48. Donner un intervalle de confiance pour µ ◊ à 95 %. Même question avec un coefficient de confiance de 99% . b) On ne connaît pas σ2 en fait mais on a fait cette fois 50 prélèvements et observé une moyenne égale à 51 et une variance empirique S2 égale à 100. Répondre aux mêmes questions. c) Sous les mêmes conditions qu'en b), répondre aux mêmes questions lorsqu'on a observé 200 prélèvements au lieu de 50, sans faire de calcul. 2. Fonction de répartition empirique Si Fn est la fonction de répartition empirique associée à un n-échantillon d'une v.a.r. X de f.r. F, montrer que Fn(x) est, pour tout x, un estimateur sans biais de F(x). Quelle est la variance de cet estimateur ? Est il consistant? 3. Fabricant de tissu Un fabricant de tissu essaye une nouvelle machine. Il fabrique des échantillons de 10 mètres et compte le nombre de défauts par échantillon. Ayant examiné n = 126 échantillons, il a trouvé les résultats suivants : Nombre de défauts :

j 0 1 2 3 4

Nombre d'échantillons :

nj 44 49 24 7 2

a) Quel modèle suggérez vous pour représenter ce phénomène ? (On pourra calculer la moyenne et la variance empiriques). b) Donner l'estimateur du maximum de vraisemblance de la moyenne. c) Donner un intervalle à 99% de confiance pour cette moyenne.

4. Rhumatismes inflammatoires On distingue deux grandes classes de rhumatismes selon qu'ils sont inflammatoires (RI) ou non. Sur un groupe de 220 malades atteints de rhumatismes, on en a observé 167 RI . A quelles conditions la proportion po de RI observée peut elle être considérée comme un bon estimateur de la proportion p de RI dans la population générale ?. On supposera que ces conditions ont été effectivement remplies. Donner alors un intervalle de confiance au risque 1% pour p. A partir d'une réaction sérodiagnostique, on effectue un dosage du facteur immunoconglutinine. C'est une variable aléatoire notée X chez les RI et X' chez les autres (car X' peut avoir une loi de probabilité différente de celle de X). On résume les résultats obtenus ainsi : Σ x = 420 ; Σ x2 = 1 400 ; Σ x' = 104 ; Σ x'2 = 292 . Donner un intervalle de confiance de coefficient de confiance 0,03 pour µ = EX et pour µ' = EX'. A votre

M1_TD_sem 6.doc

2/3

C. Huber

3 avis, est il probable que le facteur dosé ait la même loi chez les patients atteints de RI et chez les autres?

M1_TD_sem 6.doc

3/3

C. Huber

1

Semaines 7 et 8

Tests d'ajustement.

Rappel de cours : F0 étant une loi complètement spécifiée, et (X1,..Xn) un n-échantillon, de loi F, on se demande si H0 : F + F0 H1 : F ≠ F0 Si X est une variable discrète (ou discrétisée), on peut employer un test du chi deux, et si la variable est continue, un test de Kolmogorov-Smirnov

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

Exercices 1.Gaz nocif Dans l'atmosphère, le taux d'un gaz nocif, pour un volume donné, suit une loi normale d'espérance µ et de variance σ2 . On effectue n prélèvements conduisant aux valeurs x1, x2, ..., xn. a) On sait que σ2 = 100, mais on ne connaît pas µ. Sur n = 10 prélèvements, on a trouvé une valeur moyenne de 48. Peut on admettre que la loi de ce taux est normale N(50,100) au risque 5% ? Peut on conclure, avec un risque de 5% que µ est inférieure à 50 , qui est le seuil tolérable admis ? Peut on donner cette conclusion au risque 1% ? et au risque 10% ? b) On ne connaît pas σ2 en fait mais on a fait cette fois 50 prélèvements et observé une moyenne égale à 48 et une variance empirique S2 égale à 100. Répondre aux mêmes questions. c) Sous les mêmes conditions qu'en b), répondre aux mêmes questions lorsqu'on a observé 200 prélèvements au lieu de 50. Peut on obtenir ce résultat sans faire de nouveaux calculs ? 2. Fonction de répartition empirique Si Fn est la fonction de répartition empirique associée à un n-échantillon d'une v.a.r. X de f.r. F, montrer que Fn(x) est, pour tout x, un estimateur sans biais de F(x). Quelle est la variance de cet estimateur ? Est il consistant ?

3. Fabricant de tissu Un fabricant de tissu essaye une nouvelle machine. Il fabrique des échantillons de 10 mètres et compte le nombre de défauts par échantillon. Ayant examiné n = 126 échantillons, il a trouvé les résultats suivants : Nombre de défauts :

M1_TD_sem 7.doc

j 0 1 2

Nombre d'échantillons :

1/2

nj 44 49 24

C. Huber

2 3 7 4 2 Peut on considérer que la loi du nombre de défauts pour 10 mètres de tissu est une loi de Poisson de paramètre égal à 1 ? Effectuer un test et conclure. 4. Rhumatismes inflammatoires On distingue deux grandes classes de rhumatismes selon qu'ils sont inflammatoires (RI) ou non. Sur un groupe de 220 malades atteints de rhumatismes, on en a observé 167 RI . On sait que, dans la population générale, les trois quarts des rhumatismes sont de type RI. Peut on considérer qu'il en est de même dans la population d'où a été tiré cet échantillon ? Avec quel risque ? A partir d'une réaction sérodiagnostique, on effectue un dosage du facteur immunoconglutinine. C'est une variable aléatoire notée X chez les RI et X' chez les autres (car X' peut avoir une loi de probabilité différente de celle de X). On résume les résultats obtenus ainsi : Σ x = 420 ; Σ x2 = 1 400 ; Σ x' = 104 ; Σ x'2 = 292 . Sachant que XC et X' suivent une loi normale, pPeut on considérer que X et X' suivent la même loi ?

M1_TD_sem 7.doc

2/2

C. Huber

Semaine 8

Tests d'ajustement.

Rappels de cours On fait un test d'ajustement lorsqu'on se demande si la loi d'une variable X est une loi donnée par avance. Ce sont donc des tests de comparaison à une loi théorique. Test de Kolmogorov-Smirnov pour un échantillon: Il est valable pour n'importe quelle variable réelle X. La loi théorique est donnée par sa fonction de répartition Fo : Ho : P(X ≤ x ) = Fo(x) Statistique du test D = sup | Fn- Fo | D est le maximum de la valeur absolue de la différence entre la fonction de répartition Fo théorique, sur laquelle on veut faire l'ajustement, et la fonction de répartition observée Fn . Test du chi2 d'ajustement: Il est valable pour une variable X ayant un nombre fini r de modalités, notées 1, 2, .... r: Ho : P(X = 1) = pl , P(X = 2) = p2 , .... P(X = r) = pr valeurs théoriques données E2= ∑

(Ni - n pi) 2 npi

E2 est l'écart relatif entre les effectifs observés Ni et les effectifs moyens npi attendus sous Ho. E2 suit (approximativement) une loi du chi 2 à (r - 1) degrés de liberté (ddl) pourvu que les effectifs attendus soient supérieurs ou égaux à 5. @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ @

Exercices 1. souriceaux On dispose d'un lot de 500 souriceaux, et on se demande si ce lot est bien standard au point de vue de la taille. En effet, la loi de la taille adulte de ce type de souris, élevées dans des conditions normales est connue. C'est en principe une loi normale de moyenne 10 et de variance 0,09 si la taille est mesurée en centimètres. a) Pouvez vous donner un intervalle qui contienne la taille adulte d'une souris standard avec une probabilité de 95% ? b) Un échantillon de 6 sujets, tirés au hasard dans ce lot, atteint la taille suivante à l'âge adulte 12,4 13,0 9,8 10,5 14,2 11,9

Peut on considérer que ce lot est bien standard ? 2. Calories et mortalité infantile Le tableau suivant donne, pour plusieurs pays, le nombre moyen de calories absorbées par personne et par jour ainsi que le taux de mortalité infantile : Pour chaque pays, x désigne le nombre de calories par personne et par jour, pour mille, et y le taux de mortalité, pour 1000. Pays

par jour x Argentina 2,730 Australia 3,300 Austria 2,990 Belgium 3,000 Burma 2,080 Canada 3,070 Ceylon 1,920 Chile 2,240 Columbia 1,860 Cuba 2,610 Deninark 3,420 Egypt 2,450 France 2,880 Germany 2,960 Greece 2,600

y 98.8 39.1 87.4 83,1 202.1 67.4 182.8 240.8 155.6 116.8 64.2 162.9 66.1 63.3 113.4

pourl,000 Pays x Iceland 3,160 India 1,970 Ireland 3,390 Italy 2,510 Japan 2,180 New Zealand Norway 3,160 Netheriands Poland 2,710 Sweden 3,210 Switzerland 3,110 U.K. 3,100 U.S.A. 3,150 Uruguay 2,380

par jourpour 1000 y 42.4 161.6 69.6 102,7 60.6 3,260 32.2 40.5 3,010 37.4 139.4 43.3 45.3 55.3 53.2 94.1

Peut-on considérer que chacune des deux variables X et Y, a une distribution normale ? (On identifiera, pour tester ces hypothèses, l'espérance et la variance de X et de Y à leurs estimateurs usuels respectifs).

1

Semaines 9 et 10

Mise en évidence de liaisons. Tests d'homogénéité ou d'indépendance.

Rappels de cours : A Tests d'homogénéité pour deux échantillons d'une variable continue : Etant donnés deux échantillons, on fait un test d'homogénéité lorsqu'on veut savoir si on peut considérer les deux échantillons comme provenant d'une même population : c'est l'hypothèse Ho . Test de Wilcoxon : C'est un test d'homogénéité très puissant pour comparer deux échantillons d'une variable continue. On ordonne les deux échantillons dans leur ensemble, on remplace chaque observation par son rang et on note W la somme des rangs de l'un des deux échantillons. C'est une valeur numérique wo .Sous l'hypothèse Ho , W a une loi qu'on peut calculer. Si P(W≤ wo) (ou P(W ≥ wo suivant l'alternative à laquelle on s'intéresse) est très petit (< 0,05 en général) on rejette Ho. On peut soit calculer directement la loi de W, soit la lire dans une table. Test de la médiane : Si les deux échantillons proviennent de la même population, ils ont en particulier, la même médiane : On les ordonne dans leur ensemble, on calcule la médiane globale et on regarde comment ils se situent par rapport à elle, ce qui donne un tableau de 4 nombres. Ce test n'est pas très puissant et n'est utilisé que lors d'une flagrante différence entre les deux échantillons. Test de comparaison de moyennes : En particulier, si les deux échantillons proviennent de la même population, ils ont aussi la même moyenne. En général, on ne connaît pas la loi de la moyenne, mais si n est assez grand, cette loi est presque normale et on peut donc utiliser cette approximation :

B Tests d'indépendance pour un couple de variables : Etant donné un échantillon d'un couple de variables, (X,Y), on fait un test d'indépendance lorsqu'on veut savoir si on peut considérer les deux variables comme indépendantes : c'est l'hypothèse Ho . Test du chi deux : valable pour un tableau de contingence croisant deux variables ayant toutes les deux un nombre fini de modalités : Sous l'hypothèse Ho d'indépendance de X et Y : P (X = i, Y = j) = P (X = i) . P (Y = j) soit pij = pi . p.j On fonde le test sur la statistique 2

(N − N N / N) ∑ ij N Ni. /. j N i. . j

qui suit une loi proche de celle du χ2 à (r - 1) (k -1) degrés de liberté, pourvu que les dénominateurs ni. p.j soient tous supérieurs à 5 (si ce n'est pas le cas, on regroupe plusieurs classes).

M1_TD_sem_9_10.doc

1/2

C. Huber

2 Test de Spearman : valable pour un couple de variables continues dont on veut savoir si elles sont liées. On ordonne séparément les X entre eux et les Y entre eux et chaque sujet i a un rang Ri en X et un rang Si en Y. Dans le cas où X et Y sont indépendantes, le coefficient de corrélation de (R,S), appelé coefficient de corrélation de Spearman , est proche de 0 et a une loi de probabilité qui ne dépend que du nombre n des observations. Cette loi est tabulée pour les petites valeurs de n, et on utilise une approximation normale pour les grandes. @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

Exercices 1. Fumée de papier à cigarette et cancer du poumon Une expérience a été menée dans le but de mettre en évidence un éventuel effet de la fumée de papier à cigarette sur la génèse du cancer du poumon. Au cours de cette expérience, 74 souris ont été utilisées, dont 36 ont servi de contrôle. Les 38 souris expérimentales ont été placées dans la cage expérimentale et les 36 souris de contrôle dans la cage de contrôle de la machine à fumer. La machine produisait la fumée de 108 papiers à cigarette par jour, six jours par semaine et cela pendant un an. A la fin de l'expérience, les animaux furent sacrifiés. Il y avait 13 tumeurs parmi les souris expérimentales et 11 parmi les témoins. L'auteur conclut : "Il existe une très légère prépondérance du nombre des tumeurs chez les souris expérimentales par rapport aux souris témoins, et cette prépondérancen'est pas significative si l'on en fait une analyse statistique ...Les résultats de cette expérience indiquent que le papier à cigarette a peu ou pas d'effet sur la génération de cancer du poumon chez les souris albinos". a) Faire l'analyse statistique appropriée pour vérifier la première de ces deux conclusions. b) Etes-vous d'accord avec la deuxième conclusion de l'auteur ?

2. Calories et mortalité infantile (suite) On reprend les données sur la mortalité infantile et les calories. a) Tracer dans un plan x0y le diagramme représentatif de ces pays. Le résultat obtenu suggère-t-il l'existence d'une liaison entre les deux variables considérées ? Effectuer un test et conclure. b) pouvez-vous, des résultats précédents, déduire qu'un apport important de calories peut réduire la mortalité infantile ?

3. Souris infectées par des larves On s'intéresse à l'effet d'une dose faible de cambendazole sur les infections des souris par la Trichinella Spiralis. 16 souris ont été infectées par un même nombre de larves de Trichinella et ensuite réparties au hasard entre deux groupes. Le premier groupe de 8 souris a reçu du cambendazole, à raison de 10 mg par kilo, 60 heures après l'infection. Les 8 autres souris n'ont pas reçu de traitement. Au bout d'une semaine, toutes les souris ont été sacrifiées et le nombre suivant de vers adultes ont été retrouvés dans les intestins : Souris non traitées 514 Souris traitées 441

556 472

629,5 493

6311 535

6813 577

7114 608

7515 7916 629,5 6712

Que peut-on conclure au sujet d'une éventuelle efficacité du cambendazole, dosé à10 mg / kg, pour le traitement des infections des souris par la Trichinella Spiralis ? (en indice : les rangs). 4. Souriceaux (suite) On se demande s'il existe une relation entre la longueur de la queue et celle du corps d'un souriceau élevé dans des conditions normales d'éclairement. On tire au sort huit souris adultes élevées dans des conditions d'éclairement normal, et on mesure pour chacune d'elles, le corps et la queue, obtenant ainsi les résultats suivants : Longueur du corps 11,6 12,4 10,9 11,2 12,1 11,8 13,1 12,5 Longueur de la queue 10,4 10,1 9,7 9,9 10,8 11,0 12,1 11,7 Peut on considérer, au vu de ces données, que la queue est d'autant plus longue que la souris est plus grande ? On proposera un test et on justifiera la conclusion obtenue.

M1_TD_sem_9_10.doc

2/2

C. Huber

1

Semaines 11 et 12

Tests de comparaison de k échantillons.

Rappels de cours : Deux cas peuvent se produire selon que les échantillons sont liés ou non. A Echantillons indépendants. Test de la médiane généralisée : Valable pour k échantillons indépendants d'une variable continue, pas nécessairement de la même taille. Chacun des k échantillons est partagé en deux effectifs par cette médiane commune : ceux qui sont au-dessus et ceux qui sont au-dessous. Ces deux effectifs devraient être du même ordre. On est donc amené à faire un test du chi 2 avec probabilité théorique 1/2. Test de Kruskal-Wallis : Valable pour k échantillons indépendants d'une variable continue, pas nécessairement de la même taille. On ordonne toutes les valeurs dans leur ensemble ( n en tout) et on remplace chaque observation par son rang : 1 pour la plus petite, 2 pour la suivante, etc.., n pour la plus grande. A chacun des k échantillons, on fait ensuite correspondre son score obtenu comme la somme des rangs des observations qui le composent : soit Rj ce score. La statistique de Kruskal-Wallis est ainsi définie : 2

k Rj 12 K−W = j − 3(n + 1) ∑ n(n + 1) j =1 n

Cette statistique suit à peu près une loi du chi 2 à k-1 ddl. B Echantillons liés. Test de Cochran: Valable pour k échantillons binaires liés. Contrairement à ce qui se passe pour Kruskal-Wallis ou la médiane généralisée, les k échantillons ont cette fois tous la même taille, la liaison entre eux étant par exemple due à ce que les observations sont faites sur un même sujet et on a n sujets. Les données étant rangées dans n lignes et k colonnes, la statistique de Cochran est k

Q=

k(k - 1) ∑ (G j − G) 2 j =1

n

k ∑ Li − i =1

n

∑L i=1

2

i

où les Li sont les totaux de lignes, Gj. les totaux de colonnes et G la moyenne des Gj. :Q ~ chi2(k-1)ddl .

M1_TD_sem_11_12.doc

1/4

C. Huber

2

Test de Friedman : Valable pour k échantillons liés d'une variable ordinale. Comme pour Cochran, on a un tableau rectangulaire à n lignes et k colonnes. En supposant que les k modalités à comparer apparaissent en colonne, à l'intérieur de chaque ligne du tableau, on ordonne les valeurs par ordre croissant et on remplace chacune d'elles par son rang. On compte ensuite les scores de chaque colonne : Ri est la somme des éléments de la colonne i. La statistique de Friedman vaut alors : k 12 Ri2 − 3n(k + 1) Fr 2 = ∑ nk(k + 1) i =1

Cette statistique a une loi approximativement chi 2 à k-1 degrés de liberté. @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

Exercices 1.Vote Lors de sondages préélectoraux, on a demandé à 15 personnes quel serait leur vote au deuxième tour au cas où l'actuel favori F serait opposé à l'un ou l'autre des autres candidats possibles : A, B ou C. Leur réponse est ainsi codée : 1 s'ils votent pour F, 0 dans le cas contraire. Les résultats sont les suivants. Candidat opposé au favori A B C 1 3 4 5 7 8 9 10 11 12 13 14 15

0 0 0 1 1 0 1 0 1 0 1 1 1

0 1 1 0 1 1 1 0 1 1 1 1 1

0 0 0 0 1 0 0 0 1 1 0 0 1

Peut on dire que le vote pour ou contre F dépend du candidat auquel F est opposé? 2.Bureaux paysagers Dans des bureaux paysagers d'une grande tour de la Défense, on se demande si la couleur des parois, murs et petites cloisons de séparation, joue un rôle sur le niveau sonore. Dans ce but, on fait l'expérience suivante : 7 couleurs différentes sont choisies pour les murs et cloisons, bleu pâle, céladon, rouge vif, bleu foncé, vert foncé, jaune vif et finalemeet elles nt fond blanc à pois rouges (à faible densité de pois) . Les bureaux sont organisés et occupés de la même façon sur tous les points excepté la tonalité générale du décor. Les niveaux sonores mesurés dans chacun des bureaux (10 bleu clair, 8 céladon, etc..) sont les suivants :

M1_TD_sem_11_12.doc

2/4

C. Huber

3

1 2 3 4 5 6 7 8 9 10 11

bleu cl. vert cl.

rouge v.

bleu f.

vert f.

jaune v.

38.5 40.5 42.5 42.8 38.7 38.8 43.6 35.5 42.2 38.5

54.2 49.8 64.8 57.2 57.9 59.4 60.3 60.9 59.9 61.1 56.9

48.9 47.7 51.2 52.7 56.3 50.3 51.1 49.3 45.8 50.2

50.3 49.1 51.4 57.4 46.5 47.3 50.7 60.3 59.2

62.7 66.2 57.0 59.8 57.7 63.5 58.7

40.2 39.0 44.0 37.6 38.1 45.6 41.2 36.9

à pois 43.0 39.6 41.6 38.6 46.1

Tester l'hypothèse qu'il n'y a aucune influence de la couleur des cloisons sur le niveau sonore des bureaux. Ces données suggèrent elles une interprétation conduisant à une conclusion pratique ? 3.Publicité Dans le but de mieux vendre un magazine, quatre différents types de publicité sont testés sur des kioques de différents quartiers. Le premier type consiste à placer devant le kioque une affiche publicitaire contenant une illustration provocante, les trois autres consistent à offrir un cadeau d'accompagnement : un poster, une disquette, ou un CD rom. On a cinq quartiers différents, notés Qi , pour i = 1 à 5. L'augmentation des ventes est la suivante : Quartiers

Affiche poster 18 disquette CD

I

II

III

IV

V

27 38 21 23

59 31 50 48

44 8 40 42

13 80 12 14

103 95 98

4.Acuité auditive Pour tester une éventuelle dépendance de l'acuité auditive par rapport au degré d'éclairement, on mesure cette acuité par un score de 0 à 100 sur 10 sujets soumis à des éclairements décroissants. On obtient les résultats suivants : Niveau d'Eclairement

1 2 3 4 5 6

M1_TD_sem_11_12.doc

1

0.5

0.25

0

75 42 78 55 56 53

69 63 57 79 60 75

70 73 73 64 81 84

98 99 70 74 66 91

3/4

C. Huber

4

7 8 9 10

40 73 51 55

50 79 85 55

94 85 72 79

66 76 73 90

Y a-t-il ou non une influence du niveau d'éclairement sur l'acuité auditive ?

M1_TD_sem_11_12.doc

4/4

C. Huber

1

Semaines 13 et 14

Problèmes de révision

1. Dénombrement de globules rouges Le résultat d'un dénombrement de globules rouges sur les 500 cases d'un hématimètre est donné ci-dessous : X = i le nombre de globules d'une case

0

1

2

3

4

5

ni = nombre de cases 13 41 90 112 100 66 ayant i globules

6

7

8

9

10

N

45

22

9

1

1

500

On donne Σ x2 = Σ ni i2 = 8 114 . I1) Calculer la moyenne observée m du nombre X de globules par case et la variance observée s2 de X. 2) Construire l'intervalle de confiance à 5 % de µ, la moyenne théorique. 3) Si l'on suppose que X suit une loi de Poisson de paramètre µ, calculer µ0 l'estimation de µ par le maximum de vraisemblance. Comparer avec le résultat du 1). 4) (ne nécessite pas d'avoir résolu le 3)). Quel estimateur peut-on donner de µ ? Quelles sont les propriétés de cet estimateur ? II -

1) Si l'on admet que pour un sujet sain µ = 4. Formuler complètement le test permettant de savoir, au risque α, si les résultats obtenus peuvent provenir d'un sujet sain. 2) On décide de rejeter l'hypothèse µ = 4 si la moyenne observée m ∈ [m1, m2] où m1 et m2 sont définies par Prob [m ∈ (m1, m2) | µ = 4] = 5 % Quelles sont vos conclusions ? 3) Si le nombre X de globules par case suit une loi de Poisson et si on admet que µ = 4, la répartition théorique moyenne du nombre de globules est donnée par

M1_TD_sem_13_14.doc

1/10

C. Huber

2

X=i

0

ri

9,1

1

2

3

36,6 73,3

97,7

4

5

6

7

97,7 78,1 52,1 29,8

8

9

10

11

14,9

6,6

2,7

1,4

où ri est le nombre (moyen) de cases ayant i globules. Peut-on admettre au risque de 5 % que les résultats observés initialement sont ceux d'un sujet sain ? 4) Comparez aux résultats du II - 2) et commentez. III - Pour confirmer les résultats de la numération globulaire obtenue pour ce sujet on recommence l'expérience une semaine après. Pour ce deuxième prélèvement on ne compte que le nombre de cases sans globules. On obtient alors les résultats suivants : X

0

21

Nbre total de cases

1er prélèvement

13

487

500

2ème prélèvement

19

481

500

La proportion de cases vides est-elle la même pour ces deux prélèvements ? 2. Délai d'apparition d'une maladie On suppose que le délai X d'apparition d'une maladie après la mise en contact avec un milieu polluant est une variable aléatoire dont la loi admet la densité f (x) = a.exp (-ax) si x ≥ 0 =0 si x < 0 1) Quelle est la fonction de répartition F (x) de cette variable au point x ? 2) Calculer EX et Var (X). 3) Sur n sujets indépendants, on a mesuré le délai d'apparition de la maladie, obtenant un délai moyen d'apparition M = (X1 + ... +Xn) / n. Que valent l'espérance EM et la variance V(M) de M ? 4) Sur n = 100 sujets, on a observé un délai moyen d'apparition de 21 jours avec un écart type empirique de 5 jours. peut on en déduire un intervalle de confiance au risque 3 % pour le paramètre inconnu a ? 5) Reprendre le problème en supposant cette fois que la loi de X est la loi uniforme sur le segment [0 a]

M1_TD_sem_13_14.doc

2/10

C. Huber

3

3. Diabète infantile Une revue médicale a récemment publié le tableau ci-dessous à la suite d'une enquête sur le diabète infantile. Les 269 patients examinés ont été tirés au hasard de la population Pde diabétiques ainsi définie : d'une part il fallait que le diabète se soit déclaré chez le sujet avant qu'il n'ait atteint l'âge de 15 ans, d'autre part que la durée d'évolution de la maladie, c'est à dire le temps écoulé entre la date d'apparition du diabète et la date de l'enquête, soit supérieure à 15 ans. Sur les 269 sujets observés, 115 sont des hommes et 154 des femmes. Durée Nombre de d'évolution cas

Rétinopathies

R1

R2

R3

15 < t ≤ 20

173

67

45

15

7

20 < t ≤ 25

58

32

17

12

3

t > 25

38

22

12

7

3

TOTAL

269

121

34

13

74

Les patients, comme on le voit sur le tableau, ont été répartis en 3 classessuivant que la durée t d'évolution de la maladie se situe entre 15 et 20 ans, 20 et 25, ou dépasse 25 ans. Certains sujets sont atteints de rétinopathie (maladie de la rétine), d'autres pas. Ceux qui en sont atteints ont été répartis en trois catégories : R1, R2 et R3 d'après la gravité de la rétinopathie : R1 si l'atteinte est légère, R2 si elle est moyenne et R3 si elle est forte. a) - Tester, au seuil de signification de 2 %, l'hypothèse selon laquelle la population P étudiée est composée d'autant d'hommes que de femmes. Pour quelles valeurs du seuil de signification accepterait on cette hypothèse ? b) - Donner une estimation par un intervalle de confiance à 5 % de la proportion des malades atteints de rétinopathie dans chacune des classes de durée d'évolution. Peut-on considérer que ce pourcentage croit significativement en même temps que la durée d'évolution, au seuil de 5 % ? c) - Parmi les sujets atteints de rétinopathie, la gravité de la rétinopathie dépend elle de la durée d'évolution du diabète ? d) - 18 des patients figurant dans l'enquête présentent de l'hypertension artérielle (notée H.T.A.). On a testé sur eux un nouveau médicament destiné à faire baisser la tension, et obtenu au bout de 40 jours de traitement les résultats suivants :

Numéro du patient Différence de tension

1

2

3

4

5

6

7

8

9

10

11

12

13

14

+1 +4 +5 -5 -1 +2 +8 -25 -12 -16 -9

-8

-18 -5

15

16

17

18

-22 -21 -15 -11

Peut-on considérer que ce traitement est efficace ? (On pourra pour cela tester au seuil de 5% l'hypothèse H0 selon laquelle le traitement n'a aucun effet). 4. Capacité respiratoire et pollution atmosphérique Lors d'une étude destinée à mettre en évidence d'éventuelles relations entre les affections respiratoires et la pollution atmosphérique, on a obtenu les résultats suivants dans M1_TD_sem_13_14.doc

3/10

C. Huber

4

des quartiers bien définis de quatre grandes villes françaises (*) : Concentration en SO2 (UG / M3) Bordeaux B1 B2 B3 B4 Lyon

L1 L2 L3 L4

Marseille M1 M2 M3 M4 Toulouse T1 T2 T3

42 37 69 47 88

Prévalence des symptomes respiratoires

26, 2 27, 3 29, 3 26, 8 31, 5

100 56 94 60 105 120

31, 2 29, 2 28, 4 28, 2 30, 2

48

27, 7 26, 6

34 13

25, 9 28, 7 26, 1

32

1) Peut on considérer que les deux villes de Bordeaux et de Lyon sont comparables en ce qui concerne la pollution par le dioxyde de soufre ? 2) Ce tableau de données permet-il de conclure à l'existenced'une liaison entre la prévalence des symptomes respiratoires et la concentration en dioxyde de soufre ? (Comme il serait trop long de décrire le protocole de l'enquête qui a permis de recueillir ces données, on pourra supposer vérifiées les hypothèses qui permettent d'effectuer un test) 3) Le volume expiratoire moyen en une seconde, appelé Vems, est une quantité qui dépend de la taille et de l âge.Les mesures faites sur 8 individusadultes ont donné les résultats suivants Individu Age (an) Taille (m) Vems (1 / s) 1 2 3 4

30 32 35 36

1. 85 1. 72 1. 51 1. 62

4. 5 3. 6 2. 7 3. 1

5 6 7 8

37 31 36 33

1. 6 1. 80 1. 75 1. 68

3. 6 4. 4 4. 3 3. 8

Un modèle de régression linéaire a été proposé pour la liaison entre le Vems et la taille, illustré par la figure suivante :

M1_TD_sem_13_14.doc

4/10

C. Huber

5

V.e.m.s. en litres/seconde

30-39 ans

40-49 ans

50-59 ans 3.0

2.5

2.0 1.5

1.7

1.8

1.9

Taille en mètres

4) L'échantillon des 8 personnes interrogées parait-il être conforme à ce modèle, c'est à dire Vi = a . Ti + b + Zi où V est la variable qui désigne le Vems, T la taille, et Z une variable Normale N (0; 0, 06) et i est l'indice désignant l'individu. 5) En fait, les 4 premières personnes ont été tirées au hasard d'une population soumise à une pollution atmosphérique significativement plus importante que les 4 autres. Ces données vous permettent-elles de conclure à l'existence d'une liaison entre la pollution atmosphérique et le Vems ? 6)Trois régions sont classées suivant la teneur de l'air en poussières, par ordre croissant (I, II, III), et on extrait dans chacune de ces régions un échantillon d'individus dont on mesure le Vems; les valeurs du Vems sont subdivisées en quatre classes notées 1, 2, 3, 4 (1 correspond à un Vems très bas, 2 à un Vems bas, 3 à un normal,4 à un supérieur à la normale) : Région Vems 1 2 3 4

I

II

III

12 54 124 10

23 73 102 7

42 67 85 8

Peut-on considérer qu'il existe une liaison significative entre la teneur de l'air en poussières et le V.e.m.s. ? (*) D'après : Enquête du groupe coopératif PAARC, Bull. europ. Physiopath.respiratoire, 1980, 16,745 767;1982,18, 87-99; 101 -116

5. Papillons M1_TD_sem_13_14.doc

5/10

C. Huber

6

On étudie une variété de papillons qui se présentent sous l'une des trois couleurs suivantes : jaune, orange ou noir (1). I. On a remarqué que dans les régions au climat rigoureux les papillons noirs semblaient être, en proportion, plus nombreux que dans les régions dont le climat est doux. On a donc observé deux échantillons de ces papillons, l'un de 360 et l'autre de 180 papillons sous l'un et l'autre climats, et obtenu les résultats suivants : papillons région

noirs

oranges

jaunes

Total

climat doux climat rude

42 39

164 73

154 68

360 180

a) Tester, au niveau d = 2 %, l'hypothèse H0 selon laquelle la répartition des papillons entre les trois couleurs est indépendante de la rigueur du climat. b) Quelle autre hypothèse H'0 auriez-vous pu choisir de tester dans le but de vérifier si effectivement les papillons noirs étaient proportionnellement plus nombreux dans les régions froides ? Indiquez les grandes lignes de la résoluton de ce nouveau problème de test de votre choix. II. Les trois couleurs possibles jaune, orange et noir, correspondent respectivement aux trois génotypes aa Aa AA. Or les deux variétés allèles A et a du gène de coloration sont réparties, dans la population des papillons, dans les proportions respectives θ et 1 - θ, où θ est un paramètre inconnu, strictement compris entre 0 et 1. De plus les croisements sont supposés avoir lieu au hasard. (Autrement dit pour former un papillon de génotype donné, tout se passe comme si l'on effectuait deux tirages avec remise dans une urne contenant une proportion θ de A et 1 - θ de a). a) Quelles sont, en fonction de θ, les probabilités p1, p2 et p3, pour qu'un papillon soit respectivement noir, orange ou jaune ? b) On tire au hasard n papillons et on désigne respectivement par X1, X2 et X3 le nombre de ceux qui sont de génotype AA Aa et aa. On considère les évènements suivants : E1 = {X1 = n1} ; E2 = {X2 = n2} ; E3 = {X3 = n3} E12 = {X1 = n1, X2 = n2} = E1 E2 E123 = {X1 = n1, X2 = n2, X3 = n3} = E12 E3 = E1

E2

E3

Calculer, en fonction de p1, p2 et p3, les probabilités suivantes : P(E1) , P(E2 / E1) , P(E12) , P(E3 / E12).

En déduire P(E123). Voyez-vous une autre façon, plus directe, de calculer P(E123) ? Exprimer P(E123) en fonction de θ.(2) c) Sur un échantillon de n papillons dont n1 sont noirs, n2 oranges et n3 jaunes, on cherche à estimer la valeur de θ. Donner, en fonction de n1, n2 et n3, l'estimateur du maximum de vraisemblance de θ.

Application numérique : On se limite aux régions dont le climat est doux, et on utilise les données figurant dans M1_TD_sem_13_14.doc

6/10

C. Huber

7

la première ligne du tableau de la question I. III Une théorie conduit à donner à θ la valeur 1 / 3. a) Tester l'hypothèse H0 : (θ = 1 / 3) au seuil de 10 %, en ce qui concerne les papillons qui vivent dans les régions dont le climat est doux. A partir de quel seuil aurait-on rejeté H0 ? (Utiliser les données de la 1ère ligne du tableau I). b) On s'est aperçu que l'excédent de papillons noirs dans les régions au climat rude, est dû au fait que les papillons jaunes et oranges semblent y survivre moins bien. Pour vérifier l'exactitude de cette remarque, on compare, dans ces régions, les durées de vie des papillons noirs et des autres. On fait 100 observations indépendantes sur la différence D entre la durée de vie d'un papillon noir et d'un papillon d'une autre couleur, comparables en tous points (autre que la couleur) et situés dans les mêmes conditions de vie. Ces 100observations (di) i = 1, ..., 100, mesurées en jours, ont pour moyenne empirique m = Σ di / 100 = 10 jours , et s2 = Σ (di - m ) 2 / 100 = 16 pour variance empirique. Tester au seuil de 5 % l'hypothèse H0 : la durée de vie de cette espèce de papillons est indépendante de leur couleur, noir ou non, dans les régions au climat rigoureux. c) On s'aperçoit, après coup, que les mesures de la différence D entre les durées de vie ont été faussées par l'appariement de telle sorte que l'échantillon de taille 100 (en fait 200observations) n'est pas représentatif. Comme on n'a plus ni le temps, ni les moyens de recommencer l'expérience sous une forme comparable, on mesure les durées de vie de 10 papillons noirs et de 10 papillons d'une autre couleur, tirés au hasard et on obtient : Papillons noirs Autres

14 8

10 17

11 9

12 10

13 12

12 11

9 16 14 7

18 8

17 13

Peut on conclure ? (1) Les parties I, II et III sont indépendantes (sauf en ce qui concerne la question III a) qui nécessite le résultat de la question II a)).

M1_TD_sem_13_14.doc

7/10

C. Huber

8

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ @@@@@@@ PROBLEMES.

I. Marqueurs de la mucoviscidose Il s'agit de savoir si une protéine qui fixe le calcium est perturbée lorsque le sujet est atteint de mucoviscidose. Pour mettre en évidence une éventuelle différence, on utilise un complexe radioactif qui provoque sur la protéine l'apparition de taches noires qu'on mesure au densitomètre après dépôt sur une plaque de plastique. Sur chacune de ces plaques, on a trois protéines : une normale T , une appartenant à un sujet faiblement atteint de mucoviscidose L et une appartenant à un sujet gravement atteint de mucoviscidose G. Chaque plaque a ses caractéristiques et il est impossible de régler le temps de pause pour qu'il soit toujours le même, aussi y a-t-il une influence de la plaque sur le résultat des mesures par le densitomètre. Les résultats obtenus sont les suivants : Protéines

Plaque 1

Plaque 2

Plaque 3

Plaque 4

Plaque 5

Plaque 6

N

32

41

23

18

56

43

L

38

43

28

24

60

45

G

46

42

31

27

64

49

Peut on considérer que cette protéine est un marqueur de la mucoviscidose ? (Autrement dit, les trois échantillons liés correspondant à N, L et G peuvent ils être considérés comme provenant d'une même population ?).

II Longévité des nématodes Dans le cadre de l'étude du vieillissement, le professeur Thomas Johnson a étudié, à l'université du Colorado, la durée de vie des nématodes. La durée de vie de ces petits vers, qui deviennent adultes en trois jours, est d'une vingtaine de jours en l'absence de toute intervention. Or un gène G1 a été identifié comme étant potentiellement un "gène du vieillissement". Deux échantillons de nématodes ont été constitués : l'un n'a subi aucune intervention, et sur l'autre, on a désactivé le gène G1. On a ainsi obtenu les résultats suivants, où les mesures Xi concernent le premier échantillon et les mesures Yi le second : Sujet

12

3

4

5

6

X

23

19

21

20

18

22

Y

25

24

30

35

40

39

Ces mesures permettent elles de confirmer l'hypothèse que G1 pourrait être effectivement

un gène du

vieillissement ?

M1_TD_sem_13_14.doc

8/10

C. Huber

9

III Régime basses calories Toujours dans le cadre de l'étude du vieillissement, une expérience a été menée avec des souris de laboratoire à qui l'on impose un régime plus ou moins riche en calories. A chaque souris traitée correspond une dose D de calories ingérée chaque jour et une durée de vie X. Comme un régime pauvre en calories, avec cependant une dose normale de protéines et de vitamines, est supposé augmenter la durée de vie, la dose est mesurée en multiples d'une dose standard et la durée de vie en mois. Les observations ont été les suivantes : Sujet 1 2 3 4 5 6 7 D 1,4 1,2 1 0,8 0,6 0,4 0,2 X 26 30 28 35 38 41 39 Peut on considérer qu'il y a une liaison entre la longévité et la dose de calories absorbée ? Justifier le test employé, donner son degré de signification, et commenter le résultat. IV. Stage A l'issue d'un stage dans une entreprise, pour sélectionner les candidats qui auront un emploi définitif, on leur fait passer un test qui comporte dix questions. Ces dix questions sont supposées présenter la même difficulté, c'est à dire que, pour chaque candidat, la probabilité de réussite est en principe la même pour chacune des questions. Pour chaque candidat, 1 désigne la réussite et 0 l'échec. L'épreuve a donné les résultats suivants : n° du candidat 1 2 3 4 5 6 7 8

Réponses aux questions 1 1 1 1 0 1 0 1

0 1 1 0 1 1 0 1

1 0 1 0 1 1 0 1

0 0 1 1 1 1 0 0

1 0 1 1 0 1 0 1

0 0 1 1 0 1 0 1

1 0 0 0 1 0 0 0

0 0 0 1 0 0 0 1

0 0 1 0 0 1 0 0

0 0 0 0 0 0 0 0

1) Peut on considérer que les dix questions sont de même difficulté ? 2)En fait, les cinq premières questions ont été posées par une même personne et les cinq dernières par une autre. Pourriez vous interpréter le résultat obtenu en 1) à l'aide d'un autre test ? V Autoritarisme et conformisme Dans le cadre d'une étude sociologique, on essaye d'établir, grâce à une enquête auprès d'étudiants dans une université, s'il existe un lien entre le conformisme et l'autoritarisme. Pour cela on pose un certain nombre de questions sur les comportements considérés comme préférables dans telle ou telle situation, et on obtient, pour chaque tudiant un score de 'conformisme', selon l'échelle de Smith et un score d'autoritarisme, selon l'échelle de Durand. Les résultats obtenus sur 1es 12 étudiants de l'enquête ont été les suivants : M1_TD_sem_13_14.doc

9/10

C. Huber

10

Etudiant 1 2 3 4 5 6 7 8 9 10 11 12

Score de conformisme 42 46 39 37 65 88 86 56 62 92 54 81

Score d'autoritarisme 82 98 87 40 116 113 111 83 85 126 106 117

Quelle conclusion pouvez vous en tirer ? VI Durée de survie Trois nouveaux traitements, notés A, B et C sont mis en compétition pour rallonger la durée de survie de patients atteints de sida avéré. L'essai thérapeutique a lieu dans six centres hospitaliers de la communauté européenne. Un protocole a été établi pour harmoniser les conditions de l'hospitalisation entre les trois centres mais il reste cependant des caractéristiques de chacun des centres, telles que par exemple le recrutement des patients, qui ne peuvent pas être rendues identiques pour l'ensemble des six. Les observations concernent la durée de survie cumulée de 10 patients dans chaque centre. Exprimées en nombre de mois, ces observations ont été les suivantes : Traitements A B C

Centre 1 302 310 402

Centre 2 401 413 420

Centre 3 231 283 317

Centre 4 182 241 280

Centre 5 553 610 645

Centre 6 403 451 497

Pouvez vous faire un test de comparaison de ces trois traitements, en tenant compte de l'influence possible de chacun des centres hospitaliers ?

M1_TD_sem_13_14.doc

10/10

C. Huber

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF