Nom: Date: Note Travail Pratique 2 R concepts, variables aléatoires

January 8, 2018 | Author: Anonymous | Category: Mathématiques, Statistiques et probabilités

Short Description

Download Nom: Date: Note Travail Pratique 2 R concepts, variables aléatoires...

Description

Nom: ________________________________________________________ Date: __________________________________ Note ________________

Travail Pratique 2 R concepts, variables aléatoires et distributions de probabilité (pratique), statistiques descriptives Objectifs  Améliorer votre compréhension de la philosophie du logiciel R  Utiliser cette compréhension pour voir le logiciel du point de vue de la transparence dans la recherche basée sur des programmes informatiques  Consolider votre connaissances des distributions de probabilités et de leurs applications, et d'appliquer les statistiques descriptives les plus courantes. Pondération (total: 100 points)  Section 1: 40 points  Section 2: 20 points  Section 3: 40 points  Vous devez inscrire (sections 1.1 – 3.13) vos réponses directement dans ce fichier word (.doc). Aucune réponse transcrite à la main ne sera acceptée. Remerciements Une partie de ce travail pratique est basé sur le cours et les instructions de laboratoire de Susan Holmes, membre de l’Université de Stanford, et Karla Karstens, membre de l’Université de Vermont. Section 1.1 les concepts sous-jacents au logiciel R peuvent-ils répondre à la demande de programmes informatiques ouverts en recherche scientifique? (40 points) Vous devez lire deux articles; Ihaka et Messieurs (1996) et Ince et al. (2012). Le premier article porte sur les idées et les concepts derrière R, le second soulève la question de la transparence concernant l'utilisation de programmes informatiques ouverts dans la recherche scientifique. Je ne m’attends pas à ce que vous compreniez pleinement les deux articles, mais j'espère que vous comprendrez les notions clés pour répondre aux questions suivantes en deux pages (questions 1.1 à 1.6: une page; la question 1.7: une page). 1.1 Selon Ince et al. (2012), qu’est-ce que la reproductibilité et comment est-elle liée à la philosophie scientifique? (5 points) 1.2 Selon Ince et al. (2012), pourquoi les descriptions des codes linguistiques sont-elles insuffisantes? (5 points) 1.3 Selon Ince et al. (2012), quels sont les obstacles associés aux programmes informatiques ouverts qui accompagnent les articles scientifiques et qu'est-ce que les auteurs proposent 1

pour surmonter ces obstacles? (5 points) 1.4 Selon Ihaka et Gentleman (1996), Quelle est le rôle des fonctions dans R? (5 points) 1.5 Qu’est-ce que le «lazy evaluation» et pourquoi est-ce utile? (3 points) 1.6 Quelle est la «portability» et quel est son rôle dans le développement de R? (2 points) 1.7 D'après ce que vous savez sur R jusqu’à maintenant, est-ce que les idées sous-jacentes à R (par exemple, «open source») et son infrastructure basée sur la communauté (http://www.r-project.org/) peuvent répondre efficacement à l’appel de Ince et al. (2012) pour des programmes informatiques ouverts applicables à la recherche scientifique? (15 points)» Section 1.2 Variables aléatoires et distributions de probabilité (20 points) Jetez un œil sur les deux tutoriels à propos des distributions de probabilité: http://www.cyclismo.org/tutorial/R/probability.html http://www.r-tutor.com/elementary-statistics/probability-distributions et examinez attentivement les fonctions disponibles pour les distributions normale, de Poisson et binomiales. En utilisant la CDF, calculer les probabilités indiquées ci-dessous. Fournir le code que vous avez utilisé. 1.2.1 Probabilité qu'une variable aléatoire normale de moyenne 20 et de variance 28 (8 points)  soit comprise entre 14,2 et 13,5  soit supérieure à 21  soit inférieur à 12  soit inférieur à 11 ou supérieur à 31 1.2.2 Probabilité qu’en 60 lancers d'une pièce de monnaie, on obtienne une face: (6 points)  12, 24 ou 36 fois  moins de 15 fois  entre 25 et 35 fois 1.2.3 Une variable aléatoire X a une distribution de poisson avec une moyenne de 8. Calculer les probabilités que : (6 points)  X soit inférieure à 3  X soit supérieure à 9  X soit comprise entre 5 et 12

2

Section 1.3 Statistiques descriptives (40 points) 1.3.1 Cette section est basée sur les données du tableau ci-dessous. Créez un data.frame nommé ”summer.job” qui a pour noms de colonnes ”names”, ”type”, ”average.hours” et ”hourly.wage”. Fournir le code que vous avez utilisé pour créer le data.frame. (4 points)

1.3.2 Quels sont les types de données des quatre colonnes du data.frame « summer.job » que vous venez de créer: décrire chaque variable et indiquer s'il s'agit d'un type de données qualitatives ou quantitatives. (8 points) 1.3.3 Considérez la variable "type". Affichez les résultats en utilisant une distribution de fréquence avec les fréquences relatives. (2 points) 1.3.4 Considérez la variable "type". Affichez les résultats visuellement à l'aide d'un graphique approprié. Décrivez le graphique. (2 points) 1.3.5 Considérez la variable « type ». Calculez les statistiques descriptives suivantes: moyenne arithmétique, écart-type, médiane, écart interquartile, boxplot, le mode et la fréquence relative des « type ». Fournir le code que vous avez écrit et les résultats. Indiquer la(les) statistique(s) descriptive(s) les plus appropriées pour « type » et expliquez votre choix. (4 points) 1.3.6 Quelle est la probabilité qu’un étudiant choisi aléatoirement ait un travail de «babysitting»? (2 points)

3

1.3.7 Considérez la variable « average.hours ». Affichez les résultats en utilisant une distribution de fréquence avec les fréquences relatives. (2 points) 1.3.8 Considérez la variable « average.hours ». Affichez les résultats visuellement à l'aide d'un graphique approprié. Décrivez la distribution (symétrique, asymétrique, etc.). (2 points) 1.3.9 Considérez la variable « average.hours ». Calculer les statistiques descriptives suivantes: moyenne arithmétique, écart-type, médiane, écart interquartile, boxplot, le mode et la fréquence relative des « average.hours ». Fournir le code que vous avez utilisé et les résultats. Indiquer la (les) statistique(s) descriptive(s)la (les) plus appropriée(s) pour "hourly.wage" et expliquez votre choix. (4 points) 1.3.10 Considérez la variable « average.hours ». Un de vos amis vous dit qu'il a travaillé en moyenne 30 heures par semaine pendant l'été. Son temps travaillé serait-il considéré comme un événement inhabituel? Expliquez votre réponse. (2 points) 1.3.11 Considérez la variable « hourly.wage ». Créer un histogramme avec 5 classes. Décrivez la distribution (symétrique, uniforme ou asymétrique). (2 points) 1.3.12 Considérez la variable « hourly.wage ». Calculez les statistiques descriptives suivantes: moyenne arithmétique, écart-type, médiane, écart interquartile, boxplot, le mode et la fréquence relative des « hourly.wage ». Fournir le code que vous avez utilisé et les résultats. Indiquer la (les) statistique(s) descriptive(s) la (les) plus appropriée(s) pour "hourly.wage" et expliquez votre choix. (4 points) 1.3.13 Considérez la variable " hourly.wage ". Si un de vos amis vous dit que son salaire horaire était de 5,00 $, est-ce que cela serait considéré comme une donnée aberrante? Expliquez votre réponse. (2 points)

4

Nom: Date: Note Travail Pratique 2 R concepts, variables aléatoires

Short Description

Description

Comments

We need your help!