Statistiek Deel 1 Beschrijvende statistiek
Short Description
Download Statistiek Deel 1 Beschrijvende statistiek...
Description
Samenvatting statistiek
Academiejaar 2006-2007
Statistiek 4 examenvragen: - tabel aanvullen met spreidings- en centrummaten - poisson- en binomiale verdeling
Deel 1 Beschrijvende statistiek 1 Soorten variabelen Kwalitatief: geen getallen - ordinaal: ordening (rangschikbaar) - nominaal: geen ordening Kwantitatief: getallen - discreet: in stapjes - continu: kommagetallen - ratio: natuurlijk nulpunt - interval: geen natuurlijk nulpunt
2 Grafieken (relatieve) frequenties: histogram cumulatieve (relatieve) frequenties: cumulatief frequentiepolygoon of ogief ! Bliksemschichtje bij assen die niet vanaf 0 beginnen.
2.1 Kwantitatief discrete variabele -
histogram of staafdiagram: staafjes raken elkaar niet ogief: snijden op x-as, midden van de klasse, verbinding met punten in lijnen
2.2 Kwantitatief continu ratio variabele -
ogief: punt op rechterklassegrens stengel-bladdiagram
2.3 Kwalitatief nominale variabele -
strookdiagram in relatieve frequentie in percentage cirkel- taart- of schijfdiagram in relatieve frequentie in percentage
Jolien De Veirman
1/10
Samenvatting statistiek
Academiejaar 2006-2007
3 Centrummaten voor discrete gegroepeerde gegevens 3.1 Rekenkundig gemiddelde 3.1.1 Ongewogen gemiddelde Som van Xi waarden (soms . Fi), delen door n (of door de som van Fi) 3.1.2 Gewogen gemiddelde Som van Xi . Wi gedeeld door de som van Wi waarbij W= wegingsfactor
3.2 Mediaan Middelste waarneming of rekenkundig gemiddelde van de 2 middelste waarnemingen 3.2.1 Mediaan bij continue gegroepeerde gegevens Linkerklassegrens + aantal waarnemingen kleiner dan de mediaan . klassenbreedte aantal waarnemingen kleiner dan de mediaan + aantal waarnemingen groter dan de mediaan Opmerking: Indien n = even mediaan tussen 2 getallen links en rechts meetellen voor het aantal waarnemingen Indien n = oneven mediaan is 1 getal mediaan niet meetellen
3.3 Modus Meest voorkomende waarneming. 2 modussen “bestaan niet”.
3.4 Kwartielen Q1: 25% crf, helft van MED Q3: 75% crf, heft van MED
Jolien De Veirman
2/10
Samenvatting statistiek
Academiejaar 2006-2007
4 Spreidingsmaten 4.1 Variatiebreedte Grootste – kleinste waarneming Rechtergrens grootste klasse – linkergrens kleinste klasse
4.2 Interkwartielafstand (IQR) Q3 – Q1
4.3 Gemiddelde afwijking (gemiddelde absolute fout) Absolute som van Xi – rekenkundig gemiddelde, gedeeld door n 1 n ∑ xi − x . fi n i =1
4.4 Standaardafwijking Vergelijking met het gemiddelde in hoeverre deze van het gemiddelde afwijkt
σ=
Opm:
(
)
2 1 n x − x . fi ∑ i =1 i n
[x − σ , x + σ ] = 70%waarne min gen [x − 2σ , x + 2σ ] = 95%waarne min gen
4.5 Variantie Standaardafwijking zonder vierkantswortel
4.6 Variatiecoëfficiënt Spreidingsvergelijking met een verschillend gemiddelde
σ
x
4.7 Boxplot Xmin, Xmax, MED, Q1, Q3, onderaan as
Jolien De Veirman
3/10
Samenvatting statistiek
Academiejaar 2006-2007
5 Verband tussen kwalitatieve ordinale verbanden 5.1 Spearman rangcorrelatie coëfficiënt 6∑i =1 d i n
rs = 1 −
2
n3 − n
Di = rang 1 - rang 2
-1
- 0,7
- 1 tot – 0,7 1 tot 0,7 - 0,3 tot 0,3
- 0,3
0
0,3
0,7
1
perfect omgekeerd verband perfect verband geen verband
Bij exaeco voor rangschikken van kwalitatieve nominale gegevens: Neem de gemiddelde waarde van wat er nog overblijft.
6 Verband tussen kwantitatieve variabelen 6.1 Rangcorrelatie coëfficiënt
∑ (x n
r=
i =1
∑ (x
)(
− x . yi − y
) ∑ (y 2
n
i =1
i
i
−x .
n
i =1
i
) −y
)
2
X: gegevens kolom 1 Y: gegevens kolom 2 Uitkomst: zie as hierboven Weergave: puntenwolk of Scatterdiagram
Jolien De Veirman
4/10
Samenvatting statistiek
Academiejaar 2006-2007
6.2 Puntenwolk
Jolien De Veirman
5/10
Samenvatting statistiek
Academiejaar 2006-2007
6.3 Regressielijn Rechte die het beste door de puntenwolk gaat
∑ (x − x )(. y − y ) m= ∑ (x − x ) n
i =1
i
i
2
n
i =1
i
q = y − mx y = mx + q
6.3.1 Voorspelling op basis van de regressielijn Het missende cijfer (x) ingeven in de formule y = mx + q
6.4 Seizoenspatroon Formule van de regressierechte + gemiddelde vd som vd positieve(Yi – Ykansberekening) Ykansberekening = voor iedere x-waarde, regressierechte opnieuw berekenen.
7 Verband tussen nominale variabelen of tussen nominale en ordinale variabelen Bvb verband opleidingsniveau en supermarkt
7.1 Verwachte frequenties Eij (kolomtotaal . rijtotaal) / volledig totaal
7.2 Chi-kwadraat test
χ
² obs
=∑
(f
− eij )
²
ij
eij
Waarbij Fij = waargenomen (gegeven) frequenties
7.3 Vrijheidsgraad of degree of freedom (df) (aantal kolommen – 1) . (aantal rijen -1)
7.4 Kritieke waarden
² χ krit
In gegeven tabel bij 5% rechteroverschrijdingskans kijken, per berekende vrijheidsgraad. Kritieke waarden kleiner dan chi obs verband met 5% foutkans
Jolien De Veirman
6/10
Samenvatting statistiek
Academiejaar 2006-2007
Deel 2: Kansberekening 1 Regel van Laplace Kans (P) = aantal gunstige uitkomsten aantal mogelijke uitkomsten
1.1 Complementaire gebeurtenissen P (niet A) = 1 – P(A)
1.2 Productregel Als A en B onafhankelijke gebeurtenissen zijn, dan is P(A en B) = P(A).P(B) Vb. Kans om lotto te winnen (6 juiste kruisjes uit 42) 6/42 . 5/41 . 4/40 . 3/39 . 2/38 . 1/37 = 0,00000019 (1 / 5245786) Vb. Kans dat persoon 30 jaar lang wekelijks lotto speelt ooit zou winnen? 52 . 30 deelnames = 1560 deelnames 1. Kans om bij 1 deelname te winnen: 1 / 5245786 2. Kans om bij 1 deelname niet te winnen: 1 – (1 / 5245786) = 5245785 / 5245786 3. Kans om bij 1560 deelnames niet te winnen: (5245785 / 5245786)1560 4. Kans om ooit te winnen bij 1560 deelnames: 1 – (5245785 / 5245786) 1560
2 Discrete kansverdelingen De kansverdeling van een discrete variabele x is een tabel die voor elke mogelijke waarde k van X aangeeft wat de kans is dat X precies gelijk is aan k. k P (X=k)
0 x/n
2.1 Verwachtingswaarde
µ = E[ X ] = ∑k =0 k .P( X = k ) n
Vb. Hoeveel keer kruis gooi je gemiddeld met 2 munten? µ = E [ X ] = 0 . 1/4 + 1 . 2/4 + 2 . 1/4 = 1 Jolien De Veirman
7/10
Samenvatting statistiek
Academiejaar 2006-2007
2.2 Standaardafwijking σ=
∑ (k − µ ) ).P( X = k ) 2
Hoe groter, hoe gevaarlijker de kans.
2.3 Binomiale verdeling X is het aantal successen van een veranderlijke x, bij het n keer herhalen van een experiment met een vaste kans p op een succes bij elk experiment Als X ~ Bin (n, p) dan P( X = k ) =
n! p k (1 − p ) n − k k!(n − k )!
2.4 Poisson verdeling Telt het aantal keer iets gebeurt (per tijdseenheid) als je weet dat het gemiddeld aantal keer (per tijdseenheid) gelijk is aan µ . Als X ~Pois (
µ
)
dan P( X = k ) =
µ k e−µ k!
3 Continue kansverdelingen 3.1 Normale verdeling (heeft veel invloeden) De normale verdeling met gemiddelde Als X ~ N ( µ , σ ) X −µ dan (= Z) ~ N (0,1)
µ
en standaardafwijking σ .
σ
P (Z < a): rechtstreeks aflezen in tabel P (Z > a): 1 – P (Z < a) P (a < Z < b): P (Z < b) – P (Z < a)
Jolien De Veirman
8/10
Samenvatting statistiek
Academiejaar 2006-2007
4 Verdelingen benaderen met andere verdelingen 4.1 Possion ipv Bin als Als of
n ≥ 30 n.p ≤ 5 n (1 – p) ≤ 5
dan
Bin (n , p) ≈ P (n . p)
dan
Bin (n,p) ≈ N (n. p, n. p(1 − p) )
4.2 Normaal ipv Bin als Als En
n ≥ 30 N.p>5 n (1 – 5) > 5
4.3 Vuistregeltjes rechtstreeks uit tabel P(x ≤ a) P(x ≥a) 1–P(x ≤ a) P(x=a) P ( x ≤ a ) – P ( x ≤ a -1 ) P (a ≤ x ≤ b ) P ( x ≤ b ) – P ( x ≤ a - 1 )
5 Kansen over het gemiddelde Populatie (N)
Steekproef (n)
σ
X s
µ
Gemiddelde Standaardafwijking
5.1 σ bekend Als X ~ N ( µ , σ )
dan X ~ N ( µ ,
σ n
)
5.2 σ onbekend (maar wordt geschat door steekproef s) Als X ~ N ( µ , σ ) dan X ~
Jolien De Veirman
tn − 1 ( X − µ ) s
n
9/10
Samenvatting statistiek
Academiejaar 2006-2007
6 Betrouwbaarheidsintervallen over het gemiddelde 6.1 σ bekend
σ σ X − z x + z ; α α n n 2 2 % zekerheid 90 95 99
tabel normale verdeling 1,64 1,96 2,57
6.2 σ onbekend (met steekproefstandaardafwijking s)
s s 1 ; 1 X − t − x + t − n α n α n n 2 2
Jolien De Veirman
10/10
View more...
Comments