Formularium - Statistiek deel 1
Beschrijvende statistiek
Univariaat
- observaties van :
- waardengebied van :
Frequentiefuncties
-
frequentie
-
proportie
- notatie:
- cumulatieve frequentie
-
cumulatieve proportie
- notatie:
-
- ongelijkheid in tweede term is strikt ( en niet )
-
-de kwantiel
- geval 1:
- geval 2:
- andere cursussen statistiek hebben vaak andere definities voor geval 2
- algemene formule voor de twee gevallen
- geval 1:
- percentielen
- decielen
- kwartielen
Centrale tendensmaten
-
modus / modi
- unimodaal, bimodaal, multimodaal
-
mediaan
- als oneven
-
als even
- veronderstelling: gesorteerd van klein naar groot
- gemiddelde
-
- is een optimum, maar niet uniek
-
- is het (unieke) optimum
- Steiner:
Spreidingsmaten
- bereik
- interkwartielbereik
-
variantie
-
standaarddeviatie
-
Tchebychev ()
- ongeacht verdeling van
-
boxplot
- variant 1
- zonder uitbijters
- box
- lengte snorharen
- onder:
- boven:
- variant 2
- met uitbijters (buiten snorharen)
- box
- zelfde als variant 1
- lengte snorharen
- onder:
- boven:
- variant 1
Transformaties
- algemeen
- lineaire transformaties
- Z-transformatie
-
z-score
- hoeveel standaarddeviaties boven of onder ligt
Bivariaat
- observaties van :
- observaties van :
- gepaarde gegevens:
- mogelijke waarden van :
- mogelijke waarden van :
- achtergrondinfo: long data vs wide data
- omzetting
- long -> wide: pivot
- wide -> long: melt
- omzetting
| kleur | seizoen | personage |
|---|---|---|
| rood | 1 | Jason |
| blauw | 1 | Billy |
| geel | 1 | Trini |
| roze | 1 | Kimberly |
| zwart | 1 | Zack |
| groen | 1 | Tommy |
| rood | 2 | Rocky |
| blauw | 2 | Billy |
| geel | 2 | Aisha |
| roze | 2 | Kimberly |
| zwart | 2 | Adam |
| wit | 2 | Tommy |
Tabel 1 voorbeeld long data
| kleur | seizoen 1 | seizoen 2 |
|---|---|---|
| rood | Jason | Rocky |
| blauw | Billy | Billy |
| geel | Trini | Aisha |
| roze | Kimberly | Kimberly |
| zwart | Zack | Adam |
| groen | Tommy | - |
| wit | - | Tommy |
Tabel 2a voorbeeld wide data
| seizoen | rood | blauw | geel | roze | zwart | groen | wit |
|---|---|---|---|---|---|---|---|
| 1 | Jason | Billy | Trini | Kimberly | Zack | Tommy | - |
| 2 | Rocky | Billy | Aisha | Kimberly | Adam | - | Tommy |
Tabel 2b voorbeeld wide data, alternatief
Frequentiefuncties
-
- voorstelling: bivariate frequentietabel = contingentietabel
-
marginale frequentiefuncties
-
- voorstelling: bivariate proportietabel
-
marginale proportiefuncties
-
(rij-)conditionele proporties
- assumptie: X in rijen, Y in kolommen
-
(kolom-)conditionele proporties
- assumptie: X in rijen, Y in kolommen
- absolute vs conditionele kanstabellen herkennen
- absoluut als
1ofnals totaal - conditioneel als
1ofnoveral in somrij of overal in somkolom
- absoluut als
Centrale tendensmaten
- conditioneel gemiddelde
Spreidingsmaten
- conditionele variantie
Associatiematen
- kwalitatieve variabelen met bijectie:
- proportie overeenstemming
- kwantitatieve variabelen
-
covariantie
-
(productmoment)correlatie
-
covariantie
Optimale voorspelling
- terminologie
- input, onafhankelijke variabele, voorspeller, predictor
- output, afhankelijke variabele, voorspelde, criterium
- zowel als kunnen beide rollen aannemen
- met als predictor
- met als predictor
- gekwadrateerde standaardfout van estimatie of foutenvariantie
- verklaarde of voorspelde variantie
-
algemene optimale voorspelling
- minimaliseert
-
optimale lineaire voorspelling
- trade-off: hogere in ruil voor simpelere vergelijking
-
- regression to the mean:
- regressievergelijking
-
regressieconstante
- loopt door punt
- regressiegewicht
-
determinatiecoefficient
-
- verdeelsleutel tussen verklaarde en onverklaarde variantie
- zegt enkel iets over mogelijk lineair verband tussen en
- verband kan ook kwadratisch, logaritmisch, ... of onbestaand zijn
-
- correlation causation
- spurious correlation: geen inhoudelijke betekenis
- causaal verband
- direct: of
- indirect: of
- derde (direct of indirect): en
- logaritmisch verband
- startwaarde
- groeifactor
Somvariabelen
- centrale tendensmaten
- spreidingmaten
- associatiematen
Multivariaat
- conditioneel werken
- kies vaste waarden voor alle variabelen behalve de twee waar je mee werkt
- kwantitatief: optimale lineaire voorspelling
- meervoudige regressie:
- gekwadrateerde meervoudige correlatiecoefficient
- twee binaire kwalitatieve predictorvariabelen
- dummyvariabelen met voor kwalitatieve variabelen
- tabel met
- rij/kolom gemiddelden
- geen hoofdeffect (HE) van
- algemeen: geen hoofdeffect
- zonder interactie
- evenwijdige lijnstukken in grafiek
- bij meer dan 2 waarden: stelling geldig in elke deeltabel
- met interactie
-
ordinaal: lijnstukken snijden/raken op geen enkele grafiek
- orde blijft behouden
-
disordinaal: lijnstukken snijden/raken op min 1 grafiek
- orde wisselt om
- 8 mogelijke combinaties van HE , HE , interactie
Inductieve statistiek
- heel gelijkaardig aan deel beschrijvende statistiek
- belangrijkste verschillen
- hier geen notie van frequentie en afgeleide formules
- formules vaak verschillend voor discreet en continu
- geen optimale voorspelling
- enkel uni- en bivariaat, niet algemeen multivariaat
- belangrijkste verschillen
-
populatie
- (ongeordende) verzameling
-
steekproef
- geordende verzameling
- soms ongeordend als expliciet vermeld
- trekking uit populatie
- met/zonder teruglegging
- geordende verzameling
- steekproeftrekking op zuiver toevallige wijze (ZTW)
- met teruglegging
- elke steekproef van grootte heeft evenveel kans om getrokken te worden
- voldoende maar geen noodzakelijke voorwaarde voor statistische inferentie
- simulatie via
randint(1, n)op rekenmachine-
toevalszaadje of random seed: interne startwaarde
- expliciet kiezen maakt de simulatie deterministisch
-
toevalszaadje of random seed: interne startwaarde
-
representatieve steekproef
- lijkt op populatie m.b.t. 1 of meerdere aspecten
- niet gegarandeerd door trekking op ZTW (en ook niet omgekeerd)
-
gestratificeerde steekproeftrekking
- verdeel populatie in homogene strata
- trek substeekproef per strata
- voeg substeekproeven samen
- garandeert representativiteit
- niet op ZTW
-
selecte steekproeven
- trek enkel uit specifieke deelpopulatie (bv. WEIRD)
Univariaat
Verdelingsfuncties
Discrete toevalsvariabele
- waardengebied van :
-
kansmassafunctie
- notatie:
-
cumulatieve verdelingsfunctie
- notatie:
-
-de populatiekwantiel
- berekening: cf. beschrijvende statistiek
Continue toevalsvariabele
-
dichtheidsfunctie
- notatie: niet
-
cumulatieve verdelingsfunctie
- notatie:
-
- -de populatiekwantiel (enkel indien continu)
Gemeenschappelijk
- percentielen
- decielen
- kwartielen
Centrale tendensmaten
- populatiemodus / populatiemodi
- populatiemediaan
-
populatiegemiddelde
- verwachte waarde of expected value
- Steiner:
Spreidingsmaten
-
bereik
- min en max bestaan hier niet altijd
- interkwartielbereik
- populatievariantie
- populatiestandaarddeviatie
-
Tchebychev ()
- ongeacht verdeling van
Transformaties
- algemeen
- lineaire transformaties
Bivariaat
Verdelingsfuncties
Discrete toevalsvariabelen
- mogelijke waarden van :
- mogelijke waarden van :
- gepaarde gegevens:
-
bivariate kansmassafunctie
- notatie:
-
bivariate cumulatieve verdelingsfunctie
- notatie:
-
marginale kansmassafuncties
-
(rij-)conditionele kansmassafunctie
-
- notatie:
-
- (kolom-)conditionele kansmassafunctie
- twee statistisch onafhankelijke variabelen
- voorwaarden: en
- cf. statistisch onafhankelijke gebeurtenissen
Continue toevalsvariabelen
-
bivariate dichtheidsfunctie
- notatie: niet
-
bivariate cumulatieve verdelingsfunctie
- notatie:
-
-
marginale dichtheidsfuncties
-
(rij-)conditionele dichtheidsfunctie
-
- notatie:
-
- (kolom-)conditionele dichtheidsfunctie
- twee statistisch onafhankelijke variabelen
- voorwaarden: en
- cf. statistisch onafhankelijke gebeurtenissen
Centrale tendensmaten
-
conditionele populatiegemiddelde
Spreidingsmaten
-
conditionele populatievariantie
Associatiematen
- kwantitatieve variabelen
-
populatiecovariantie
-
populatiecorrelatie
-
statistisch onafhankelijk
- niet andersom
-
populatiecovariantie
Somvariabelen
- centrale tendensmaten
- spreidingmaten
- associatiematen
Statistische modellering
| aantal events | wachttijd tot eerste event | |
|---|---|---|
| discreet | Bin | Geo |
| ~continu | Poisson | Expon |
Discreet
- Bernoulli
- Binomiaal
- proportie successen
- Geometrisch
(Quasi-)Continu
- Poisson
- voorwaarden
- proportionaliteit: kans op gebeurtenis ~ grootte van stuk medium
- constante kans als alle stukken even groot
-
stukken:
- is geen macht maar een specifieke notatiewijze
- gebeurtenis onafhankelijk van gebeurtenissen in ander stuk medium
- proportionaliteit: kans op gebeurtenis ~ grootte van stuk medium
- voorwaarden
- Uniform
-
-
-
- symmetrisch
- Normaal
-
- klokvormig / Gausscurve
- symmetrisch
- standaardnormaalmodel:
-
- Bivariaat Normaal
-
onafhankelijk
-
- fout in formule?
-
onafhankelijk
- Exponentieel
Relatie steekproef - populatie
-
statistiek : regel die een steekproef van grootte samenvat in 1 getal
- bv.
- steekproevenverdeling van statistiek over verschillende steekproeven: of
-
independent and identically distributed (i.i.d.)
-
onafhankelijk
-
identiek verdeeld
- gecombineerd
-
onafhankelijk
-
schatter : statistiek die populatieparameter schat
- bv. schatter voor i.i.d.
- kwaliteit van schatter

- criterium 1 o.b.v. centrale tendensmaat
- vertekening of bias:
- zuivere schatter: , dus geen bias
- asymptotisch zuivere schatter:
- zuiver asymptotisch zuiver
- criterium 2 o.b.v. spreidingsmaat
- standaardfout
- gekwadrateerde standaardfout
- kleiner = minder variabel = nauwkeuriger = betrouwbaarder
- beide criteria samen
- algemeen
-
mean squared eror
- cf.
- consistent:
- consistent asymptotisch zuiver
-
mean squared eror
- indien zuiver
- consistent:
- is consistent want
- algemeen
- (zuiver)
- (asymptotisch zuiver)
- (zuiver)
- (zuiver)
- (asymptotisch zuiver)
Samenvattende tabellen
| Maat | Symbool | Formules |
|
||
|---|---|---|---|---|---|
| > CENTRALE TENDENSMATEN | |||||
| steekproefgemiddelde |
|
||||
| populatiegemiddelde |
|
|
|||
| conditioneel steekproefgemiddelde |
|
- | - | - | |
| conditioneel populatiegemiddelde |
|
|
- | - | - |
| steekproefmediaan | - | - | - | ||
| populatiemediaan | - | - | - | ||
| steekproefmodus | - | - | - | - | - |
| populatiemodus | - | - | - | - | - |
| > SPREIDINGSMATEN | |||||
| steekproefbereik | - | - | - | - | |
| populatiebereik | - | - | - | - | |
| steekproef interkwartielbereik |
- | - | - | ||
| populatie interkwartielbereik |
- | - | - | ||
| steekproefvariantie |
|
||||
| steekproefvariantie | |||||
| populatievariantie |
|
||||
| conditionele steekproefvariantie |
|
- | - | - | |
| conditionele populatievariantie |
|
- | - | - | |
| steekproef standaarddeviatie |
|||||
| steekproef standaarddeviatie |
|||||
| populatie standaarddeviatie |
|||||
| > ASSOCIATIEMATEN | |||||
| steekproefcovariantie |
|
||||
| steekproefcovariantie | |||||
| populatiecovariantie |
|
||||
| steekproefcorrelatie |
|
||||
| populatiecorrelatie |
|