Somvariabelen
De formules voor somvariabelen zijn bij de meest intimiderende uit de hele cursus. Ze zijn zo lang dat ze moeilijk van buiten te leren zijn. Toch zal je ze gegarandeerd nodig hebben op het examen. Je moet ze niet alleen foutloos kunnen toepassen, maar dat moet ook nog eens tegen een stevig tempo gebeuren. In deze blogpost proberen we ze beter te begrijpen. We bespreken enkel de relevante formules uit beschrijvende statistiek, maar dezelfde redenering is ook van toepassing op hun tegenhangers uit de inductieve statistiek.
Somvariabelen voor gemiddelde
Voor we overgaan naar het meest uitdagende deel over (co)varianties, bekijken we kort eerst somvariabelen voor gemiddeldes. In de cursus vinden we een korte en een iets minder korte formule:
Onderliggend zijn deze formules gestoeld op volgende eigenschap van het sommatieteken:
Hopelijk is het voor iedereen duidelijk dat de eerste formule gewoon een speciaal geval is van de tweede. Als je de tweede goed begrijpt, moet je de eerste dus niet meer apart van buiten leren. Om de vertaalslag te maken, stel je . Dan krijg je:
- ()
- ()
- ()
- ()
Fun fact: we mogen deze formule niet toepassen op het product van twee toevalsvariabelen. Dankzij de chiastische eigenschap van de covariantie weten we echter wel dat .
Er zijn tussen deze twee extreme vormen nog tussenliggende versies te bedenken, bijvoorbeeld . Als er maar één toevalsvariabele in het spel is, krijgen we , wat we al eerder in de cursus gezien hadden bij univariate statistiek. Stiekem is het allemaal één pot nat.
Somvariabelen voor (co)varianties
En de pot nat zal snel nog groter worden. Voor (co)varianties geldt opnieuw dat de formules voor lineaire transformaties en bivariate sommen speciale gevallen zijn van volgende complexe formules:
De eerste heeft betrekking op varianties, en de tweede op covarianties. In beide gevallen valt weg want een verschuiving heeft uiteraard geen invloed op de spreiding van de gegevens. Wie een beetje heeft opgelet, weet ook dat elke variantie stiekem ook een covariantie is: . We kunnen dus ook schrijven als . Daar kunnen we dan weer de tweede formule op toepassen. Zo bekomen we een kortere versie van de eerste formule:
De luie (of efficiënte, het is maar hoe je het bekijkt) studenten onder ons kunnen de eerste formule dus links laten liggen, en gewoon altijd de tweede gebruiken.
Aangezien we geen twee verschillende uitkomsten kunnen hebben voor , moet . Hoe kunnen we dat beter begrijpen? Stel bij wijze van voorbeeld dat en beide van tot lopen, dan kunnen we onze berekening in een tabel gieten waarbij elke cel één term uit voorstelt:
Om te beginnen focussen we op de diagonaal:
In dit geval is en krijgen we termen van de vorm . Dat verklaart hoe we bij komen in de lange formule.
Onze volgende vaststelling is dat de tabel symmetrisch opgebouwd is: rij 1 kolom 2 bevat bijvoorbeeld dezelfde waarde als rij 2 kolom 1: want . We hoeven de drie termen onder de diagonaal (waar ) dus niet te berekenen, we kunnen gewoon de termen boven de diagonaal (waar $k