Excel CORREL-functie - Bereken statistische correlatie

Voorbeeldwerkboek downloaden

Download het voorbeeldwerkboek

Deze zelfstudie laat zien hoe u de Excel CORREL-functie in Excel om de correlatie te berekenen.

CORREL Functie Overzicht

De functie CORREL Berekent de correlatie van twee reeksen getallen.

Om de CORREL Excel-werkbladfunctie te gebruiken, selecteert u een cel en typt u:

(Let op hoe de formule-invoer verschijnt)

CORREL-functie Syntaxis en invoer:

1 =CORREL(matrix1,matrix2)

array1 - Arrays van getallen.

Wat is de CORREL-functie?

De Excel CORREL-functie retourneert de correlatiecoëfficiënt (Pearson's R) van twee gegevensbereiken.

Wat is de correlatiecoëfficiënt?

De correlatiecoëfficiënt, meestal aangeduid als Pearson's R (vernoemd naar Karl Pearson, de persoon die het heeft ontwikkeld), is een statistiek die aangeeft hoe sterk twee variabelen gerelateerd zijn.

Pearson's R is een getal tussen -1 en 1, wat tot drie mogelijke interpretaties kan leiden: een positieve correlatie, een negatieve correlatie en geen correlatie.

Positieve correlatie

Een positieve correlatie (R > 0) betekent dat wanneer de twee variabelen samenvallen - wanneer u een hoge score op de ene variabele waarneemt, u de neiging heeft om ook een hoge score op de andere waar te nemen. Evenzo, als de ene variabele laag is, is de andere meestal ook laag.

Lengte en gewicht hebben bijvoorbeeld een positieve correlatie. Zie de onderstaande grafiek, waarin de lengte en het gewicht van een kleine steekproef van honkbalspelers worden weergegeven:

De R van deze kleine steekproef is 0,73 - een zeer sterke positieve correlatie. Dit is logisch logisch - langere mensen hebben de neiging om gemiddeld zwaarder te zijn, omdat die extra hoogte bestaat uit botten en spieren en ander weefsel die allemaal iets wegen.

Maar de correlatie is niet perfect (in een perfecte correlatie met een R van 1, zouden alle scores op de trendlijn vallen). Sommige kortere mensen kunnen zwaarder zijn - misschien dragen ze wat extra vet of trainen ze in de sportschool. Evenzo kunnen sommige lange mensen erg mager zijn en zelfs minder wegen dan veel kortere mensen.

De correlatie hier is waarschijnlijk zo hoog omdat we te maken hebben met atleten, dat deze lager zou zijn in de totale populatie. Denk eraan om dit in gedachten te houden bij het gebruik van CORREL - de R je krijgt is niet definitief - je moet nadenken over wat je gegevens zijn en hoe je ze hebt gekregen bij het maken van je interpretaties.

Negatieve correlatie

Een negatieve correlatie (R < 0) betekent dat wanneer u een hoge score op de ene variabele waarneemt, u de neiging heeft om een ​​lage score op de andere variabele waar te nemen, en vice versa.

Zo zijn de testscores van studenten en het aantal afwezigheden op school negatief gecorreleerd. Dat wil zeggen, hoe meer dagen ze missen, hoe lager hun scores meestal zijn. Hoe minder dagen ze missen, hoe hoger de scores zijn:

Nogmaals, de correlatie is niet perfect (zoals ze dat bijna nooit zijn). We hebben hier een student die 5 dagen miste, maar toch 85% wist te scoren. We hebben er ook een die 52% scoorde, ondanks dat hij maar twee dagen miste.

We hebben nog steeds een duidelijke negatieve trend. Maar er is nog steeds veel variatie in testresultaten die niet alleen door afwezigheid kunnen worden verklaard. Dit kan te wijten zijn aan andere variabelen, zoals aanleg, motivatie, gezondheid en vele andere mogelijke factoren.

Dus wanneer u CORREL gebruikt, houd er dan rekening mee dat er een grotere afbeelding is die uw gegevens mogelijk niet volledig verklaren.

Geen correlatie

Geen correlatie (R = 0 of dicht bij 0) betekent dat u de score van de ene variabele niet kunt voorspellen op basis van een andere. Als u de gegevens plot, ziet u geen waarneembare trend en is de trendlijn vlak of bijna vlak.

Hier zijn enkele gegevens over de lengte van de ringvinger en het IQ:

Zoals u kunt zien, is er geen verband tussen deze twee variabelen in dit voorbeeld, dus we kunnen aannemen dat ze geen verband houden.

In de praktijk is het onwaarschijnlijk dat u een R van exact 0. Onthoud dat er bij het verzamelen van gegevens vaak enige variatie is als gevolg van fouten, bijvoorbeeld in meting of rapportage. Dus gewoon omdat je R niet precies 0 is, betekent niet dat je iets hebt gevonden.

Correlatie is geen oorzakelijk verband

Het is cruciaal om in gedachten te houden dat CORREL u niet kan vertellen welke variabele de andere beïnvloedt - of zelfs als er een causaal verband tussen variabelen is. Zo is er een correlatie gevonden tussen de volgende variabelen:

  • De hoeveelheid verkocht ijs en de hoeveelheid gewelddadige misdaad
  • Hoe gelukkig je bent en hoe succesvol je bent in je carrière
  • Het aantal mensen dat is verdronken in een zwembad en het aantal films waarin Nicolas Cage per jaar verscheen

Het eerste voorbeeld is de derde variabele probleem. Natuurlijk maakt ijs mensen niet gewelddadig, en gewelddadigheid veroorzaakt ook geen verlangen naar bevroren melk en suiker. De derde variabele is het weer. Bij warm weer gaan mensen gewoon meer naar buiten - er is meer contact tussen mensen en dus meer kans op het ontstaan ​​van een conflict. Bij warm weer kopen mensen ook meer ijs. Dus ijsverkoop en geweldscriminaliteit correleren alleen omdat ze beide gekoppeld zijn aan een derde variabele.

De tweede zou een voorbeeld kunnen zijn van dubbele causaliteit. Succesvol zijn op het werk kan goed zijn voor je geluk - je verdient meer geld en hebt over het algemeen meer controle over welk werk je doet en met wie je het doet. Maar geluk kan ook gunstig zijn voor succes, misschien zijn gelukkigere mensen gemakkelijker in de omgang en ontwikkelen ze sterkere werkrelaties, of misschien zijn ze mentaal beter bestand tegen tegenslagen. In dit geval beïnvloeden beide variabelen elkaar.

De derde is gewoon een valse correlatie. Alleen omdat twee variabelen in uw gegevens correleren, betekent niet dat ze in het echte leven hoe dan ook op elkaar inwerken.

Het komt erop neer dat een correlatie je niet kan vertellen of twee variabelen causaal met elkaar zijn verbonden.

Hoe gebruikt u CORREL

Gebruik de Excel CORREL-functie als volgt:

1 =CORREL(B3:B15,C3:C15)

Met CORREL definieert u twee argumenten - de twee gegevensbereiken die u wilt correleren.

Hier zijn een paar belangrijke punten om in gedachten te houden met CORREL:

  • Tekst, Booleaans (TRUE/FALSE) en lege cellen worden genegeerd.
  • Beide gegevensbereiken moeten een gelijk aantal gegevenspunten hebben, anders krijgt u een #N/A-fout
  • Als een van de gegevensbereiken leeg is, of als er helemaal geen variatie in de gegevens is (d.w.z. als alle gegevenspunten hetzelfde nummer hebben), krijgt u een #DIV/0! Fout

CORREL-functie in Google Spreadsheets

De CORREL-functie werkt in Google Spreadsheets precies hetzelfde als in Excel:

extra notities

CORREL-voorbeelden in VBA

U kunt ook de CORREL-functie in VBA gebruiken. Type:
toepassing.werkbladfunctie.correl(array1,array2)
Voor de functieargumenten (array1, enz.), kunt u ze ofwel rechtstreeks in de functie invoeren, of variabelen definiëren om in plaats daarvan te gebruiken.

Keer terug naar de lijst met alle functies in Excel

wave wave wave wave wave