Nationaløkonomisk Tidsskrift, Bind 3. række, 11 (1903)

Korrelation.*)

Af

Edv. Ph. Mackeprang

Statistikeren opstiller sine Tal i Tabeller af forskelligForm, i Tabeller med enkelt, dels i Tabeller med dobbelt Indgang. Et Eksempel paa en Tabel med dobbelt Indgang findes i Befolkningsstatistiken, naar Brudgommens og Brudens Aldre stilles i Forhold til hinanden, jfr. omstaaende Tabel I, medens f. Eks. en Tabel med enkelt Indgang kun angiver Brudgommenes Antal i forskellige Aldersklasser, jfr. Tabel 11. Man kan sammenligne de to Tabelformer henholdsvis med en grafisk Fremstilling i Rummet og i Planen; i sidstnævntekan kun afsættes ud ad 2 Akser, man kan kun fremstille x og jy's indbyrdes Afhængighed, i førstnævntekan



*) Den væsentligste Litteratur angaaende dette Emne: Bowley: Elements of Statistics, London 1901, p. 316328. Davenport: Statistical methods with special reference to biological variation, New York 1899. Duncker: Die Methode der Variationsstatistik, 1899. Norton: Statistical studies in the New York money-market, New York 1902. Pearson: Mathematical to the theory of evolution i Philos. Transact. Roy. Soc. London, 1894, 1895 og 1896, samt talrige andre Afhandlinger i samme. Yule: On the theory of correlation Journal of the Roy. Stat. Society, 1897.

Side 483

DIVL3022

Tabel I.*)


DIVL3025

Tabel 11. *).

nævntekander afsættes ud ad 3 Akser, her angives x> y°g z's indbyrdes Afhængighed. I Tabel II angiver x saaledes Brudgommenes Aldre og y Brudgommenes Antal, i Tabel I angives desuden Brudenes Aldre ved s.



*) Statistisk Tabelværk, 4de Række, Litra A, Nr. 9.

Side 484

Vi vil i det følgende særlig rette vor Opmærksomhed Tabellen med dobbelt Indgang. Tabel I angiver Mandens og Kvindens Alder ved Ægteskabets Stiftelse; paa Grundlag af denne har Statens Statistiske Bureau*) udarbejdet følgende to Tabeller:


DIVL3028

Tabel 111.


DIVL3031

Tabel IV.



*) 1. c

Side 485

I Tabel 111 betragtes Mændenes Aldre som supponerede og Kvindernes Aldre som underordnede i Tabel IV omvendt. De to Tabeller ere saaledes væsentligt forskellige; den første udviser, hvilken Alder den Kvinde i Gennemsnit har, som en Mand af en given Alder gifter sig med, den anden udviser, hvilken Alder den Mand i Gennemsnit har, som en Kvinde af en given Alder gifter sig med.

Vor Undersøgelse gaar nu først ud paa at finde en Ligning for hvert af de to nævnte Forhold. Mandens betegnes i Tabel 111 og IV henholdsvis ved x\ °g XX2 ' Kvindens ved yx og y2y2 og Ægteskabernes Antal ved hx og h2. I den første Tabel spørger man om, hvilken Værdi y har, naar x kendes, i den anden maa Spørgsmaalet være, hvilken Værdi x har, naar y kendes. Med andre Ord, vi maa hos den første Ligning Formen y = f (x), hos den anden Formen x=f{y).

Vi antager nu, at den første Ligning har Formen


DIVL2832

hvor a's Værdi findes ved Hjælp af de mindste Kva-
OC /V 11
draters Metode som "" -N! '-^-' —--,'og den anden Ligning
Formen x.2 = b.y%,
ty At Ji
hvor b's Værdi er lig - -2 '-\,*--7—7—'2-.*)
Samtidig ved man, at Middeltallene


DIVL2836


*) Indsætter man Tallene fra Tabel 111 og IV faas: 2h± x^ = 73489231 >/4, Sh1xlyl = 2k2x2y2 = 638656921/, og 2h2y^ — 58332983 samt a = 0.8691 og b = 1.0930.

Side 486

Da Tallene ere beregnede paa Grundlag af en
Tabel med dobbelt Indgang, fremkommer der en Række
Ligninger mellem /rerne, og yerne, nemlig


DIVL2840

DIVL2842

DIVL2844

derimod er


DIVL2848

Ovenstaaende Tabel I med dobbelt Indgang kan
ogsaa betragtes som en Tabel med enkelt Indgang",
nemlig saaledes:


DIVL3034

I denne Tabel kan vi dels lade Brudgommens
Alder, dels Brudens Alder være den supponerede Variable.
andre Ord, vi kan danne to Ligninger-


DIVL2854

hvor æ's og tis Værdi ligesom tidligere er henholdsvis


DIVL2858

Disse Værdier af a og b ere identiske med
de tidligere fundne, idet


DIVL2862
Side 487

Resultatet af denne Undersøgelse bliver altsaa, at selv om man kun har en Tabel med enkelt Indgang, er det dog muligt at danne de to Ligninger ved henholdsvis gaa ud fra, at den ene eller den anden af de iagttagne Værdier er den supponerede; dette spiller en væsentlig Rolle, naar Tabellen med enkelt Indgang kun har faa lagttagelser af samme Art, f. Eks.:


DIVL3036

Af Hensigtsmæssigheds Grunde omskrives nu de
forskellige Summationer paa følgende Maade:


DIVL2868

hvoraf igen faas


DIVL2872

Hvad særlig Tabellen med enkelt Indgang angaar,
saa faas


DIVL2876
Side 488

hvoraf igen


DIVL2880

I sidste Tilfælde kan man udtrykke a og b ved
det samme r, noget der ikke er Tilfældet i Tabellen
med dobbelt Indgang, saalænge s:> y 1y1 ", Vi ved nem!'i
Qi
lig", at 2xlyi //, =— x., y., //.,. altsaa ux . //2 .rx.n
o, .o9 . r.) .n.ogr,-— r., . ; d. v. s. r, - r», naar
" f.ix jit.,
_iV2 ___ j Men den sidstnævnte Ligning behøver
ikke at eksistere, da Qt og 2 dannes af beregnede
Gennemsnitsværdier og ikke som q2q2 °g f-h a^ lagttagelsesværdier.

I Praksis gælder det mere om de enkelte lagttagelsesværdiers fra deres Gennemsnit end om selve lagttagelses værdierne; Spørgsmaalet bliver, hvor stor Afvigelsen fra jy'ernes Gennemsnit vil være ved en given Afvigelse fra fernes Gennemsnit. Har man en Tabel over Forbruget af en eller anden Vare samt denne Vares Pris i en Række af Aar, kan man spørge om, hvor meget Forbruget vil være over det sædvanlige Gennemsnit, naar Prisen er saa og saa mange Procent under sit Gennemsnit.

I saa Tilfælde vil Udviklingen dog være fuldstændig
identisk med den ovenfor givne, kun at x og y saa
betegner Afvigelserne for Gen nemsnittet, hvoraf
igen følger, at f.ir repræsenterer Middelfejlen paa .#'erne,
q2q2 Middelfejlen paajy'erne, idet vi ved, at Middelfejlens
Kvadrat er lig Summen af Afvigelsernes Kvadrater
2x2 ydivideretmed
og fi^ = og q./ = ,

Side 489

hvor 2x2 og 2y2 netop er Summen af Afvigelsernes
Kvadrater.

Vor Opmærksomhed maa særlig knyttes til Størrelsen i de Tilfælde, hvor man betragter Afvigelsen fra Gennemsnittet. Denne Størrelse r er først udledet af den franske Matematiker Brawais 1846, senere i Bo'erne af Galton. Størrelsen er et Maal for Korrelationen to lagttagelsesrækker, et Maal for den gensidige Afhængighed, et Maal for Aarsagssammenhængen.

Værdien af r er ifølge det foregaaende lig


DIVL2892

hvor olol og a 2a2 er Middelfejlene, knyttede henholdsvis til
x og y.

r kan aldrig være større end -j- 1 eller
mindre end — 1. Man ved nemlig, at


DIVL2898

denne Størrelse maa qua Kvadratsum altid være positiv,
altsaa (1 — r2) )o.

Dersom r = Jr 1, maa hver sammenhørende Værdisæt x og y fuldstændig nøjagtigt tilfredsstille Ligningen; med andre Ord Korrelationen er fuldstændig, en Forandring i x netop frembringer den ventede Forandring i y, x er ene Aarsag til Forandring At rer positiv, vil kun sige, at de to lagttagelsesrækker varierer i samme Retning, at r er negativ, at de varierer omvendt.

Side 490

DIVL2904

Dersom

d.v. s.

Produktsummerne af de positive og de negative Afvigelser fuldstændig ophæve hinanden, noget der er Tilfældet, hvis x og y er tilfældig kombinerede, hvad der igen vil sige, at Korrelationen er Nul.

I Almindelighed vil man faa r liggende mellem o og li; i saa Tilfælde er der delvis Korrelation, det vil sige der findes andre Aarsager end x, der paavirker jo nærmere r er ved hi, des bedre maa Korrelationen være og omvendt. *)

Før vi gaar videre, skal vi gennemgaa et Eksempel
taget fra Bowley (1. c).

I nedenstaaende Tabel angiver Talrækken X den
aarlige Ægteskabshyppighed, Talrækken Y Hvedepriserne,
for Aarene 1875 — 94. Det gælder om at
vise, hvor stor Korrelationen er mellem disse to økonomiske
Man danner i det Øjemed Talrækkerne
og y\ den første angiver Afvigelsen mellem
Xog Gennemsnittet ~ = 15.17, den anden Afvigv

elsen mellem Yog Gennemsnittet — = 37.10.

Endelig dannes en ste Kolonne xy simpelthen
ved Multiplikation af Kolonne x og y. Summen af
denne Kolonne Ixy = 627.



*) Til hver af de ovenfor beregnede Størrelser knytter sig en Middelfejl; saaledes har Mx Middelfejlen —p=, a Middelfejlen v« -—, r Middelfejlen og r,— Middelfejlen . l/i-_ \2n \?i <H "2 ' n (Pearson og Fil on i Phil. Trans. 1898.)

Side 491

Endvidere beregnes at =y og o2o2 =y
til henholdsvis 0.651 og 102.

Nu har vi alle de nødvendige Faktorer til Bestemmelsen


DIVL2924

idet Antallet af Aar (n) er lig 20


DIVL3038

Tabel V.

Vi har talt om Korrelation mellem Afvigelserne fra Gennemsnittet; man kunde nu spørge, om Begrebet r, der ogsaa findes ved Bearbejdelse af selve lagttagelserne,ligeledes et Udtryk for Korrelationen mellemdisse.

Side 49 2

lemdisse.Hertil maa dog delvis svares nej. Er
Ligningen mellem Afvigelserne


DIVL2930

bliver Ligningen mellem lagttagelserne (X og Y)


DIVL2934

og


DIVL2938

Udtrykket 2(Y—aX— /v)'2 == V 2V2 (i — rr) maa altid
være positivt, altsaa maa r ligge mellem ! i, men da
2YX aldrig kan blive Nul, saalænge YogX begge
- YX
ere positive Størrelser, kan r= -t-* vv° aldrig
blive Nul.

Med andre Ord naar Resultatet af en Undersøgelse giver r = +_i, kan man hævde fuldstændig Korrelation; for alle andre Værdier af r kan man derimod intet udsige om Korrelationen.

Ved en økonomisk-statistisk Undersøgelse af denne
Art er der endnu en Række Bemærkninger at gøre.

Har man f. Eks. Ægteskabshyppigheden og Importen Individ en Række af Aar og spørger om Korrelationen herimellem, saa er det bedst først at underkaste lagttagelserne en særlig Behandling. Bevægelsen Importen saavel som Bevægelsen i gteskabshyppigheden Aar til Aar skyldes to forskellige Grupper af Aarsager: en Gruppe af Aarsager, der virker i en enkelt bestemt Retning, og en anden Gruppe, der virker snart i en, snart i en anden Retning. Samfundsudviklingen stiger Importen paa Grund af en stadig virkende (ganske vist snart stærkere snart svagere) Række Aarsager, medens Svingningerne fra Aar til Aar skyldes en helt anden Række Aarsager; ligeledes ved Ægteskabshyppigheden.

Side 493

Det gælder her at eliminere den Bevægelse, som Samfundsudviklingen (eller hvad man nu vil kalde det) foraarsager, saa at man kun har at gøre med de særlige fra Aar til Aar, og saa besvare Spørgsmaalet, disse særlige Aarsager, der paavirker x eller y, udelukkende er y henholdsvis x eller andre.

En saadan Eliminering kan foretages paa mange
forskellige Maader. Norton (1. c.) antager, at Samfundsudviklingen
lagttagelserne vokse efter den
almindelige Renteformel a(i -f- v)K Man maa indvende
mod denne Fremgangsmaade, at dens Forudsætning
konstant v übetinget er ukorrekt; Samfundsudviklingen
er snart svagere, snart stærkere, kun indenfor et begrænset
er Forudsætningen gyldig. Hooker*)
föreslåar at erstatte hver lagttagelse med Gennemsnittet
af denne, de to foregaaende og de to efterfølgende;
denne Fremgangsmaade er ganske vist ret vilkaarlig,
men dog langt at foretrække for Nortons. Man kan
_3 x y
efter en saadan Bearbejdelse benytte r = —-— .
n . ax , a2a2
idet x og y betyder Afvigelserne mellem de iagttagne
og de beregnede Værdier, og 2'xy = O omtrent
svarer til r = o.

Ret naturlig synes endnu en lille Ændring; i Stedet for at regne med Afvigelsen mellem den iagttagne og den beregnede Værdi, saa at regne med denne Afvigelse i Forhold til den iagttagne Værdi.

Hele vor Undersøgelse angaaende Korrelation
hviler paa, at den antagne Ligning y = ax er nogenlunderigtig;
nemlig Ligningen mellem y og x



*) Correlation of the marriage-rate with trade i Journal of the Roy. Stat. Society 1901.

Side 494

er en anden, kan r, naar man benytter Ligningen
y =- ax, aldrig blive + i, om end den som oftest ikke
vil afvige meget derfra.*)

Har Kurven saaledes den ret almindelige Form
y= —j, kan man vanskelig uden grov Unøjagtighed
PC
tvinge den til at være y= ax. Bedst er det i saa Tilfælde—
at have benyttet Hookers Metode og



*) Ligningen mellem Afvigelserne kan skrives under Formen 2« —1 y=ax -J- bxz -j- cxh -)-.... -j- ¦z.r -]- .. .. hvor a, b, c ?,. maa have samme Fortegn, da man samtidig skal have opfyldt Betingelsen .s* = o og 2y = o. Korrelationen r bliver saaledes, naar Ligningen hor Formen y = ax -\- bx* (istedetfor Formen y = ax) lig Zxy v («*2 -f- £^4) V^ • V-Sy9 ~~ V^2 • }/£ (ax + *jc3)2 _ 1/a2 (^2)2 -f *2 (^*)2-f 2a* va:24 " a 2a2 (i-^2)2 -(- *2 v^2 6 -(- 2aÄ 2 i^4 Her er (2^4)2 < 2x* 2xe, men Forholdet mellem de to Størrelser nær ved i. Afvigelserne fordeler sig i store Træk efter Eksponentialformlen, groft kan udtrykkes ved følgende Tal: 25°/0 af Tilf. har i Gnst. en Afvig, af 0.2 Gange Middelfejlen 2S°/o - 0.5 25°/o I .O 25% -¦ - i.B - Med andre Ord vi kan tilnærmelsesvis sætte Værdierne af x lig 2, 5, io og 18; i saa Fald faas (l'x^f = c. 13125 Millioner 22xe . £x* == c. 15750 Millioner Forholdet mellem disse to Tal er 0.83. Men er — = 0.83 maa 7 , - > 0.83 og fuldstændig Korrelation maa mindst have Værdien "yo-83 = 0.91. Paa lignende Maade kan man gaa frem overfor en Ligning af Formen y = ax + bx3 -j- ex**, hvor man vil finde, at der til fuldstændig Korrelation kræves mindst 0.85, af Formen v = ax -f ix^ -|- cx:> -\- dx~ o. s. v.

Side 495

fundet Afvigelserne x og y — at danne log (ioo -\- x)
°Z l°g (IOO~r.)')(IOO~r.)') °S derefter Korrelationen mellem


DIVL2958

DIVL2960

og

Ligningen


DIVL2966

Af denne Ligning kan igen dannes Ligningen


DIVL2970

Hos Økonomerne er Kriteriet r kun benyttet meget lidet. Man har fastslaaet Korrelation mellem følgende økonomiske Fænomener, naturligvis kun gyldig for et bestemt Sted og til en given Tid.


DIVL3041
Side 496

Hooker har ovenfor beregnet Korrelationen mellem Ægteskabshyppigheden og Eksporten i det tilsvarende Aar, men har desuden fundet Korrelation Ægteskabshyppigheden og Eksporten et halvt Aar, et helt Aar o. s. v. tidligere eller senere.

Hooker faar følgende Værdier af r for Eksporten
— i Vi, i, — 7-2' O, -[- V.j, j- i Aar efter gteskabsaaret:
0.58, -f- 0.78, -f 0.86, -[-0.80, f 0.61, +0.33.

Sammenlignes Hookers og Bowleys r for de samme Fænomener, saa giver Hookers langt det bedste Resultat Grunden hertil maa søges i den ovenfor nævnte Bearbejdelse, som Hooker underkaster Tallene.

Norton har beregnet Korrelationen mellem Deposita Rente paa Grundlag af 780 Erfaringer; han deler disse Erfaringer i to Dele, saaledes at den ene Gruppe indeholder de Erfaringer, hvor Renten er over 4 °/0, den anden de Erfaringer, hvor Renten er under 4 %} i disse Tilfælde faar Norton henholdsvis 0.59 og 0.60 som r's Værdi. Korrelationen bliver saaledes bedre efter end før Delingen; Grunden hertil ligger simpelthen i, at Kurven y = ax bedre tilfredsstiller enkelte Dele af Kurven end hele Kurven.

Gal t on*) var som før nævnt efter Brawais den første, der benyttede Begrebet Korrelation; hans Udvikling dog ikke fuldstændig lig med den ovenfor givne, idet r sættes lig


DIVL2984

hvor vx og vy, idet den supponerede Variable kaldes x



*) Natural inheritance, London 1889.

Side 497

og den underordnede Variable y, henholdsvis er lig
-xh — y/i
x— "Vt~ og y—~- , samt sx og e,y henholdsvis lig


DIVL2988

h er Hyppighedskoefficienten og n Antallet af Variable.

Da nu saavel x som y kan betragtes som den supponerede vi har jo ligesom ovenfor at gøre med en Tabel med dobbelt Indgang — faas to Værdier for r, der ligesom tidligere ved Korrelationen mellem de absolute ikke er fuldstændig identiske.

Foruden Galton har Fechner*) angivet en — ganske vist ret overfladisk — Metode til Beregning af Abhängigkeitsverhältnisse«. Metoden bestaar simpelthen en Opgørelse af, i hvormange Tilfælde de to Fænomener bevæger sig i samme Retning, begge tiltager (4~)> °S * hvormange Tilfælde, det ene Fænomen tiltager, andet aftager (—-). Er Antallet af Plusser lig a og Antallet af Minusser lig b, kan man, naar enten a eller b er Nul, hævde, at der er fuldstændig Korrelation, — paastaar Fechner — ingen Korrelation, naar 2a = b. Delvis Korrelation maa ligge herimellem, maalt ved


DIVL2996

Fechner anfører foruden denne en anden Formel, der ikke
har den væsentlige Fejl at give et forskelligt Resultat,
eftersom man betegner Plussernes Antal ved a eller b.

Korrelation er efter denne Formel Nul, naar a = b,
og delvis naar


DIVL3002


*) Kollektivmasslehre, Leipzig 1897.