Nationaløkonomisk Tidsskrift, Bind 3. række, 11 (1903)Korrelation.*)Af Edv. Ph. Mackeprang Statistikeren opstiller sine Tal i Tabeller af forskelligForm, i Tabeller med enkelt, dels i Tabeller med dobbelt Indgang. Et Eksempel paa en Tabel med dobbelt Indgang findes i Befolkningsstatistiken, naar Brudgommens og Brudens Aldre stilles i Forhold til hinanden, jfr. omstaaende Tabel I, medens f. Eks. en Tabel med enkelt Indgang kun angiver Brudgommenes Antal i forskellige Aldersklasser, jfr. Tabel 11. Man kan sammenligne de to Tabelformer henholdsvis med en grafisk Fremstilling i Rummet og i Planen; i sidstnævntekan kun afsættes ud ad 2 Akser, man kan kun fremstille x og jy's indbyrdes Afhængighed, i førstnævntekan *) Den væsentligste Litteratur angaaende dette Emne: Bowley: Elements of Statistics, London 1901, p. 316—328. Davenport: Statistical methods with special reference to biological variation, New York 1899. Duncker: Die Methode der Variationsstatistik, 1899. Norton: Statistical studies in the New York money-market, New York 1902. Pearson: Mathematical to the theory of evolution i Philos. Transact. Roy. Soc. London, 1894, 1895 og 1896, samt talrige andre Afhandlinger i samme. Yule: On the theory of correlation Journal of the Roy. Stat. Society, 1897. Side 483
nævntekander afsættes ud ad 3 Akser, her angives x> y°g z's indbyrdes Afhængighed. I Tabel II angiver x saaledes Brudgommenes Aldre og y Brudgommenes Antal, i Tabel I angives desuden Brudenes Aldre ved s. *) Statistisk Tabelværk, 4de Række, Litra A, Nr. 9. Side 484
Vi vil i det følgende særlig rette vor Opmærksomhed Tabellen med dobbelt Indgang. Tabel I angiver Mandens og Kvindens Alder ved Ægteskabets Stiftelse; paa Grundlag af denne har Statens Statistiske Bureau*) udarbejdet følgende to Tabeller: *) 1. c Side 485
I Tabel 111 betragtes Mændenes Aldre som supponerede og Kvindernes Aldre som underordnede i Tabel IV omvendt. De to Tabeller ere saaledes væsentligt forskellige; den første udviser, hvilken Alder den Kvinde i Gennemsnit har, som en Mand af en given Alder gifter sig med, den anden udviser, hvilken Alder den Mand i Gennemsnit har, som en Kvinde af en given Alder gifter sig med. Vor Undersøgelse gaar nu først ud paa at finde en Ligning for hvert af de to nævnte Forhold. Mandens betegnes i Tabel 111 og IV henholdsvis ved x\ °g XX2 ' Kvindens ved yx og y2y2 og Ægteskabernes Antal ved hx og h2. I den første Tabel spørger man om, hvilken Værdi y har, naar x kendes, i den anden maa Spørgsmaalet være, hvilken Værdi x har, naar y kendes. Med andre Ord, vi maa hos den første Ligning Formen y = f (x), hos den anden Formen x=f{y). Vi antager nu,
at den første Ligning har Formen hvor a's Værdi
findes ved Hjælp af de mindste Kva- *) Indsætter man Tallene fra Tabel 111 og IV faas: 2h± x^ = 73489231 >/4, Sh1xlyl = 2k2x2y2 = 638656921/, og 2h2y^ — 58332983 samt a = 0.8691 og b = 1.0930. Side 486
Da Tallene ere
beregnede paa Grundlag af en derimod er
Ovenstaaende
Tabel I med dobbelt Indgang kan I denne Tabel kan
vi dels lade Brudgommens hvor æ's og tis Værdi
ligesom tidligere er henholdsvis Disse Værdier af
a og b ere identiske med Side 487
Resultatet af denne Undersøgelse bliver altsaa, at selv om man kun har en Tabel med enkelt Indgang, er det dog muligt at danne de to Ligninger ved henholdsvis gaa ud fra, at den ene eller den anden af de iagttagne Værdier er den supponerede; dette spiller en væsentlig Rolle, naar Tabellen med enkelt Indgang kun har faa lagttagelser af samme Art, f. Eks.: Af
Hensigtsmæssigheds Grunde omskrives nu de
hvoraf igen faas
Hvad særlig
Tabellen med enkelt Indgang angaar, Side 488
hvoraf igen
I sidste Tilfælde
kan man udtrykke a og b ved I Praksis gælder det mere om de enkelte lagttagelsesværdiers fra deres Gennemsnit end om selve lagttagelses værdierne; Spørgsmaalet bliver, hvor stor Afvigelsen fra jy'ernes Gennemsnit vil være ved en given Afvigelse fra fernes Gennemsnit. Har man en Tabel over Forbruget af en eller anden Vare samt denne Vares Pris i en Række af Aar, kan man spørge om, hvor meget Forbruget vil være over det sædvanlige Gennemsnit, naar Prisen er saa og saa mange Procent under sit Gennemsnit. I saa Tilfælde
vil Udviklingen dog være fuldstændig Side 489
hvor 2x2 og 2y2
netop er Summen af Afvigelsernes Vor Opmærksomhed maa særlig knyttes til Størrelsen i de Tilfælde, hvor man betragter Afvigelsen fra Gennemsnittet. Denne Størrelse r er først udledet af den franske Matematiker Brawais 1846, senere i Bo'erne af Galton. Størrelsen er et Maal for Korrelationen to lagttagelsesrækker, et Maal for den gensidige Afhængighed, et Maal for Aarsagssammenhængen. Værdien af r er
ifølge det foregaaende lig hvor olol og a
2a2 er Middelfejlene, knyttede henholdsvis til r kan aldrig
være større end -j- 1 eller denne Størrelse
maa qua Kvadratsum altid være positiv, Dersom r = Jr 1, maa hver sammenhørende Værdisæt x og y fuldstændig nøjagtigt tilfredsstille Ligningen; med andre Ord Korrelationen er fuldstændig, en Forandring i x netop frembringer den ventede Forandring i y, x er ene Aarsag til Forandring At rer positiv, vil kun sige, at de to lagttagelsesrækker varierer i samme Retning, at r er negativ, at de varierer omvendt. Side 490
Dersom d.v. s. Produktsummerne af de positive og de negative Afvigelser fuldstændig ophæve hinanden, noget der er Tilfældet, hvis x og y er tilfældig kombinerede, hvad der igen vil sige, at Korrelationen er Nul. I Almindelighed vil man faa r liggende mellem o og li; i saa Tilfælde er der delvis Korrelation, det vil sige der findes andre Aarsager end x, der paavirker jo nærmere r er ved hi, des bedre maa Korrelationen være og omvendt. *) Før vi gaar
videre, skal vi gennemgaa et Eksempel I nedenstaaende
Tabel angiver Talrækken X den Endelig dannes en
ste Kolonne xy simpelthen *) Til hver af de ovenfor beregnede Størrelser knytter sig en Middelfejl; saaledes har Mx Middelfejlen —p=, a Middelfejlen v« -—, r Middelfejlen og r,— Middelfejlen . l/i-_ \2n \?i <H "2 ' n (Pearson og Fil on i Phil. Trans. 1898.) Side 491
Endvidere
beregnes at =y og o2o2 =y Nu har vi alle de
nødvendige Faktorer til Bestemmelsen idet Antallet af
Aar (n) er lig 20 Vi har talt om Korrelation mellem Afvigelserne fra Gennemsnittet; man kunde nu spørge, om Begrebet r, der ogsaa findes ved Bearbejdelse af selve lagttagelserne,ligeledes et Udtryk for Korrelationen mellemdisse. Side 49 2
lemdisse.Hertil
maa dog delvis svares nej. Er bliver Ligningen
mellem lagttagelserne (X og Y) og Udtrykket 2(Y—aX—
/v)'2 == V 2V2 (i — rr) maa altid Med andre Ord naar Resultatet af en Undersøgelse giver r = +_i, kan man hævde fuldstændig Korrelation; for alle andre Værdier af r kan man derimod intet udsige om Korrelationen. Ved en
økonomisk-statistisk Undersøgelse af denne Har man f. Eks. Ægteskabshyppigheden og Importen Individ en Række af Aar og spørger om Korrelationen herimellem, saa er det bedst først at underkaste lagttagelserne en særlig Behandling. Bevægelsen Importen saavel som Bevægelsen i gteskabshyppigheden Aar til Aar skyldes to forskellige Grupper af Aarsager: en Gruppe af Aarsager, der virker i en enkelt bestemt Retning, og en anden Gruppe, der virker snart i en, snart i en anden Retning. Samfundsudviklingen stiger Importen paa Grund af en stadig virkende (ganske vist snart stærkere snart svagere) Række Aarsager, medens Svingningerne fra Aar til Aar skyldes en helt anden Række Aarsager; ligeledes ved Ægteskabshyppigheden. Side 493
Det gælder her at eliminere den Bevægelse, som Samfundsudviklingen (eller hvad man nu vil kalde det) foraarsager, saa at man kun har at gøre med de særlige fra Aar til Aar, og saa besvare Spørgsmaalet, disse særlige Aarsager, der paavirker x eller y, udelukkende er y henholdsvis x eller andre. En saadan
Eliminering kan foretages paa mange Ret naturlig synes endnu en lille Ændring; i Stedet for at regne med Afvigelsen mellem den iagttagne og den beregnede Værdi, saa at regne med denne Afvigelse i Forhold til den iagttagne Værdi. Hele vor
Undersøgelse angaaende Korrelation *) Correlation of the marriage-rate with trade i Journal of the Roy. Stat. Society 1901. Side 494
er en anden,
kan r, naar man benytter Ligningen Har Kurven
saaledes den ret almindelige Form *) Ligningen mellem Afvigelserne kan skrives under Formen 2« —1 y=ax -J- bxz -j- cxh -)-.... -j- ¦z.r -]- .. .. hvor a, b, c ?,. maa have samme Fortegn, da man samtidig skal have opfyldt Betingelsen .s* = o og 2y = o. Korrelationen r bliver saaledes, naar Ligningen hor Formen y = ax -\- bx* (istedetfor Formen y = ax) lig Zxy v («*2 -f- £^4) V^ • V-Sy9 ~~ V^2 • }/£ (ax + *jc3)2 _ 1/a2 (^2)2 -f *2 (^*)2-f 2a* va:2 v«4 " a 2a2 (i-^2)2 -(- *2 v^2 6 -(- 2aÄ 2 i^4 Her er (2^4)2 < 2x* 2xe, men Forholdet mellem de to Størrelser nær ved i. Afvigelserne fordeler sig i store Træk efter Eksponentialformlen, groft kan udtrykkes ved følgende Tal: 25°/0 af Tilf. har i Gnst. en Afvig, af 0.2 Gange Middelfejlen 2S°/o - 0.5 25°/o I .O 25% -¦ - i.B - Med andre Ord vi kan tilnærmelsesvis sætte Værdierne af x lig 2, 5, io og 18; i saa Fald faas (l'x^f = c. 13125 Millioner 22xe . £x* == c. 15750 Millioner Forholdet mellem disse to Tal er 0.83. Men er — = 0.83 maa 7 , - > 0.83 og fuldstændig Korrelation maa mindst have Værdien "yo-83 = 0.91. Paa lignende Maade kan man gaa frem overfor en Ligning af Formen y = ax + bx3 -j- ex**, hvor man vil finde, at der til fuldstændig Korrelation kræves mindst 0.85, af Formen v = ax -f ix^ -|- cx:> -\- dx~ o. s. v. Side 495
fundet
Afvigelserne x og y — at danne log (ioo -\- x) og Ligningen
Af denne Ligning
kan igen dannes Ligningen Hos Økonomerne er Kriteriet r kun benyttet meget lidet. Man har fastslaaet Korrelation mellem følgende økonomiske Fænomener, naturligvis kun gyldig for et bestemt Sted og til en given Tid. Side 496
Hooker har ovenfor beregnet Korrelationen mellem Ægteskabshyppigheden og Eksporten i det tilsvarende Aar, men har desuden fundet Korrelation Ægteskabshyppigheden og Eksporten et halvt Aar, et helt Aar o. s. v. tidligere eller senere. Hooker faar
følgende Værdier af r for Eksporten Sammenlignes Hookers og Bowleys r for de samme Fænomener, saa giver Hookers langt det bedste Resultat Grunden hertil maa søges i den ovenfor nævnte Bearbejdelse, som Hooker underkaster Tallene. Norton har beregnet Korrelationen mellem Deposita Rente paa Grundlag af 780 Erfaringer; han deler disse Erfaringer i to Dele, saaledes at den ene Gruppe indeholder de Erfaringer, hvor Renten er over 4 °/0, den anden de Erfaringer, hvor Renten er under 4 %} i disse Tilfælde faar Norton henholdsvis 0.59 og 0.60 som r's Værdi. Korrelationen bliver saaledes bedre efter end før Delingen; Grunden hertil ligger simpelthen i, at Kurven y = ax bedre tilfredsstiller enkelte Dele af Kurven end hele Kurven. Gal t on*) var som før nævnt efter Brawais den første, der benyttede Begrebet Korrelation; hans Udvikling dog ikke fuldstændig lig med den ovenfor givne, idet r sættes lig hvor vx og vy, idet
den supponerede Variable kaldes x *) Natural inheritance, London 1889. Side 497
og den
underordnede Variable y, henholdsvis er lig h er
Hyppighedskoefficienten og n Antallet af Variable.
Da nu saavel x som y kan betragtes som den supponerede vi har jo ligesom ovenfor at gøre med en Tabel med dobbelt Indgang — faas to Værdier for r, der ligesom tidligere ved Korrelationen mellem de absolute ikke er fuldstændig identiske. Foruden Galton har Fechner*) angivet en — ganske vist ret overfladisk — Metode til Beregning af Abhängigkeitsverhältnisse«. Metoden bestaar simpelthen en Opgørelse af, i hvormange Tilfælde de to Fænomener bevæger sig i samme Retning, begge tiltager (4~)> °S * hvormange Tilfælde, det ene Fænomen tiltager, andet aftager (—-). Er Antallet af Plusser lig a og Antallet af Minusser lig b, kan man, naar enten a eller b er Nul, hævde, at der er fuldstændig Korrelation, — paastaar Fechner — ingen Korrelation, naar 2a = b. Delvis Korrelation maa ligge herimellem, maalt ved Fechner anfører
foruden denne en anden Formel, der ikke Korrelation er
efter denne Formel Nul, naar a = b, *) Kollektivmasslehre, Leipzig 1897. |