Nationaløkonomisk Tidsskrift, Bind 87 (1949)OM ESTIMERINGSPROBLEMER FOR MAKROMODELLER 1)P. NØRREGAARD RASMUSSEN I sin bog: »Finansprocessen i det økonomiske kredsløb« (1948) har Jørgen Gelting i kapitel 3 påbegyndt et arbejde, som man må håbe i fremtiden vil blive fortsat. Der opstilles her en matematisk makromodel for dansk økonomi i form af et simultant ligningssystem. I økonometrisk forskning fra de sidste 10 —15 år har man gang på gang set sådanne modeller opstillet. Arbejdet er ikke mindst blevet intensiveret efter Keynes' »General Theory. .«. I dansk forskning har økonometriske forskningsmetoder imidlertid hidtil kun vunnet ringe indpas. Man må derfor være Jørgen Gelting taknemmelig, fordi han med omtalte arbejde gør det første forsøg på at opstille og estimere parametrene i en model, som eventuelt kan have gyldighed for danske forhold. kan næppe være tvivl om, at arbejdet med sådanne modeller vil blive noget af det centrale i den kommende forskning. Statistisk Departements udsendelse af undersøgelsen over nationalprodukt nationalindkomst i Danmark 1930—462) må i denne forbindelse nævnes, idet man først hermed har fået nogenlunde tilfredsstillende grundlag arbejdet med makroteorien. Kun må det beklages, at tallene ikke går længere tilbage end til 1930. Det vil naturligvis være ønskeligt at få så lange tidsrækker som muligt. Der har i de
senere år i Amerika — og ganske særligt ved Cowles
Commissioni 1) Denne artikel pretenderer ikke at give noget egentlig nyt. Imidlertid synes de her antydede ikke at være blevet diskuteret så meget i Danmark som i andre lande. M. h. t. litteraturen kan bl. a. henvises til: Trygve Haavelmo: »The Statistical Implications of a System of Simultaneous Equations«, Econometrica, Vol. 11, 1943; videre af Trygve Haavelmo: »The Probability in Econometrics,« Econometrica, Vol. 12, Supplement, 1944 og »Methods of Measuring the Marginal Propensity to Consume«, Journal of the American Statistical Association, Vol. 42, 1947; videre kan nævnes Tjalling Koopmans, »Statistical Estimation of Simultaneous Economic Relations«, Journal of the American Statistical Association, Vol. 40, 1945. — Der er i det følgende lagt vægt på at gøre fremstillingen elementær. 2) Statistiske Meddelelser, 4. række, 129. bind, 5. hæfte. Side 60
de metodologiske problemer, som rejser sig, når man forsøger at konfrontereen med virkeligheden. De resultater, som herved er nået, må afgjort siges at være af ganske betydelig interesse. Jeg skal i det følgende forsøge at skitsere visse problemstillinger ved sådanne undersøgelser. En makromodel vil bestå af et vist antal ligninger, som kræves tilfredsstillet I relationerne indgår for det første forskellige makrostørrelser: nationalindkomst, samlet forbrug, samlet import o. s. v. Desuden vil der indgå en række karakteriserende parametre: forbrugstilbøjeligheden, importtilbøjeligheden o. s. v. De relationer, som tilsammen danner det simultane kan inddeles i to afgørende forskellige hovedgrupper. For det første er
der definitionssammenhængene, som f. eks. O) R betegner total indkomst, C forbrug og I investering. Disse relationer er rent bogholderimæssige. Man får dem »gratis«, fordi de er en logisk følge af vore definitioner. Heraf følger imidlertid også, at det er rent tautologiske udtryk, i og for sig ikke udsiger noget som helst »nyt«. I denne gruppe vil også indgå »betingelsesligninger«. For det andet vil
der indgå, hvad man kunne kalde tekniske relationer (i
(2) X betegner her samlet produktion, N betegner samlet beskæftigelse og K betegner størrelse. (2) udtrykker altså, at den samlede produktion en eller anden funktion af anvendt mængde arbejdskraft samt kapitalapparatet — al produktion foregår jo ved at anvende en vis mængde arbejdskraft i forbindelse med en vis mængde kapital (herunder »jord«). Ligesom der kan opstilles en lang række definitionssammenhænge i lighed (1), kan der opstilles en lang række tekniske relationer (strukturrelationer). mange relationer man skal opstille, d. v. s. hvor stor og detailleret man skal gøre sin model, må afgøres ud fra spørgsmålet om, hvortil vil anvende modellen. Forskellen
mellem definitionsrelationerne og de tekniske relationer
svarervist 1) Jfr. f. eks. G. H. von Wright: »Den logiska empirisme«, Stockholm 1943. — En analytisk sætning er en sætning, hvis sandhed eller falskhed følger af de i sætningen indgående ords betydning, en påstand, hvis sandhed eller falskhed ikke er en følge af de i sætningen indgående ord, kaldes syntetisk. Eksempel på en analytisk sætning er: »Økonomi er en socialvidenskab« — denne sætnings sandhed afhænger alene af de i sætningen indgående ord. Eksempel på syntetisk sætning: »I dag skinner solen« — denne sætning er ikke sand alene i kraft af de indgående ord. Side 61
mens man kan
tillægge analytiske sætninger sandhedsværdi a priori, så
er Det følger nu umiddelbart heraf, at hvad ovenfor er kaldt definitionssammenhænge giver anledning til statistiske problemer overhovedet. Derimod det ved de tekniske relationer de statistiske problemer findes. Dette kan siges at være en simpel følge af, at disse sætninger er de eneste, som giver udsagn om et eller andet forhold. Sådan set kan man sige, at det er herom al statistisk teori handler. Ud af de tekniske relationer skiller man nu en særlig gruppe, som man — ifølge det inere eller mindre tilfældige system, som består i opdeling i forskellige — beskæftiger sig med qua økonomer. Det drejer sig f. eks. om relationen (3) Her er P
»prisniveauet« og a'erne karakteriserende parametre.
Iblandt Man kan nu præcisere sin hypotese nærmere ved at sige, at forbruget er den og den bestemte funktion (f. eks. lineær) af R, P og a 'erne. Ved valget af hypotese må man have to hensyn for øje. Dels skal hypotesen »passe« til observationerne, og dels skal hypotesen alt andet lige være så simpel som mulig. Efter at have
opstillet sin hypotese kan man søge at estimere —
numerisk Lad os antage, at man efter et eller andet princip har bestemt sine a'er i (3). Man kan da finde, hvor stort forbruget er ifølge den opstillede relation og sammenligne dette forbrug med det faktiske i den betragtede periode. Man vil da altid i praksis opdage, at der er en »lille« forskel mellem beregnet og faktisk værdi. Denne forskel opstår af tre grunde: dels fordi der kan være målefejl, dels fordi vor parameter er »sample« bestemt og dels — og frem for alt — fordi vi ikke har draget hele omverdenen ind i vor funktion, men kun har taget hensyn til visse »relevante« størrelser. Dette betyder, at
(3) egentlig burde skrives: (4) hvor u er en størrelse, som netop angiver afvigelserne mellem beregnet og faktisk værdi af C. Hvis vi nu har opstillet en »god« hypotese, så betyder det, at de mest »væsentlige« forklaringsfaktorer er med i vor relation. Det vil imidlertid betyde, at u vil være uden systematiske variationer. Vi kan følgelig opfatte u som en stokastisk variabel, som vil være fuldstændig beskrevet, når Side 62
frekvensfunktionens form og
parametre er angivet. Da der så vidt muligt (5) Det kan bemærkes,
at ofte vil det ikke være nødvendigt at sætte den stærke
Til antagelsen om,
at vi har fået de »væsentlige« forklaringsfaktorer med
(6) t angiver her
tiden og (6) skal være opfyldt for alle værdier af t =j=
o. Problemerne vil
måske blive lidt mere anskuelige, om vi f. eks. angiver
(7) Betegnelserne er
som før, Ct og Rt er forbrug og indkomst i periode t,
Man vil nu
bemærke, at Ct er ikke determineret blot fordi vi
angiver Det er klart, at
der opstår en lang række problemer omkring valget af
For det første vil
det være klart, at man ofte vil være tilbøjelig til at
give (8) Naturligvis er der
mange andre muligheder. Man kunne f. eks. lade renten,
For det andet kan der være grund til at gøre et par bemærkninger om den valgte funktionsform. I de hidtil gennemførte undersøgelser har man i reglen — så vidt mig bekendt — ladet sig nøje med lineære ligninger. Problemerne mangedobles, hvis man inddrager mere komplicerede funktioner i billedet. Om fejlen herved er særlig »stor« er også et spørgsmål. Tinbergen anfører1),
at »The use of linear relations means much less loss of
1) »Statistical Testing of Rusiness Cycle Theories, 11, Business Cycles in The United States of America 1919—32,« Geneva 1939, p. 11. Side 63
generality than
is sometime believed. In the case of small variations in
variables,... Der kan måske være grund til at nævne, at så snart man lader tidsfor - skudte størrelser indgå, vil man dermed have mulighed for at få svingninger ind i sit system. Matematisk er dette et simpelt resultat at det forhold, at f. eks. differensligningen under visse
omstændigheder vil kunne tilfredsstilles af funktionen
som er en funktion
med bølgekomponent. Det er således en misforståelse, når der indvendes mod brugen af lineære ligningssystemer, at man da ikke kan få f. eks. konjunkturbevægelser med i modellen. Så snart man lader størrelser med »lag« indgå i modellen, har man mulighed for at få svingninger frem. I den ovenfor nævnte afhandling opstiller Gelting sin forbrugsfunktion på formen (se p. 49, formel (10) — her er anvendt de ovenfor indførte symboler med tilføjelse af t, s og d som er de marginale kvoter for henholdsvis direkte skat, opsparing og indirekte skat): (9) Det vil være åbenbart, at dette er en særlig simpel relation. Naturligvis er man også nødt til og må foretrække simple relationer, og på forhånd kan man ikke afvise en sådan simpel relation. Der kan vist imidlertid være grund til at henlede opmærksomheden på en særlig abstraktion i (9). I denne relation er det konstante led fra de tidligere foreslåede relationer (a0) benbart medtaget — sat lig o. Man fristes også let til at anlægge den betragtning, hvis indkomsten er lig o, så må forbruget også være o, hvorfor det er ulogisk at operere med et konstant led forskelligt fra o. Her må man imidlertid at f. eks. relation (7) ikke er opsat med krav på gyldighed for alle værdier af R. Den »gælder« kun indenfor visse grænser. Der er vel ingen tvivl om, at den »rigtige« forbrugsfunktion er ikke-lineær m. h. t. R, men det centrale er netop, at indenfor »moderate« intervaller kan vi betragte denne funktion som en ret linie. Hvis i følgende figur den krumme kurve er den »rigtige« forbrugsfunktion (m. h. t. R), så ser man, at Rt = o giver Ct = o. Hvis vi imidlertid i intervallet fra Rtl til Rt2 substituerer kurven med den rette linie /, så må vi lade / få et analytisk udtryk, hvor det konstante led (a0) er o. I al almindelighed vil det sikkert være betænkeligt at kræve a0 = o. Det betyder nemlig, at vi forlanger, at den linie, som vi lader substituere et stykke af kurven, skal gå gennem origo, hvilket krav i reglen vil virke usmidigt. Side 64
En lang række
andre problemer opstår i tilslutning til spørgsmålet om
Lad os sige, vi
har opstillet en model i en eller anden form for det
økonomiske (10) hvoriblandt findes
en forbrugsfunktion, en investeringsfunktion, en
eksportfunktion, Har vi først valgt vore funktioner, er opgaven på grundlag af en række observerede data (f. eks. tidsrækker) at bestemme de indgående karakteriserende Den hidtil almindeligt anvendte metode har bestået deri, at man har taget sine funktioner en for en og efter et eller andet princip — i reglen mindste kvadraters metode — forsøgt at estimere de ukendte parametre. Lad os sige, at der blandt relationerne i modellen findes en forbrugsfunktion (7). Man har da »klippet modellen i stykker« og taget (7) ud og analyseret den særskilt uden hensyntagen til de andre funktioner. Sætter man — idet p er antal observationer — har man krævet, at
Q skal minimaliseres. Den nødvendige betingelse herfor
herved finder man
normalligningerne til (7), hvorved a0 og ax er blevet
Side 65
Nu er forholdet imidlertid det, at denne fremgangsmåde ofte vil føre til »skæve« estimater for parametrene. Fejlen kan vel siges at være den, at man glemmer, at formulere sine relationer stokastisk. Alle de foran omtalte tekniske relationer er i virkeligheden relationer, som forsøger at beskrive en eller flere variable ved en eller flere andre variable. Imidlertid afhænger alt af alt. Hvis man derfor skulde beskrive fuldstændigt, måtte man have hele »verden« med i hver relation. I stedet nøjes vi med at tage de »vigtigste« og tillader så en »lille« afvigelse mellem den observerede og den beregnede størrelse. Tager vi som eksempel atter relation (7), må man huske, at her indgår Rt som uafhængig variable. Men Rt er ikke en uafhængig variabel, som leveres »udefra«. Rt indgår selv som afhængig variabel i modellen. Det betyder, at Rt selv er en stokastisk variabel, hvorfor resultatet bliver, at ut — som jo ifølge (7) er forskellen mellem observeret og beregnet Ct — kommer til at indeholde både stokastiske variationer fra Rt og fra Ct. Således kan man måske udtrykke den centrale fejl. Det betyder nemlig, at man ikke kan gå direkte løs på (7), men må tage hensyn til, at (7) er en enkelt relation i et simultant ligningssystem. Man må derfor ved den empiriske bestemmelse af sine parametre ikke klippe sit system (modellen) i stykker, men må tage hensyn til de andre relationer. Dette kan gøres på den måde, at man substituerer Rt med andre størrelser hentet fra den øvrige del af ligningssystemet. De størrelser, man herved når frem til som uafhængige i relationen, må være størrelser, som kan betragtes som autonom variable f. eks. simpelthen som en række udefra givne tal. Man når herved frem til det såkaldte reducerede ligningssystem. Et konkret
gennemregnet eksempel vil måske gøre disse forhold mere
Lad os tænke os en
relation beskrivende en forbindelse af formen: (11) xx er en
variabel som søges »forklaret« ved bevægelser i en anden
variabel, Man tænker sig, at
det empiriske materiale består i to tidsrækker for xx
Lad endvidere en
tredie tidsrække, x3, være givet som en række udefra
Side 66
Mellem .r3, .r2 og .i\
antages følgende bånd (definitionsrelation) at herske
(12) Med x3x3 som
autonomt givet danner (11) og (12) et simultant,
determineret Statistisk består
opgaven nu i at bestemme parametrene i systemet: Som foran er
omtalt vil man få et »skævt« estimat for a og b, såfremt
man Lad os tænke os, at man i første omgang vil forsøge at bestemme størrelsen af b. Anvender man det almindeligt brugte princip at tage (11) isoleret — d. v. s. klipper systemet i stykker — får man to normalligninger til (11) (jfr. foran): som ved løsning
giver2): (13) Indsættes heri de fra tidsrækkerne fundne værdier for Sxxx2i £xx • Ux2, ¦Zx222 2 og (2a?2)2 fås b. b° betegner den ved denne metode fundne værdi for b. Dette har været og er stadig — uden reservationer — det mest udbredte estimeringsprincip. Om man imidlertid
betragter systemet under et, d. v. s. også tager hensyn
(14) 1) Den anførte model er kun ment som et illustrerende, let tilgængeligt eksempel. Det må nævnes, så snart man går over til større, mere komplicerede modeller, står man snart overfor meget store problemer. Som eksempel kan antydes det såkaldte identifikationsproblem. Når man løser det oprindelige ligningssystem (f. eks. (11) — (12) ovenfor) og finder frem til det reducerede ligningssystem eks. (14) og (15) nedenfor) vil det i almindelighed gælde, at til hver model svarer eet og kun et reduceret system. Det omvendte behøver imidlertid ikke at være tilfældet. Der kan på denne måde findes »overidentificerede« systemer, eller et system kan mangle identifikation. I sådanne må der gribes til meget omfattende og arbejdskrævende estimeringsberegninger. — Alle de herunder hørende problemer vil blive behandlet i en kommende monografi nr. 10 fra Cowles Commission: »Statistical Inference in Dynamic Economic Models«. 2) For nemheds skyld betegnes Sn i det følgende blot ved 27; ner antal iagttagelser. Side 67
(15) (14) og (15)
danner det ovenfor omtalte reducerede ligningssystem.
Benytter Idet får man, at når
antal iagttagelser forøges vil. b° stokastisk1) nærme
sig til en (16) Der kan nu mindes
om, at idet tidsrækken for xs er givet, kan man herudfra
hvoraf fås det
velkendte udtnrk som tillige med
det tilsvarende udtryk for au kan indsættes i (16),
hvorved (17) Skrives (17) på
formen. (18) ser man let, at i
almindelighed vil (19) hvilket altså
betyder, at det fundne estimat (6°) for 6 er forskelligt
fra det 1) For at antyde at det her drejer sig om en stokastisk grænseovergang — til forskel fra den i matematikken kendte — skrives »plim b°« (cfr. »lim 6°«) — probability limit. Side 68
Et spørgsmål rejser sig umiddelbart: Hvad skal man forstå ved et »godt« estimat? Om et estimat skal betegnes som »godt« eller »tilfredsstillende« er naturligvis i en vis forstand vilkårligt. Det må bl. a. bestemmes af, hvortil man vil anvende sine estimater. Det vil føre meget vidt, om jeg her skulle gå ind på en diskussion af principper for vurdering af estimeringsmetoder. Men nogle få bemærkninger må det dog være på sin plads at gøre. Et estimat siges
at være konsistent, såfremt den estimerede værdi ligger
(20) så siges 6* at være et konsistent estimat for b. (20) læses som følger: Sandsynligheden — når antal iagttagelser går mod uendelig — at det fundne estimat afviger mindre end et nok så lille tal s fra den sande værdi (b), går mod 1. At kræve, at et
estimat skal være konsistent, synes åbenbart at være et
Hvis man går med til at kræve, at et estimat skal være konsistent, vil det være åbenbart, at det foran anvendte estimeringsprincip, kan kaldes uhensigtsmæssigt. b° ikke er noget konsistent estimat for b følger umiddelbart af (19). Tilbage står blot
at vise, at man får et konsistent estimat for b, såfremt
man (21) (22) Forholdet mellem
(21) og (22) giver (23) idet b betegner
det på denne måde fundne estimat for b. Indsættes i (23)
de af (14) og (15) fundne udtryk for E xr • xz, E x1 • E
x3, Side 69
Da som før E (x3
• u) = O, får man: (24) hvorved er
bevist, at når man estimerer med hele modellen som
forudsætning, Hvad her er anført kan måske siges at være et specielt resultat af Markoff's teorem, som helt generelt præciserer under hvilke omstændigheder man kan forvente at få et »rimeligt« estimat ved at anvende mindste kvadraters metode på lineære relationer, hvilket jo kan siges at være det generelle problem i det foregående. Det vil imidlertid føre alt for vidt at gå ind på de mere principielle problemer heri1). Det kan bemærkes, at benyttelsen af det simultane princip ved estimeringer langt mere arbejdskrævende end det almindeligt anvendte princip med at tage strukturrelationerne en for en direkte. Netop i økonomien, hvor simultane sammenhænge er så helt dominerende, bevirker dette forhold, at det må være berettiget at sige, at socialvidenskaberne støder på usædvanlig store vanskeligheder i forsøgene på at fundere sig empirisk sammenlignet med mange naturvidenskaber, hvor isolering af objektet er mulig. Konsekvensen dette kan imidlertid kun blive et krav om forøgede anstrengelser. 1) Der kan bl. a. henvises til en artikel af F. N. David og J. Neyman i Statistical Research Memoirs 11, London 1938, »Extension of the Markoff theorem on least squares«. |