Nationaløkonomisk Tidsskrift, Bind 130 (1992)

Robuste metoder

Nils Kousgaard

Side 443

Statistisk Institut, Københavns Universitet

Mange af disputatsens økonomiske relationer formuleres ved hjælp af lineære modeller,
for størstepartens vedkommende tilpasses til data, (yt, xxt\,...xtp), t= 1,....T,
ved anvendelse af MK-metoden (mindste kvadraters metode). Ved tilpasning forstås
her bestemmelsen af estimater for de/? + 1 regressionsparametre (3q, P\,...,(3p i den lineære


DIVL9045

I kapitel 9 forholder Kærgård sig dog kritisk til brugen af MK-metoden, og en rækkealternative,
robuste, estimationsmetoder trækkes frem. Imidlertid spiller dissemetoder
nogen rolle i de senere kapitler, hvor de egentlige statistiske analyser

Side 444

udføres. Her benyttes MK-metoden, idet en række størrelser, der udtrykker indflydelsen
fra de enkelte observationer på analysens resultater, de såkaldte "regression diagnostics",inddrages.

Udgangspunktet for diskussionen i kapitel 9 er et ønske om at "fa en estimator, der ikke er så følsom overfor store afvigelser som mindste kvadraters metode" (side 222). Bag denne bemærkning skjuler sig det i dag velkendte forhold, at observationer, der er ekstreme i forhold til hovedparten af data, kan fa en dominerende indflydelse på værdierne MK-estimaterne for regressionsparametrene. En situation, hvor værdierne af de estimerede parametre hovedsageligt bestemmes af en lille del af data, er selvfølgelig ikke ideel og kan så tvivl om analysens konklusioner. Dette har affødt en voksende interesse for anvendelsen af analysemetoder, der ikke i samme omfang som MK-metoden følsomme overfor ekstreme observationer. Metoder, hvis egenskaber kun i begrænset afhænger af fordelingen af regressionsmodellens restled, et, kaldes ofte robuste. Imidlertid er det ikke på nogen måde oplagt, at man blot ved at erstatte MKmetoden en robust metode vil fa en sundere analyse.

Mange statistiske analyser kan opdeles i to faser, nemlig en eksplorativ eller beskrivende og en konkluderende fase. I den eksplorative fase er man primært interesseret at tilpasse regressionsfunktionen til data ved anvendelse af en metode, der ikke tager hensyn til atypiske observationer, d.v.s observationer, der på en eller anden måde er ekstreme i forhold til hovedparten af data. Det undersøges om der er inhomogeniteter data, f.eks. om der er år, hvor kombinationerne af modellens variable afviger markant de øvrige år. Man kan herved få et indtryk af restledsfordelingens form, om der er behov for ændringer i modelspeciflkationen, eller om der bør lægges begrænsninger modellens anvendelsesområde. I denne fase interesserer man sig kun i mindre for præcisionen af de estimerede regressionsparametre og lader de normale år bestemme tilpasningens form. I den konkluderende fase lægges hovedvægten derimod på fortolkningen af data, og der ønskes en præcis estimation af paramenterne. Idet den optimale estimationsmetode vil være bestemt af restledsfordelingen, skal denne beskrives detaljeret som muligt.

I analysens to faser stilles der således forskellige og måske uforenelige krav til estimations eller tilpasningsmetoden. Mens man i den eksplorative fase har brug for en metode, der kan tage højde for den værst tænkelige restledsfordeling og som ikke påvirkes forekomsten af ekstreme observationer af såvel responsvariablen som de forklarende er man i den konkluderende fase interesseret i stærkt restriktive antagelser restledsfordelingen med henblik på at sikre den optimale udnyttelse af informationen data.

Ofte skal MK-metoden imidlertid optræde i to roller, nemlig som tilpasningsmetode
i den eksplorative fase og som maksimum likelihood metode i den konkluderende fase
under en forudsætning om at regressionsmodellens restled er normalfordelte. Desværre

Side 445

kan MK-metoden fungere dårligt i den eksplorative fase på grund af dens følsomhed overfor ekstreme observationer. En dårlig tilpasning til observationerne i nogle fa år tværes ud over de øvrige år, hvilket skyldes, at selve estimationskriteriet, nemlig minimeringenaf kvadrerede residualer, har en indbygget tendens til at undgå store afvigelsermellem og data og i stedet producere en række halvstore afvigelser. Dette forhold gør det bl.a. vanskeligt at identificere år med afvigende værdier af en eller flere af modellens variable.

Er restleddene imidlertid normalfordelte og holder linearitetsantagelsen, er MK-estimatet med maksimum likelihood estimatet, og har derfor optimale statistiske egenskaber, d.v.s. at informationen i data udnyttes optimalt. Gøres derimod restledsfordelingens tungere end normalfordelingens haler, svarende til at der hyppigere end i normalfordelingen forekommer ekstreme værdier af responsvariablen, mister MKmetoden optimalitetsegenskaber. MK-metoden er således ikke robust, hvormed der menes, at dens statistiske egenskaber ikke er robuste overfor afvigelser fra normalitetsforudsætningen.

En metode, der hverken er følsom overfor forekomsten af ekstreme observationer af responsvariablen eller af de forklarende variable, kaldes også resistent. I erkendelse af at MK-metoden hverken er robust eller resistent, har man udviklet en række numeriske størrelser, de såkaldte diagnostics, der sigter mod at identificere observationer som ved anvendelsen af MK-metoden har en særlig stærk indflydelse på de estimerede regressionsparametre. af disse diagnostics, herunder bl.a. Cook's afstand, der måler ændringen i de estimerede parametre ved udeladelse af en enkelt observation, er i de senere år blevet almindelig i forbindelse med MK-analyser. Mange diagnostics kan imidlertid kun benyttes ved vurderingen af indflydelsen fra et enkelt observationssæt, f.eks. et år.

Udviklingen af robuste observationsmetoder har især fundet sted indenfor de seneste år. Det første skridt bestod i udviklingen af M-estimatorerne, der er robuste overfor tunghalede afvigelser fra antagelsen om, at restleddene er normalfordelte. I sammenligning med MK-metoden lægger disse metoder mindre vægt på forekomsten af store residualer. Dette gælder bl.a. den metode, der af Kærgård kaldes Ai -metoden (s. 226) eller MAD-metoden. Den minimerer summen af de numeriske residualer, d.v.s.


DIVL9063

i stedet for som MK-metoden at minimere summen af de kvadrerede residualer


DIVL9067
Side 446

Sammenlignet med MK-metoden er M-metodeme mere beregningskrævende, uden at dette dog på nogen måde udgør en hindring for deres anvendelse. Estimationen udføres gentagne minimeringer af en vejet kvadratafVigelsessum med vægte, der successivt under hensyntagen til størrelserne af de beregnede residualer. De robuste er i varierende omfang mindre følsomme overfor ekstreme værdier af responsvariablen MK-metoden, og en række af disse, bl.a. minimeringen af summen af de numeriske residualer, har i dag en vis udbredelse. M-estimatorer er imidlertid ikke overfor forekomsten af ekstreme værdier af de forklarende variable, omend de i konkrete situationer ikke er helt så følsomme som MK-metoden.

Ønsker man at anvende metoder, der er resistente overfor enhver form for ekstreme observationer, kan man f.eks. benytte de metoder, som Kærgård beskriver i kapitel 9, afsnit De har imidlertid den ulempe, at de vanskeligt lader sig generalisere til modeller med mere end en forklarende variabel. Til gengæld er de relativt simple at benytte. Derimod den metode, der minimerer kvadratet på medianen i residualfordelingen være yderst velegnet, idet den i en vis forstand har den højest opnåelige grad af resistens. Metoden er imidlertid meget beregningstung, specielt i situationer med store datamaterialer mange forklarende variable, og endvidere giver den estimater med en ringe præcision. (Rousseeuw and Leroy (1987)). Herved illustreres det dilemma, man står overfor ved valget af tilpasnings- eller estimationsmetode. Jo mere resistent en metode er, jo mere velegnet vil den være til at identificere inhomogeniteter i data, d.v.s jo mere velegnet vil den være i den eksplorative fase af den statistiske analyse. Til gengæld er resistente metoder uegnede som grundlag for den fortolkningsmæssige del af analysen. Dette skyldes dels, at de giver usikre bestemmelser af regressions parametrene (stor varians), at deres fordelingsmæssige egenskaber er vanskelige at håndtere.

I kapitel 9 foretages i afsnittene 5 og 6 en række empiriske sammenligninger af MKmetoden MAD-metoden. Først tilpasses en model til data fra én periode ved hver af de to metoder, og dernæst beregnes udtryk for den præcision, hvormed responsvariablen forudsiges i en senere periode. Jo bedre forudsigelser en metode giver, jo mere velegnet anses den så for at være til estimation af modellens parametre.

Sammenligninger af denne art har imidlertid kun begrænset værdi og kan ikke fortælle om, hvilke estimationsmetoder, der bør foretrækkes. I den eksplorative fase man såvidt muligt benytte en resistent metode. Fremgår det heraf, at restleddene med rimelighed kan anses for at være normalfordelte, skal man anvende MK-metoden som grundlag for den konkluderende del af analysen. Har derimod restledsfordelingen haler, der er tungere end normalfordelingens haler, kan man overveje anvendelsen af f.eks. der er identisk med maksimum likelihood metoden, såfremt restleddene en Laplace fordeling. I den konkluderende fase er det, som tidligere nævnt, af stor betydning, at informationen i data udnyttes optimalt, og dette sikres netop igennem af den korrekte restledsfordeling.

Side 447

Kærgård skal have ros for at han er opmærksom på at tilpasningen af den lineære regressionsmodel data i princippet kan bestemmes ved andre metoder end MK-metoden. har denne opmærksomhed ikke sat sig synlige spor, når det gælder de i disputatsen udførte statistiske analyser, ligesom der heller ikke er taget nogen principiel til, hvilken rolle sådanne metoder bør spille ved analysens udførelse.

Litteratur

Rousseeuw, P. J. and Leroy, A. M. 1987. Robust
and Outlier Diagnostics.
York.