Ledelse og Erhvervsøkonomi/Handelsvidenskabeligt Tidsskrift/Erhvervsøkonomisk Tidsskrift, Bind 45 (1981) 3

Opvejningsproblemet i stikprøveundersøgelser

Carsten Stig Poulsen *)

Side 153

Resumé

Ved udtagelse af stikprøver ved simpel tilfældig udvælgelse vil der ofte forekomme skævheder i stikprøvens fordeling på en række kriterier i forhold til populationens sammensætning. I det omfang man kender denne sammensætning vil det være nærliggende at søge at korrigere disse skævheder for derved at opnå en bedre »repræsentativitet« af stikprøven. Denne fremgangsmåde er da også ganske udbredt blandt analyseinstitutter og andre praktikere og kendes under betegnelsen

Flemming Hansen har i en artikel i dette tidsskrift" gennemgået den konkrete metode ved et eksempel i forbindelse med bortfald. Jeg har selv tidligere hævdet det synspunkt2 ', at spørgsmålet om opvejning burde ses som et selvstændigt problem, som ikke nødvendigvis var forbundet med bortfald. Jeg skal derfor i denne artikel belyse fremgangsmåden fra en mere teoretisk statistisk synsvinkel.

I næste afsnit vil nogle resultater fra stikprøveteorien blive gennemgået for at etablere den nødvendige baggrund for det efterfølgende mere centrale afsnit, hvor opvejning karakteriseres som ex post stratifikation med tilfældig allokering af stikprøven. Med dette som udgangspunkt demonstreres det, at opvejningen undertiden kan føre til ringere, dvs. mere usikre estimater, og betingelserne herfor påpeges. Den væsentligste konklusion er følgelig, at opvejning som procedure ikke bør anvendes automatisk, men at man i hvert tilfælde må sikre sig, at de nødvendige forudsætninger herfor er til stede.



*) Seniorstipendiat, Handelshøjskolen i Århus. p.i. Wharton School, University of Pennsylvan USA. Artiklen modtaget juni 1981.

Side 154

1. Nogle resultater fra samplingteorien

Vi antager, at middelværdien X af en kvantitativ størrelse i en endelig population med N elementer ønskes estimeret ved udtagelse af en stikprøve på n<N enheder. To velkendte statistiske udvælgelsesmetoder

(a) simpel tilfældig udvælgelse

(b) stratificeret tilfældig udvælgelse
med estimatorerne


DIVL2659

(1)


DIVL2663

(2)

hvor j=1,...,L betegner stratum. Det kan vises4', at


DIVL2669

(3)

/N.f
E(xstr) =Xog V(xstr) = z^j-VUj);


DIVL2675

(4)

Her betegner o2o2 (o-2) variationen i kendetegnet for populationen (j'te stratum), målt ved variansen på X. Begge estimatorer er middelrette, og en sammenligning af de to procedurer kan ske ved at betragte differencen mellem deres varianser:


DIVL2681

DIVL2683

(5)

Af (5) ses, at stratifikationsgevinsten kan være positiv, nul eller negativ. Første led på højresiden af (5) måler variationen i stratummiddelværdier og er altid ikke-negativ. Fortegnet for andet led er derimod übestemt, idet det afhænger tå fordelingen af stikprøven på strata. Antag eksempelvis, at strata'erne ér fuldstændig ens: X og er2 er konstante over j. Da reduceres (5) til:

Side 155

DIVL2689

(6)

og gevinsten ved stratifikation (som altsa her er overflodig pa forhand)
er negativ, safremt


DIVL2695

Ved stratificeret tilfældig udvælgelse er stikprøvens fordeling på strata derfor afgørende. En ofte benyttet metode er proportional allokering, hvor fordelingen af stikprøven sker efter relativ stratumstørrelse Nj fN, dvs. Wj=l for alle j. Det ses, at stratifikationsgevinsten i dette tilfælde alene afhænger af variationen i stratummiddeltallene Xj, idet andet led på højresiden i (5) reduceres til nul. Med proportional allokering kan gevinsten aldrig blive negativ.

2. Stratifikation efter sampling: Opvejning

Det kan ofte være umuligt eller yderst vanskeligt at stratificere populationen, før stikprøven er udtaget. Fordelingen af populationen på generelle kriterier som køn, alder, civilstand osv. kan være tilgængelig fra eksterne kilder (officiel statistik), og det er da nærliggende at udnytte denne information til efterfølgende at stratificere den udtagne stikprøve6 '. Det er denne fremgangsmåde, som går under betegnelsen opvejning og som med et finere udtryk kan kaldes ex post stratifikation til forskel fra den sædvanlige stratifikation beskrevet ovenfor, som foregår ex ante, dvs. før stikprøven udtages.

Rent intuitivt er det rimeligt, at stratifikation ex post er mindre effektiv (mindre variansreduktion) end ex ante stratifikation. Fælles for de to samplingmetoder er udnyttelsen af ekstern information om den betragtede population, men ved stratifikation ex ante inddrages denne information allerede ved planlægningen af stikprøven, mens den ved ex post stratifikation kun kan udnyttes ved den realiserede stikprøve.

Det er måske mindre indlysende, at ex post stratifikation eller opvej
ning som metode kan være direkte skadelig for præcisionen af estimatorerne.
Dette forhold vil blive formelt belyst i det følgende.

Side 156

Fra et teoretisk statistisk synspunkt er den vaesentligste forskel mellem stratifikation ex ante og ex post, at allokeringen af stikproven kun i forste tilfaelde er under planlaeggerens kontrol. Ved ex post stratifikation er fordelingen af stikproven pa. strata derimod tilfasldig og ma betragtes som resultatet af en stokastisk proces som primsert styres af de relative stratumstorrelser Nj/N. Pa denne baggrund er det ikke overraskende, at den fulde (ex ante) stratifikationsgevinst ikke kan opnas ex post. Med en given allokering n} kan formlerne i (4) stadig anvendes, men nj og dermed ogsa Wj emu stokastiske variabler, og vi skal derfor vurdere 7)


DIVL2712

(7)


DIVL2716

(8)

Da xstr er en middelret estimator for X for alle nj, vil det samme gælde
xstr.. Det medfører videre, at andet led i (8) falder bort. Tilbage at betragte


DIVL2722

(9)

og den forventede gevinst ved ex post stratifikation sammenholdt med
simpel tilfældig udvælgelse er:


DIVL2728

(10)


DIVL2732

hvor


DIVL2736

(11)

Af 81fås nu:


DIVL2742
Side 157

rij kan tilnaermelsesvis betragtes som multinomisk fordeling med antalsparameter
nog sandsynlighedsparametre N/N. Derfor fas:


DIVL2746

og dermed


DIVL2750

Andet led på højresiden af (10) er altså negativt. Antager vi derfor igen, at Xj ikke varierer over strata, er første led nul og ex post stratifikationsgevinsten er negativ. Det samme resultat vil gælde selv ved mindre forskelle mellem stratummiddelværdierne.

3. Afsluttende bemærkninger

Den generelle konklusion af den gennemførte analyse er, at inddragelse af ekstern information om populationen gennem opvejning ikke er omkostningsfri. Den nødvendiggør estimering af flere parametre, her de betingede middelværdier Xj inden for hvert stratum9l. Opvejning som metode forudsætter klare forskelle mellem strata m.h.t. det undersøgte kendetegn, hvilket bør testes inden metoden anvendes, om muligt på et selvstændigt datasæt. Dertil kommer, at stikprøvens størrelse sætter en grænse for hvor finmasket en opvejning der kan gennemføres. Ved små datasæt vil estimationen af stratummiddelværdierne være meget ustabil, og tomme celler vil kunne forekomme, hvorved en vurdering af usikkerheden på estimatorerne umuliggøres. En analytisk belysning af sammenhængen mellem disse centrale faktorer udover den allerede gennemførte forekommer vanskelig. Det vil dog være en enkel sag ved hjælp af numerisk simulation at klarlægge de nævnte forholds kvantitative og dermed praktiske betydning.

Side 158

4. Noter



1) Se Hansen (1977).

2) Poulsen (1980).

3) Deter almindeligt i stikprøveteori (mere præcist: i teorien for udtagelse af stikprøver fra endelige populationer) at lade store (latinske) bogstaver angive populationsværdier, mens de tilsvarende små bogstaver betegner stikprøveværdier. Vi følger denne konvention her.

4) Se f.eks. Jensen (1974).

5) Ved såkaldt optimal allokering inddrages også forskelle i samplingomkostninger og stratumvarians 02.o2. Princippet kan yderligere generaliseres til at omfatte forskelle i bortfaldssandsynlighed, se Poulsen (1980).

6) Der gøres opmærksom på, at i det omfang de anvendte kriterier er statistisk afhængige må opvejningen ske på grundlag af den simultane fordeling (den fuldstændige krydstabel). Ofte foreligger kun oplysninger om marginale fordelinger (frekvenstabeller) af kriterierne umiddelbart tilgængelige.

7) I udtrykket E(E(xs[r fy)) går den inderste middelværdidannelse på3cstr, givet n., mens den yderste henføres til variationen i n. Formlen for variansen kan findes i f.eks. Jensen (19 74)p. 59.

8) Denne ulighed udtrykker, at den forventede værdi af en konveks (»opad hul«) funktion af en stokastisk variabel, er større end middelværdien indsat i funktionen. Formelt: E(f(x)) > f(E(x)) for f konveks.

9) Ved vurderingen af usikkerheden kræves tillige skøn over stratumspredningerne

Litteratur:

Flemming Hansen, Sampling teori og anvendt statistik, s. 215-227, Erhvervsøkonomisk Tidsskrift
4,1977.

N. E. Jensen (red.), Stikprøveteori, København, 1974

Carsten Stig Poulsen, Bortfaldsproblemet i stikprøveundersøgelser, s. 227-240, Erhvervsøkono
misk Tidsskrift 4, 1980.