Ledelse og Erhvervsøkonomi/Handelsvidenskabeligt Tidsskrift/Erhvervsøkonomisk Tidsskrift, Bind 44 (1980) 1

Bortfaldsproblemet i stikprøveundersøgelser

Carsten Stig Poulsen *)

Side 227

Indledning

len artikel i dette tidsskrift1) rejser Flemming Hansen spørgsmålet om den eksisterende statistiske teoris praktiske anvendelighed på stikprøveundersøgelser af populationer, der består af personer, grupper af personer m.v. Udover den usikkerhed, som følger af, at det kun er en del af populationen, der undersøges, optræder der her tillige kilder til fejl i form af målefejl og bortfald (non-response), som stort set ikke indgår i de teoretisk-statistiske modeller.

Det er hensigten i det følgende at opstille en formel model, som kan belyse nogle sider af bortfaldsproblemets betydning for statistisk inferens. De spørgsmål, som primært behandles er: Hvilken indflydelse har bortfaldet på egenskaberne hos de estimatorer, som traditionelt anvendes i stikprøveundersøgelser, og hvorledes kan undersøgelserne tilrettelægges under hensyntagen til bortfaldet.

Fremstillingen prætenderer ikke at være fuldt dækkende, men repræsenterer
nogle indledende overvejelser, som måske kan danne grundlag
for videre forskning inden for området.



*) Cand. unkt, AUC.

1) Nr. 4/1977.

Side 228

Bortfaldet som problem

Ved bortfald vil vi i det følgende forstå manglende information om nogle af de analyseenheder, som var planlagt at skulle indgå i undersøgelsen. Denne fejlkilde knytter sig ikke specielt til stikprøveundersøgelser, men kan lige såvel optræde ved totaltællinger.

Bortfaldet som problem forstærkes i det omfang de bortfaldne analyseenheder adskiller sig væsentligt fra resten af stikprøven med hensyn til det undersøgte kendetegn. Da vil de skøn over forholdene i populationen, som bygger på den gennemførte stikprøve, nødvendigvis blive fejlagtige. I forbindelse med interviewundersøgelser kan der sondres mellem to hovedtyper af bortfald: respondenter, som ikke træffes og nægtere. De to typer af bortfald adskiller sig på en række punkter. Man vil således ved genbesøg være i stand til at nedbringe antallet af ikke-trufne respondenter, mens det er mere krævende at overtale folk med nægter-indstilling til at deltage i undersøgelsen. Forudsætningen om, at bortfaldet ikke afviger væsentligt fra resten af populationen kan også være mere hasaderet i forbindelse med nægtergruppen end for gruppen af ikke-trufne. Endelig skal man være opmærksom på en mulig sammenhæng mellem formålet med undersøgelsen og tilbøjeligheden til bortfald.

Hvis man f.eks. udtager en stikprøve med henblik på en vurdering af antallet af sortseere, er det ikke utænkeligt, at nægterprocenten blandt sortseerne er større end blandt licensbetalere. (En anden mulig fejlkilde er her målefejl i form af urigtige oplysninger).

Vi skal overalt i det følgende antage, at bortfaldet er uden sammenhæng
med det undersøgte kendetegn.

En statistisk model med bortfald

Problemstillingen i en model med bortfald sammenlignet med traditionel
statistisk stikprøveteori er søgt anskueliggjort i figur 1.

Side 229

DIVL3790

Fig. 1.

Grundlaget i den traditionelle model er en stikprøve, som er udtaget tilfældigt, d.v.s. sandsynligheden for, at en vilkårlig enhed i populationen indgår i stikprøven er kendt - men ikke nødvendigvis den samme for alle enheder.

Derved etableres en sandsynlighedsteoretisk sammenhæng mellem kendetegn i populationen og observerede kendetegn i stikprøven, som danner grundlag for statistisk inferens med angivelse af den dertil knyttede usikkerhed. Udarbejdelsen af en stikprøveplan bygger på et effektivitetskriterium: For et givet økonomisk budget søges stikprøveusikkerheden minimeret eller - omvendt - en given usikkerhed ønskes opnået ved de lavest mulige omkostninger.

I den mere generelle model med bortfald reduceres den planlagte stikprøve, som følge af non-response hos nogle af de udvalgte enheder. Stikprøven omfatter kun n* enheder i stedet for de planlagte n, et bortfald på n-n*. Problemet er nu, i hvilket omfang inferens reglerne fra den traditionelle model kan anvendes i dette mere generelle tilfælde.

Side 230

I den model, der opstilles for at belyse dette spørgsmål, anvendes følgende

X : Vaerdien af kendetegnet for y'te enhed i populationen,
V V= 1,2,...,N.

x. : Vaerdien af kendetegnet for i'te enhed i den planlagte stikprove,
1 i=1,2,...,n.

X.*: Vaerdien af kendetegnet for j'te enhed i den realiserede stik-
J prove, j= 1,2,...,n!::.

0 : Sandsynligheden for, at v'te enhed i populationen udtages til
den planlagte stikprove,v = 1,2...,N. o<6y<l.

P : Sandsynligheden for, at v'te enhed i populationen ikke indgar i
den realiserede stikprove, skont den er udtaget til den planlagte
stikprove,V = 1,2...,N. 0< p <1.

Vi antager, at formalet med stikproven er at estimere middeltallet i
populationen:


DIVL3786

(1)

Simpel tilfældig udvælgelse

Det forudsættes, at den planlagte stikprøve udtages ved simpel tilfældig
udvælgelse. Dette indebærer, at alle enheder i populationen har samme
sandsynlighed for at blive valgt:


DIVL3800

(2)

Da gælder følgende sætning i den traditionelle model:

Sætning 1: Middeltallet i stikprøven


DIVL3808

(3)

er en middelret estimator over middeltallet i populationen X.

Side 231

Bevis: Lad indikatorvariablen a vaere defineret ved


DIVL3814

(4)

Da kan estimatoren x skrives


DIVL3820

(5)

Den forventede værdi af x, E (x), kan findes:


DIVL3826

(6)

Idet


DIVL3832

A si S "


DIVL3836

Uden bevis2) anføres.

Sætning 2: Den teoretiske varians på estimatoren x er givet ved


DIVL3842

(7)

hvor


DIVL3848

(8)

er variansen i populationen.



2) Et bevis kan l'.cks. lindes hos Jensen (1974).

Side 232

For N -»• qd fremkommer den velkendte formel for variansen på middeltallet
af uafhængige observationer fra en uendelig population.

I modellen med bortfald skal vi nu betragte


DIVL3858

(9)

d.v.s. middeltallet i den gennemforte stikprove som estimator for X.
Med a defineret ved (4) kan (9) skrives:


DIVL3864

(10)

Her er fordelingen af (X imidlertid ændret. Vi antager, at sandsynligheden
for at indgå i den realiserede stikprøve kan skrives:


DIVL3870

(11)

d.v.s. som produktet af sandsynligheden for at blive udtaget til den planlagte stikprove og tilbojeligheden (sandsynligheden) for at indga i den realiserede stikprove. Man forestiller sigaltsa, at populationen ikke blot er karakteriseret ved kendetegnet X^, men ogsa ved bortfaldstilbojelighederne p .En enhed bestar af et talpar (Xy ,pv ), som ved udtra'kning repraesenteres ved (xj, p.). x- vil da indga i den realiserede stikprove med sandsynligheden 1-p •.

Mens 9^, alene afhænger af den valgte stikprøveplan, er p . i vidt omfang
uden for planlæggerens kontrol.

For p^ = o fremkommer den traditionelle model som et specialtilfælde.

Vi skal nu vise følgende:

Sætning 1*: Middeltallet x::: i den realiserede stikprøve er som hovedregel
ikke en middelret estimator for middeltallet i X populationen.

Side 233

Bevis: Med oty defineret ved (4) kan antallet af enheder n* i den gennemførte
stikprøve skrives:


DIVL3886

d.v.s. n* er en stokastisk variabel. Den forventede værdi af x* er givet
som:


DIVL3890

(12)

x* vil derfor kun va!re middelret, såfremt


DIVL3896

DIVL3898

(13)

4

hvilket ikke kan antages at gælde i almindelighed.

Vi skal nu undersøge (13) i nogle specialtilfælde. Hvis n* er rimelig
stor, vil ot kunne betragtes som uafhængig af n:;: =£#„. Da gælder:


DIVL3908

Anvendelse af (11) giver


DIVL3912

og dermed kan betingelsen (13) skrives


DIVL3916

(14)

Introduceres nu mere formelt antagelsen om uafhængighed mellem bortfaldssandsynlighed
og værdien af kendetegnet, haves

Side 234

DIVL3922

DIVL3924

som indsat i (14) giver


DIVL3928

(15)

Da l fn* er en konveks funktion af n* gælder det ifølge Jensens ulighed,


DIVL3934

Vi har tillige


DIVL3938

og dermed


DIVL3942

Selv når n::: er stor gælder sætning 1* stadig. Variationen i det gennemførte
antal observationer er medvirkende til, at x* er et skævt skøn
over X. Skævheden vokser med variansen på n:\

Vi ser dernæst på en vigtig undtagelse fra hovedreglen i sætning 1 *:

Korollar 1*: Såfremt bortfaldssandsynligheden p^ er konstant, py =p
vil x* være en middelret estimator for X.

Bevis: Når p^, = p, er Pr| ct^ = 1} = S-( 1-p ) konstant, uafhængig af v•
Antages der tillige uafhængighed mellem enhederne, hvad angår deres
tilstedeværelse i den realiserede stikprøve, vil fordelingen af n* være

Side 235

givet ved en binomialfordeling med antalsparameteren N og sandsynlighedsparameteren2-11
-P )• Der gælder nu generelt3):


DIVL3952

(16)

hvor E( av|n*) betegner den betingede middelværdi afa^. , givet
summen n::: =2"a „. Da n* en binomialfordelt gælder4):


DIVL3958

(17)


DIVL3962

og dermed


DIVL3966

<

En intuitiv forklaring på dette resultat er:

Når bortfaldssandsynligheden er konstant over enhederne i populationen er den »mekanisme«, som udvælger enheder fra den planlagte til den realiserede stikprøve helt analog med udvalgsproceduren fra populationen til den planlagte stikprøve.

Usikkerheden på skønnet x* skal nu vurderes. Som det kunne forventes
gælder:

Sætning 2*: Bortfald bevirker en forøgelse af usikkerheden, målt ved
variansen på estimatorenx*.

Delvist bevis: Variansen på x*, V(x*), kan skrives5)


DIVL3980

(18)

For givet n* vil E(x*|n*) i det generelle tilfselde med pv forskellig afvige fra X og aihaenge af n*. Derfor er andet led i (18) positivt. Ligeledes vil den betingede varians V(x*|n*) vaere storre end variansen i den traditionelle model med samme stikprovestorrelse:



3) For produktet at to stokastiske variable X og Y gælder det, at E(XY) = E(XE(Y|X)) = E(YE(X|Y)), se f.eks. Jensen (1974), p. 55.

4) Den betingede sandsynlighed for, at et vilkårligt binomiallovs forsøg i en forsøgsrække på N er »gunstigt«, givet n* »gunstige« ialt, er n'VN, uafhængigt af den marginale sandsynlighed for »gunstigt« udfald i et forsøg.

5) se f.eks. Jensen (1974), p. 59.

Side 236

DIVL3986

DIVL3988

DIVL3990

DIVL3992

Specialtilfældet med pv =p giver følgende

Korollar 2*: Såfremt bortfaldssandsynligheden pv er konstant, py =«
vil


DIVL3998

(19)

Intuitivt bevis: Som nævnt er situationen med konstant bortfaldssandsynlighed
analog til simpel tilfældig udvælgelse i den traditionelle model.
For givet n::: har vi derfor ifølge sætning 1 og 2:


DIVL4004

DIVL4006

og dermed


DIVL4010

4 (20)

Udnytter vi, at6)


DIVL4016

(21)

hvor y 1y1 ■„ = V(n*)/[E(n*))2 er den relative varians, kan (20) skrives



6) (21) forekommer ved rækkeudvikling al lix) = omkring x= E(x) og efterfølgende middelværdidannelse.

Side 237

DIVL4022

(22)

hvoraf det klart fremgår, at usikkerheden i modellen med bortfald øges, ikke blot som følge af det reducerede antal observationer, n > n(l- ), men også på grund af variationen i n:::, målt ved den relative varians Yp*-

Stratificeret tilfældig udvælgelse

Hovedkonklusionen af analysen over bortfaldets virkninger ved simpel tilfældig udvælgelse er, at anvendeligheden af den traditionelle model afhænger af, hvor homogen populationen er m.h.t. bortfaldssandsynligheden. Hvor denne forudsætning ikke er opfyldt, fører dette naturligt tanken hen på en stratifikation af populationen med henblik på dannelse af delpopulationer med (tilnærmelsesvis) konstant bortfaldssandsynlighed, hvorfra der udtages en stikprøve ved simpel tilfældig udvælgelse.

Lad populationen være opdelt i L strata, som hver karakteriseres ved

1) stratumstørrelsen N^

2) stratummiddeltallet X^

3) stratumvariansen ol

4) bortfaldssandsynligheden p som er konstant inden for et stratum,

hvor h = 1,2,...,L. Fra hvert stratum udvælges ved simpel tilfældig udvælgelse
n^ enheder, der efter bortfald reduceres til riL. Da vil xjTwXjj,
iflg. det foregående og


DIVL4057

(23)

vil dermed være en middelret estimator over populationsgennemsnittet
X =2 (NyVN)-Xy. Variansen på x*, er givet ved

Side 238

DIVL4063

(24)

jf. (22). Af (24) ses, at stratifikationen bør ske således at strata er homogene, hvad angår det kendetegn, der ønskes undersøgt. Da homogenitet med hensyn til bortfald inden for et stratum er forudsætningen for modellen, kan der opstå problemer, hvis disse to kriterier er konkurrerende. Da må stratifikationen ske ved en afvejning mellem homogenitet m.h.t. kendetegnet og bevarelse af den simple statistiske model. Det er åbenbart, at en sådan afvejning vil være uhyre vanskelig at gennemføre i praksis.

Som det også fremgår af (24) afhænger usikkerheden på skønnet tillige af stikprøvens fordeling på strata. Dette problem skal nu drøftes nøjere. Fordelingen på strata af en given stikprøve n i den traditionelle model siges at være optimal, hvis variansen V(x m. ) minimeres under bibetingelsenEn. =n. Det kan vises7), at løsningen resulterer i fordelingen


DIVL4071

(25)

I modellen med bortfald kan det tilsvarende problem formuleres med
udgangspunkt i (24) og løsningen bestemmes efter samme principper
som i den traditionelle model. Antager vi for simpelheds skyld, at den
relative varians er konstant over strata,v2:- —y2, kan det vises, at
, rnh


DIVL4077

(26)



7) Jensen (1974), p. 124

Side 239

giver den optimale fordeling al: den planlagte stikprøve på strata i modellen med bortfald. Det ses, at jo større bortfaldssandsynligheden pj^ er, desto større andel af stikprøven skal udtages fra stratum h, men da Ph °Ptræ der under kvadratrodstegn, skal forskellene mellem sjl være store, før det giver væsentlige udslag i stikprøvens fordeling8).

Korrektion for bortfald

I den nævnte artikel af Flemming Hansen diskuteres forskellige metoder til opvejning med det primære formål at korrigere for bortfaldet. Den sammenhæng, som herved tilsyneladende etableres mellem bortfaldsproblemet og behovet for opvejning, er uheldig. Vejning er påkrævet, når den udtagne stikprøve ikke er repræsentativ for populationen med hensyn til karakteristika, som har eller antages at have indflydelse på det kendetegn, man ønsker at undersøge. Stikprøvens information om kendetegnet, er betinget af disse karakteristika, og for at kunne skønne over kendetegnets udbredelse i hele populationen må man veje med vægte, som er bestemt af de relative stratumstørrelser, Nl/N. Dette gælder uafhængigt af den måde, hvorpå stikprøven er udvalgt og uanset omfanget af bortfald. Med kendskab til vægtene Njj fN repræsenterer denne vejning ikke noget statistisk problem. Er vægtene ikke kendte, kan der være tale om at stratificere den udtagne stikprøve, hvis m.!7n* *» Nl fN, og da indføres endnu en kilde til usikkerhed i den statistiske inferens.

Bortfaldet som statistisk problem bør i princippet inddrages allerede ved tilrettelæggelsen af undersøgelsen. Man kan søge at udnytte information fra tidligere undersøgelser af samme art. Det er ikke utænkeligt, at bortfaldssandsynligheden afhænger af en række generelle kriterier så som alder, køn, erhverv, uddannelse m.m., som hyppigt anvendes ved stratifikation af populationen. Forskelle i bortfaldssandsynligheder mellem disse strata kan testes med anvendelse af oplysninger om det faktiske bortfald, n^- nV, i tidligere undersøgelser, som da kan indgå i den planlagte stikprøves fordeling på strata. Man antager her implicit, atpjj er konstant over individer indenfor hvert stratum.



8) Det bema'rkes, at (1-pj, ) indgår i (26) som grænseomkostningerne i en traditionel model, der optimeres under hensynlagen til en lineær omkostningsfunktions C=co +2 cLnf>' seJen" sen (1974), pp. 130-131. h-1 "

Side 240

For så vidt angår den del af bortfaldet, der skyldes ikke-trufne respondenter, er det muligt at tage hensyn til bortfaldet ved at forlade den simple tilfældige udvælgelse med 6^ = 6 og tillade 6.. at variere. Med kendskab til py kan Qy fastsættes således, at sandsynligheden for at indgå i den gennemførte stikprøve, Pr{a-y =I}= 9,, (1-p.^), er konstant. Herved opnås at den traditionelle model kan anvendes på trods af den tilfældige variation i bortfaldet. Personparameteren p^ må også her søges forklaret og estimeret ved en række generelle egenskaber ved enhederne i populationen.

Litteratur:

Hansen, Flemming: Sampling teori og anvendt statistik. Erhvervsøkonomisk Tidsskrift nt. 4,
1977.

Jensen, Niels Erik (red.): Stikprøveteori. København 1974