Ledelse og Erhvervsøkonomi/Handelsvidenskabeligt Tidsskrift/Erhvervsøkonomisk Tidsskrift, Bind 44 (1980) 1Bortfaldsproblemet i stikprøveundersøgelserCarsten Stig Poulsen *) Side 227
Indledninglen artikel i dette tidsskrift1) rejser Flemming Hansen spørgsmålet om den eksisterende statistiske teoris praktiske anvendelighed på stikprøveundersøgelser af populationer, der består af personer, grupper af personer m.v. Udover den usikkerhed, som følger af, at det kun er en del af populationen, der undersøges, optræder der her tillige kilder til fejl i form af målefejl og bortfald (non-response), som stort set ikke indgår i de teoretisk-statistiske modeller. Det er hensigten i det følgende at opstille en formel model, som kan belyse nogle sider af bortfaldsproblemets betydning for statistisk inferens. De spørgsmål, som primært behandles er: Hvilken indflydelse har bortfaldet på egenskaberne hos de estimatorer, som traditionelt anvendes i stikprøveundersøgelser, og hvorledes kan undersøgelserne tilrettelægges under hensyntagen til bortfaldet. Fremstillingen
prætenderer ikke at være fuldt dækkende, men
repræsenterer *) Cand. unkt, AUC. 1) Nr. 4/1977. Side 228
Bortfaldet som problemVed bortfald vil vi i det følgende forstå manglende information om nogle af de analyseenheder, som var planlagt at skulle indgå i undersøgelsen. Denne fejlkilde knytter sig ikke specielt til stikprøveundersøgelser, men kan lige såvel optræde ved totaltællinger. Bortfaldet som problem forstærkes i det omfang de bortfaldne analyseenheder adskiller sig væsentligt fra resten af stikprøven med hensyn til det undersøgte kendetegn. Da vil de skøn over forholdene i populationen, som bygger på den gennemførte stikprøve, nødvendigvis blive fejlagtige. I forbindelse med interviewundersøgelser kan der sondres mellem to hovedtyper af bortfald: respondenter, som ikke træffes og nægtere. De to typer af bortfald adskiller sig på en række punkter. Man vil således ved genbesøg være i stand til at nedbringe antallet af ikke-trufne respondenter, mens det er mere krævende at overtale folk med nægter-indstilling til at deltage i undersøgelsen. Forudsætningen om, at bortfaldet ikke afviger væsentligt fra resten af populationen kan også være mere hasaderet i forbindelse med nægtergruppen end for gruppen af ikke-trufne. Endelig skal man være opmærksom på en mulig sammenhæng mellem formålet med undersøgelsen og tilbøjeligheden til bortfald. Hvis man f.eks. udtager en stikprøve med henblik på en vurdering af antallet af sortseere, er det ikke utænkeligt, at nægterprocenten blandt sortseerne er større end blandt licensbetalere. (En anden mulig fejlkilde er her målefejl i form af urigtige oplysninger). Vi skal overalt i
det følgende antage, at bortfaldet er uden sammenhæng
En statistisk model med bortfaldProblemstillingen
i en model med bortfald sammenlignet med traditionel
Side 229
![]() Fig. 1. Grundlaget i den traditionelle model er en stikprøve, som er udtaget tilfældigt, d.v.s. sandsynligheden for, at en vilkårlig enhed i populationen indgår i stikprøven er kendt - men ikke nødvendigvis den samme for alle enheder. Derved etableres en sandsynlighedsteoretisk sammenhæng mellem kendetegn i populationen og observerede kendetegn i stikprøven, som danner grundlag for statistisk inferens med angivelse af den dertil knyttede usikkerhed. Udarbejdelsen af en stikprøveplan bygger på et effektivitetskriterium: For et givet økonomisk budget søges stikprøveusikkerheden minimeret eller - omvendt - en given usikkerhed ønskes opnået ved de lavest mulige omkostninger. I den mere generelle model med bortfald reduceres den planlagte stikprøve, som følge af non-response hos nogle af de udvalgte enheder. Stikprøven omfatter kun n* enheder i stedet for de planlagte n, et bortfald på n-n*. Problemet er nu, i hvilket omfang inferens reglerne fra den traditionelle model kan anvendes i dette mere generelle tilfælde. Side 230
I den model, der
opstilles for at belyse dette spørgsmål, anvendes
følgende X : Vaerdien af
kendetegnet for y'te enhed i populationen, x. : Vaerdien af
kendetegnet for i'te enhed i den planlagte stikprove,
X.*: Vaerdien af
kendetegnet for j'te enhed i den realiserede stik- 0 :
Sandsynligheden for, at v'te enhed i populationen
udtages til P :
Sandsynligheden for, at v'te enhed i populationen ikke
indgar i Vi antager, at
formalet med stikproven er at estimere middeltallet i
![]() (1) Simpel tilfældig udvælgelseDet forudsættes,
at den planlagte stikprøve udtages ved simpel tilfældig
![]() (2) Da gælder
følgende sætning i den traditionelle model: Sætning 1:
Middeltallet i stikprøven ![]() (3) er en middelret estimator over
middeltallet i populationen X. Side 231
Bevis: Lad
indikatorvariablen a vaere defineret ved ![]() (4) Da kan
estimatoren x skrives ![]() (5) Den forventede
værdi af x, E (x), kan findes: ![]() (6) Idet ![]() A si S " ![]() Uden bevis2)
anføres. Sætning 2:
Den teoretiske varians på estimatoren x er givet ved
![]() (7) hvor ![]() (8) er variansen i
populationen. 2) Et bevis kan l'.cks. lindes hos Jensen (1974). Side 232
For N -»• qd
fremkommer den velkendte formel for variansen på
middeltallet I modellen med
bortfald skal vi nu betragte ![]() (9) d.v.s.
middeltallet i den gennemforte stikprove som estimator
for X. ![]() (10) Her er
fordelingen af (X imidlertid ændret. Vi antager, at
sandsynligheden ![]() (11) d.v.s. som produktet af sandsynligheden for at blive udtaget til den planlagte stikprove og tilbojeligheden (sandsynligheden) for at indga i den realiserede stikprove. Man forestiller sigaltsa, at populationen ikke blot er karakteriseret ved kendetegnet X^, men ogsa ved bortfaldstilbojelighederne p .En enhed bestar af et talpar (Xy ,pv ), som ved udtra'kning repraesenteres ved (xj, p.). x- vil da indga i den realiserede stikprove med sandsynligheden 1-p •. Mens 9^, alene
afhænger af den valgte stikprøveplan, er p . i vidt
omfang For p^ = o
fremkommer den traditionelle model som et
specialtilfælde. Vi skal nu vise
følgende: Sætning 1*:
Middeltallet x::: i den realiserede stikprøve er som
hovedregel Side 233
Bevis: Med
oty defineret ved (4) kan antallet af enheder n* i den
gennemførte ![]() d.v.s. n* er en
stokastisk variabel. Den forventede værdi af x* er givet
![]() (12) x* vil derfor kun
va!re middelret, såfremt ![]() ![]() (13) 4 hvilket ikke kan
antages at gælde i almindelighed. Vi skal nu
undersøge (13) i nogle specialtilfælde. Hvis n* er
rimelig ![]() Anvendelse af
(11) giver ![]() og dermed kan
betingelsen (13) skrives ![]() (14) Introduceres nu
mere formelt antagelsen om uafhængighed mellem
bortfaldssandsynlighed Side 234
![]() ![]() som indsat i (14)
giver ![]() (15) Da l fn* er en
konveks funktion af n* gælder det ifølge Jensens
ulighed, ![]() Vi har tillige
![]() og dermed
![]() Selv når n::: er
stor gælder sætning 1* stadig. Variationen i det
gennemførte Vi ser dernæst på
en vigtig undtagelse fra hovedreglen i sætning 1 *:
Korollar 1*:
Såfremt bortfaldssandsynligheden p^ er konstant, py =p
Bevis: Når
p^, = p, er Pr| ct^ = 1} = S-( 1-p ) konstant, uafhængig
af v• Side 235
givet ved en
binomialfordeling med antalsparameteren N og
sandsynlighedsparameteren2-11 ![]() (16) hvor E( av|n*)
betegner den betingede middelværdi afa^. , givet
![]() (17) ![]() og dermed
![]() < En intuitiv
forklaring på dette resultat er: Når bortfaldssandsynligheden er konstant over enhederne i populationen er den »mekanisme«, som udvælger enheder fra den planlagte til den realiserede stikprøve helt analog med udvalgsproceduren fra populationen til den planlagte stikprøve. Usikkerheden på
skønnet x* skal nu vurderes. Som det kunne forventes
Sætning 2*:
Bortfald bevirker en forøgelse af usikkerheden, målt ved
Delvist
bevis: Variansen på x*, V(x*), kan skrives5)
![]() (18) For givet n* vil E(x*|n*) i det generelle tilfselde med pv forskellig afvige fra X og aihaenge af n*. Derfor er andet led i (18) positivt. Ligeledes vil den betingede varians V(x*|n*) vaere storre end variansen i den traditionelle model med samme stikprovestorrelse: 3) For produktet at to stokastiske variable X og Y gælder det, at E(XY) = E(XE(Y|X)) = E(YE(X|Y)), se f.eks. Jensen (1974), p. 55. 4) Den betingede sandsynlighed for, at et vilkårligt binomiallovs forsøg i en forsøgsrække på N er »gunstigt«, givet n* »gunstige« ialt, er n'VN, uafhængigt af den marginale sandsynlighed for »gunstigt« udfald i et forsøg. 5) se f.eks. Jensen (1974), p. 59. Side 236
![]() ![]() ![]() ![]() Specialtilfældet
med pv =p giver følgende Korollar 2*:
Såfremt bortfaldssandsynligheden pv er konstant, py =«
![]() (19) Intuitivt
bevis: Som nævnt er situationen med konstant
bortfaldssandsynlighed ![]() ![]() og dermed
![]() 4 (20) Udnytter vi, at6)
![]() (21) hvor y 1y1 ■ =
V(n*)/[E(n*))2 er den relative varians, kan (20) skrives
6) (21) forekommer ved rækkeudvikling al lix) = omkring x= E(x) og efterfølgende middelværdidannelse. Side 237
![]() (22) hvoraf det klart fremgår, at usikkerheden i modellen med bortfald øges, ikke blot som følge af det reducerede antal observationer, n > n(l- ), men også på grund af variationen i n:::, målt ved den relative varians Yp*- Stratificeret tilfældig udvælgelseHovedkonklusionen af analysen over bortfaldets virkninger ved simpel tilfældig udvælgelse er, at anvendeligheden af den traditionelle model afhænger af, hvor homogen populationen er m.h.t. bortfaldssandsynligheden. Hvor denne forudsætning ikke er opfyldt, fører dette naturligt tanken hen på en stratifikation af populationen med henblik på dannelse af delpopulationer med (tilnærmelsesvis) konstant bortfaldssandsynlighed, hvorfra der udtages en stikprøve ved simpel tilfældig udvælgelse. Lad populationen være
opdelt i L strata, som hver karakteriseres ved 1)
stratumstørrelsen N^ 2)
stratummiddeltallet X^ 3)
stratumvariansen ol 4)
bortfaldssandsynligheden p som er konstant inden for et
stratum, hvor h =
1,2,...,L. Fra hvert stratum udvælges ved simpel
tilfældig udvælgelse ![]() (23) vil dermed være
en middelret estimator over populationsgennemsnittet
Side 238
![]() (24) jf. (22). Af (24) ses, at stratifikationen bør ske således at strata er homogene, hvad angår det kendetegn, der ønskes undersøgt. Da homogenitet med hensyn til bortfald inden for et stratum er forudsætningen for modellen, kan der opstå problemer, hvis disse to kriterier er konkurrerende. Da må stratifikationen ske ved en afvejning mellem homogenitet m.h.t. kendetegnet og bevarelse af den simple statistiske model. Det er åbenbart, at en sådan afvejning vil være uhyre vanskelig at gennemføre i praksis. Som det også fremgår af (24) afhænger usikkerheden på skønnet tillige af stikprøvens fordeling på strata. Dette problem skal nu drøftes nøjere. Fordelingen på strata af en given stikprøve n i den traditionelle model siges at være optimal, hvis variansen V(x m. ) minimeres under bibetingelsenEn. =n. Det kan vises7), at løsningen resulterer i fordelingen ![]() (25) I modellen med
bortfald kan det tilsvarende problem formuleres med
![]() (26) 7) Jensen (1974), p. 124 Side 239
giver den optimale fordeling al: den planlagte stikprøve på strata i modellen med bortfald. Det ses, at jo større bortfaldssandsynligheden pj^ er, desto større andel af stikprøven skal udtages fra stratum h, men da Ph °Ptræ der under kvadratrodstegn, skal forskellene mellem sjl være store, før det giver væsentlige udslag i stikprøvens fordeling8). Korrektion for bortfaldI den nævnte artikel af Flemming Hansen diskuteres forskellige metoder til opvejning med det primære formål at korrigere for bortfaldet. Den sammenhæng, som herved tilsyneladende etableres mellem bortfaldsproblemet og behovet for opvejning, er uheldig. Vejning er påkrævet, når den udtagne stikprøve ikke er repræsentativ for populationen med hensyn til karakteristika, som har eller antages at have indflydelse på det kendetegn, man ønsker at undersøge. Stikprøvens information om kendetegnet, er betinget af disse karakteristika, og for at kunne skønne over kendetegnets udbredelse i hele populationen må man veje med vægte, som er bestemt af de relative stratumstørrelser, Nl/N. Dette gælder uafhængigt af den måde, hvorpå stikprøven er udvalgt og uanset omfanget af bortfald. Med kendskab til vægtene Njj fN repræsenterer denne vejning ikke noget statistisk problem. Er vægtene ikke kendte, kan der være tale om at stratificere den udtagne stikprøve, hvis m.!7n* *» Nl fN, og da indføres endnu en kilde til usikkerhed i den statistiske inferens. Bortfaldet som statistisk problem bør i princippet inddrages allerede ved tilrettelæggelsen af undersøgelsen. Man kan søge at udnytte information fra tidligere undersøgelser af samme art. Det er ikke utænkeligt, at bortfaldssandsynligheden afhænger af en række generelle kriterier så som alder, køn, erhverv, uddannelse m.m., som hyppigt anvendes ved stratifikation af populationen. Forskelle i bortfaldssandsynligheder mellem disse strata kan testes med anvendelse af oplysninger om det faktiske bortfald, n^- nV, i tidligere undersøgelser, som da kan indgå i den planlagte stikprøves fordeling på strata. Man antager her implicit, atpjj er konstant over individer indenfor hvert stratum. 8) Det bema'rkes, at (1-pj, ) indgår i (26) som grænseomkostningerne i en traditionel model, der optimeres under hensynlagen til en lineær omkostningsfunktions C=co +2 cLnf>' seJen" sen (1974), pp. 130-131. h-1 " Side 240
For så vidt angår den del af bortfaldet, der skyldes ikke-trufne respondenter, er det muligt at tage hensyn til bortfaldet ved at forlade den simple tilfældige udvælgelse med 6^ = 6 og tillade 6.. at variere. Med kendskab til py kan Qy fastsættes således, at sandsynligheden for at indgå i den gennemførte stikprøve, Pr{a-y =I}= 9,, (1-p.^), er konstant. Herved opnås at den traditionelle model kan anvendes på trods af den tilfældige variation i bortfaldet. Personparameteren p^ må også her søges forklaret og estimeret ved en række generelle egenskaber ved enhederne i populationen. Litteratur:Hansen, Flemming:
Sampling teori og anvendt statistik. Erhvervsøkonomisk
Tidsskrift nt. 4, Jensen, Niels
Erik (red.): Stikprøveteori. København 1974
|