Historisk Tidsskrift, Bind 13. række, 3 (1976) 1

Jørgen Elklit: Folketællingen 1845. Metodiske problemer ved databehandling af et folketællingsmateriale. Forskningsrapport fra Sociologisk Afdeling, Institut for Statskundskab, Aarhus Universitet, I—II, Århus 1969.

Poul Thestrup

Side 198

Med fremkomsten af Jørgen Elklits undersøgelse af 1845-folketællingen i 1969 indførtes stikprøvemetoden i dansk historisk demografi. Fordelene ved stikprøveundersøgelser er, at de er langt mindre ressource-krævende end totalundersøgelser, og at man derfor ved at foretage en stikprøveundersøgelse, indenfor givne ressourcer, kan foretage mere dybtgåendeundersøgelser i stikprøven, end man kunne i totalmaterialet. Ulempen ved stikprøveundersøgelserligger i problemerne ved slutning fra stikprøve til helhed. Hvis stikprøvenimidlertid er udtaget ved tilfældig udvælgelse eller ligestillede metoder, kan man på grundlag af den viden, man har om stikprøver, opstille udsagn af følgende form: »I en stikprøve på 2695 personer fra 1845-folketællingen opholdt 61 % sig ved folketællingeni det sogn, hvor de var født. Dette medfører, at man med 95 % sandsynlighed kan slutte, at mellem 59,2 og 62,8 % af hele den befolkning, der optaltes ved tællingen,

Side 199

på tællingstidspunktet boede i det sogn, hvor de var født«. Ved en korrekt udtagen stikprøve kan man således beregne usikkerheden ved slutning fra stikprøve til helhed. Da Jørgen Elklit i alle tilfælde har foretaget sådanne beregninger, kan der derfor ikke rejses nogen indvending mod, at han har foretaget en stikprøveundersøgelse i stedet for en totalundersøgelse.

Undersøgelsen er en besvarelse af Aarhus Universitets prisopgave i historie for året 1968 og publiceres ifølge forordet i samme form, som den indleveredes som prisopgave, når der ses bort fra, at visse småting (fortrinsvis skrivefejl) er rettet. Hovedparten af de indvendinger, der nedenfor anføres mod undersøgelsen, lader sig formentlig forklare af dette forhold, da den tid, der gives til besvarelse af en prisopgave, ikke har givet mulighed for at udbygge undersøgelsen på alle områder. Elklits undersøgelse bærer undertitlen: »Metodiske problemer ved databehandling af et folketællingsmateriale«. De metodiske problemer er koncentreret om informationstransformationer, der er sket fra folketællingssituationen og til fremkomsten af den færdige undersøgelse. Elklit opdeler de til informationstransformationen knyttede problemer på følgende måde:

1. kildekritiske problemer ved vurdering af informationsoverførslen fra den i tællingsreglerne
definerede befolkning til det ved tællingen indsamlede optællingsmateriale;

2. kildekritiske problemer ved overgang fra det indsamlede til det bevarede tællingsmateriale;

3. stikprøveproblemer ved overgang fra det bevarede materiale til den udtagne stikprøve;

4. problemer i forbindelse med registrering af data på det databærende medium ved
overgangen fra stikprøve til det databærende medium;

5. matematisk-statistiske problemer ved rekonstruktion af den historiske virkelighed
på grundlag af oplysningerne på det databærende medium.

Uden at anmelderen i detaljer kan tilslutte sig forfatterens formulering af de nævnte
5 problemer, vil denne opdeling blive fulgt i det følgende.

Med hensyn til eventuelle forskelle mellem den i tællingsreglerne definerede befolknings antal og karakteristika og de på det indsamlede materiale registrerede personers antal og karakteristika påviser Elklit først, at man ved at følge 5-års kohorter fra tælling til tælling 1840, 1845 og 1850 kan se, at der formentlig er fejl i én eller flere af tællingerne. F. eks. viser det sig, at mens der i 1840 var 48.673 mænd i aldersgruppen 25-30 år, var der i 1845 44.566 i aldersgruppen 30-35 år og i 1850 45.448 i aldersgruppen 35-40 år. Det er ikke muligt for forfatteren at forklare denne udvikling, der kun vil være mulig ved ret usædvanlige dødeligheds- og vandringsforhold, på anden måde end ved fejl i en eller flere af tællingerne. Metoden afslører imidlertid ikke ved hvilken/hvilke af tællingerne fejlen er sket. For at få en kontrol af specielt 1845-tællingen undersøger forfatteren derfor registreringen af 0-årige, da det er en ofte gjort erfaring, at specielt denne gruppe ved dårlige tællinger underregistreres i betydeligt omfang. Kontrollen bygger på en antagelse om, at fødsels- og dødsregistreringen i denne aldersgruppe var fuldstændig. Under denne forudsætning når forfatteren frem til, at der ikke kan konstateres nogen underregistrering af 0-årige ved 1845-tællingen.

Elkilts undersøgelse af kvaliteten af aldersangivelserne ved 1845-tællingen indbyder
til nogen kritik. Der opstilles følgende fordeling for rigtigheden af aldersangivelserne for
291 personer fra stikprøven:


DIVL2892
Side 200

DIVL2892

Når der er flere, der har opgivet 1 år for lidt end 1 år for meget, forklarer Elklit det rimeligt ved henvisning til tællingsreglerne, der forlangte, at personers løbende aldersår skulle opgives i stedet for det fyldte. I en befolkning, der hovedsageligt regnede med fyldte aldersår, er det derfor naturligt, at der forekommer forholdsvis flere, der angiver alderen et år for lavt end et år for højt. De 291 tilfælde er imidlertid ikke nogen tilfældig stikprøve, idet tallene er fremkommet som biprodukt af en undersøgelse af personer, hvis familiemæssige relationer til de øvrige medlemmer af husstanden, Elkilt ønskede at fastslå. Det fremgår andetsteds af fremstillingen, at Elklit ved eftersøgningen af fødslerne for disse personer har eftersøgt dåbslisterne »et par år omkring det angivne fødselsår«. Hvis personen ikke er fundet på denne måde, antager Elklit, at de angivne fødesogn har været forkert. På denne måde findes kun 291 af 354 eftersøgte personer. På baggrund heraf kan det derfor ikke undre synderligt, at Elklit ikke finder personer, hvis alder er angivet mere end 3 år galt, og kun få, hvis alder er angivet 3 år galt. Generelt er det anmelderens opfattelse, at Elklits kontrol af fuldstændigheden og kvaliteten af oplysningerne i 1845-tællingen kunne have været udført betydeligt bedre ved en mere systematisk inddragelse af kirkebogsdata, men det må naturligvis medgives, at det ville have medført, at det var blevet en betydeligt mere ressource-krævende undersøgelse.

Når en stikprøve udtages på korrekt vis, er det, som ovenfor nævnt, muligt at beregne usikkerheden ved slutning fra stikprøven til den helhed, som stikprøven er udtaget af. At der opstår problemer, hvis den helhed, som stikprøven er udtaget af, ikke er identisk med den population, hvis forhold man ønsker at undersøge, er klart. Det forekommer imidlertid, at Elklit for 1845-tællingen overdimensionerer dette problem. Det viste sig, at folketællingslisterne i Rigsarkivet manglede for 6 landsogne. For 2 af sognene lykkedes det Elklit at finde listerne bevaret andetsteds. Listerne for de resterende fire sogne lod sig imidlertid ikke finde. Det herved opståede problem behandler Elklit gentagne gange i fremstillingen. Det synes imidlertid at være til at bære, at de fundne resultater ikke lader sig generalisere til hele kongeriget med den beregnede usikkerhed, men til kongeriget excl. 4 nærmere angivne landsogne. De fleste vil nok være ret overbeviste om, at forholdene i de sidste fire sogne ikke har været væsentligt forskellige fra forholdene i resten af landsognene.

Den stikprøve, som beregningerne i undersøgelsen hviler på, er ikke udtaget som en simpel tilfældig stikprøve, da det ville have krævet en nummerering af udtagelsesenhederne(personer eller familier) og derefter udvælgelse efter en tabel efter tilfældige tal. Dette var uoverkommeligt på grund af materialets størrelse. Udvælgelse af en systematiskstikprøve af familier måtte også opgives, da de enkelte familier ikke altid var klart afgrænsede på tællingsskemaerne. I stedet valgtes en systematisk 0,2 % stikprøve af personer udtaget ved aftælling. I praksis foregik udtagelsen ved, at der udvalgtes to tilfældige tal under 1000, og at der for de fire grupper, som tællingsskemaerne er opdelt i på Rigsarkivet, ved aftælling forfra udvalgtes de personer, der havde to udvalgtenumre, samt derefter hver tusinde person. Til brug for undersøgelserne af husstandsstrukturinddroges de husstande, som de udvalgte personer var medlem af. Dette medfører ganske vist, at en husstands chance for at komme med i stikprøven stiger ligefremtproportionalt

Side 201

fremtproportionaltmed antallet af medlemmer i husstanden, men det er ret let at kompensere herfor. Da der ikke er nogen grund til at tro, at der forekommer nogen periodicitet med frekvensen 1000, kan der ikke indvendes noget imod, at denne systematiskestikprøve i resten af fremstillingen af forfatteren udnyttes efter de regler, der gælder for tilfældige stikprøver. For at afkræfte en hypotese om, at stikprøven ikke skulle være repræsentativ for populationen, har forfatteren, for de forhold, som er belyst, for hele landet ved den oprindelige bearbejdelse af tællingen, foretaget en sammenligningmed forholdene i den udtagne stikprøve. Der er i ingen tilfælde fundet forskel mellem stikprøve og totalpopulation på signifikansniveau 0,01 ved chi2 -test For de forhold,som ikke er kendt på landsbasis, er stikprøven delt i to delstikprøver. Heller ikke i disse tilfælde finder forfatteren signifikant forskel på niveau 0,01.

Derimod viser Elklits beregninger, at usikkerheden på grund af stikprøvens ringe størrelse bliver uacceptabel stor, hvis man i for høj grad opdeler stikprøven. Dette medfører i hvert fald i et tilfælde, at det ikke er muligt for Elklit, at opdele materialet på undergrupper i fornødent omfang. Resultatet bliver en besynderlig konklusion, idet Elklit på side 225 efter at have inddelt landet i 5 områder (Jyllands landdistrikter, Jyllands købstæder, Øernes landdistrikter, Øernes købstæder og Hovedstaden) og konstateret, at indvandrede til købstæder i Jylland fortrinsvis kom fra Jyllands landdistrikter og indvandrede til Øernes købstæder og København fortrinsvis kom fra Øernes landdistrikter, konkluderer »at Lillebælt i denne periode må have udgjort en overordentlig vigtig skillelinie med hensyn til de indre vandringers retning«. Forfatteren synes her ikke at have tænkt på, at de resultater, der fremkommer ved denne inddeling ligesåvel kunne skyldes, at folk fortrinsvis indvaudiede til nærmeste købstad. Det væsentlige er imidlertid, at det er den meget grove inddeling, der har forledt Elklit til ovenstående konklusion. Elklit må da også få linier længere fremme i teksten indrømme, at resultaterne af kodningen af fødestedets afstand fra tællingsstedet viser »at der heller ikke mellem de enkelte øer har været vandringer i væsentligt større omfang end mellem Jylland og alle øer under et«. Hvad bliver der da tilbage af Lillebælt som den vigtigste skillelinie i vandringsmønsteret?

Afsnittet om dataregistreringen på det databærende medium (dvs. kodning og hulning)er yderst detaljeret, til tider for detaljeret. Således synes det f. eks. ikke strengt nødvendigt, at forfatteren forklarer, hvor mange millimeter et hulkort er på hver led. Det er i øvrigt karakteristisk for undersøgelsen, at dataregistreringen i meget høj grad har været målrettet. Dette hænger formentlig sammen med den relativt simple databehandlingsform,der er anvendt ved undersøgelsen. Da der udelukkende er anvendt hulkortsorteringsmaskinerog ikke nogen form for elektronisk databehandling, har det været en fordel at holde antallet af oplysninger om de udvalgte personer og den husstand, de tilhørte, indenfor ét hulkorts 80 kolonner. I dag ville man ikke have valgt en sådan bearbejdelsesform, og man ville derfor formentlig i højere grad have indlæst oplysningernei übearbejdet form. Dette ville have givet en højere grad af fleksibilitet under undersøgelsen. Når Elklit f. eks. ikke angiver de udvalgte personers alder på hulkortene, men allerede ved kodningen opdeler aldrene i 12 grupper, er muligheden for i undersøgelsenat operere med absolutte aldre naturligvis ikke til stede. Fordelen for Elklit ved at bruge 12 aldersgrupper i stedet for selve aldrene er, at aldersoplysningerne så kun fylder én kolonne på hulkortet. Det må dog fremhæves, at forfatteren i afsnittet om kodning af erhverv og stilling i erhverv kommer ind på mange fundamentale problemer ved behandling af ældre folketællingslisters erhvervsoplysninger, og at eksistensen af disse problemer er uafhængig af, om man som Elklit gruppeinddeler og indhuller gruppebetegnelserne,eller bruger den anden mulighed: at indskrive erhvervs- og stillingsbetegnelseri

Side 202

nelseriklart sprog for derefter under bearbejdelsen at inddele i grupper efter erhverv
og stilling i erhverv.

Elklit uddrager fra stikprøven på to områder oplysninger, som ikke er fremkommet ved den samtidige bearbejdelse af tællingsskemaerne. Det drejer sig om vandringsmønsteret og husstandsstrukturen. Ved undersøgelsen af vandringsstrukturen indfører Elklit begrebet »nabosogne«, dvs. de sogne, som grænser op til tællingssognet, og påviser, at af den mindre betydelige del af befolkningen på landet, som ikke er født i tællingssognet, kommer en væsentlig del fra nabosogene. Nettovandringerne var altså normalt korte. Hovedanken mod en vandringsundersøgelse på grundlag af folketællingslisters fødestedsoplysninger bliver dog, hvad Elklit er helt klar over, at man kun får oplysning om nettovandringen fra fødsel til folketælling, men ingen oplysning om, hvorvidt der har været tale om direkte vandring eller etapevandring. På samme måde kan man ved personer, der optælles i deres fødesogn, ikke se, om de har boet andre steder i mellemtiden. I undersøgelsen af de private husstandes struktur ligger hovedparten af den konkrete ny viden, der kan hentes fra Elklits undersøgelse. Undersøgelsen viser, at husstandenes gennemsnitsstørrelse var langt større i 1845 end i 1960, men også, at mere end af befolkningen i 1845 boede i husstande, hvor der kun forekom 2 generationer i husstandsoverhovedets familie. Kun 10 % af befolkningen levede i 3-generations-husstande, og teorien om, at 3-generations-husstanden var den almindelige livsform i det præ-industrielle danske samfund, må derfor forkastes.

Generelt må det siges, at de punkter, hvor der er væsentlig viden at hente hos Elklit, ikke er databehandlingen, der er foretaget efter den i 1890 fremkomne teknologi,1 men med hensyn til stikprøvetagning og genbearbejdning af folketællingslisternes erhvervs- og husstandsstruktur-oplysninger.