Nationaløkonomisk Tidsskrift, Bind 122 (1984)

Analyse af konjunkturbarometret for industrien

Institut for Produktion, Aalborg Universitetscenter

Carsten Stig Poulsen

Resumé

summary: The article proposes a general methodology, viz. latent structure analysis, for analyzing the business cycle, using qualitative indicators of the IFO Institute-type. As a special case the latent class model is applied to Danish data and demonstrated to provide useful insights into the structural relation between the indicators and an effective summary of an otherwise complex data set.

Indledning

Som en del af konjunkturstatistikken udarbejder Danmarks Statistik det såkaldte »Konjunkturbarometer for industrien.« Undersøgelsen foretages kvartalsvist og bygger på konjunkturbedømmelser fra ledelserne af ca. 650 større industrivirksomheder, tilsammen repræsenterer ca. 60% af beskæftigelsen i industrien. Offentliggørelse finder sted efter 3-4 uger i Nyt fra Danmarks Statistik, senere også i Statistikservice og Statistiske Efterretninger. Endelig indgår resultaterne i publikationen Konjunkturoversigt, som produceres 4 gange årligt.

Sammenlignet med andre økonomiske tidsserier er datamaterialet for »Konjunkturbarometeret«afflere usædvanligt. For det første er der tale om en surveyundersøgelse,hvorde respondenter optræder i hver spørgerunde. Respondenterne, det vil her sige virksomhedsledelserne, siges at udgøre et panel. Almindeligvis vil stikprøveundersøgelser, således som de gennemføres af Danmarks Statistik i forbindelse med f.eks. forbrugsundersøgelserne, omfatte et nyt udvalg af respondenter fra gang til gang. Panelundersøgelser giver særlige muligheder for at belyse forskydninger over tiden. Mens gentagne stikprøver ved betragtning af den marginale fordeling på en række kriterier kun giver mulighed for vurdering af nettobevægelser, er det ved paneldata tillige muligt at analysere bruttobevægelserne. Man undersøger her den simultane fordeling af disse kriterier på to eller flere



Nærværende arbejde blev påbegyndt, mens forfatteren var seniorstipendiat ved Handelshøjskolen i Århus. Fuldmægtig Peter Dal, Danmarks Statistik, takkes for velvillig bistand i forbindelse med fremskaffelsen af de anvendte data.

Side 267

DIVL5673

Figur 1. Uddrag af spørgeskema til indsamling af oplysningerne vedrørende »Konjunkturbarometret industrien«. Note: Ved vurderingen af det faktiske forløb sammenholdes indeværende kvartal med forrige kvartal. Tilsvarende vurderes det forventede forløb i forhold til indeværende kvartal.

tidspunkter og afdækker derved, hvorledes nettoforskydningerne er fremkommet som resultatet af en række individuelle skift.1 For det andet er karakteren af de stillede spørgsmål bemærkelsesværdig. Figur 1 gengiver et uddrag af det anvendte spørgeskema. Det fremgår heraf, at virksomhederne dels bedes vurdere den forløbne



1. Et velkendt eksempel til illustration af forskellen mellem brutto- og nettoforskydninger vil være de politiske »indeks«, som jævnligt udarbejdes af flere analyseinstitutter. Disse består typisk af en opgørelse af vælgertilslutningen til de enkelte partier, målt marginalt. Ved sammenligning med forrige »indeks« eller med stemmefordelingen ved sidste folketingsvalg kan eventuelle ændringer noteres. Der er her tale om nettoforskydninger, idet man ikke kan afgøre, hvorledes disse er sammensat, dvs. hvor en tilgang til et parti kommer fra, og hvor en afgang går hen. For at måle dette må de samme vælgere indgå i de to undersøgelser, som sammenholdes, altså udgøre et panel. (Man prøver undertiden at omgå dette krav ved at spørge om stemmeafgivningen ved forrige valg, men denne tekniks anvendelighed er klart begrænset).

Side 268

DIVL5676

Tabel 1. Konjunkturbarometer for industri: Faktisk forløb i januar kvartal 1981 i forhold til oktober kvartal 1980 sammenholdt med det forventede forløb (tallene i parentes).

Side 269

udvikling på en række områder i forhold til forrige kvartal samt forventningerne til næste kvartal, og dels angive, hvorledes en række størrelser af statusmæssig art forholder sig til det »normale« eller »tilstrækkelige« niveau. Det er karakteristisk for de stillede spørgsmål, at de kræver svar, der er udtrykt i kvalitative termer, f.eks. »større«, »uændret« og »mindre« eller »mere end tilstrækkelig«, »tilstrækkelig« og »mindre end tilstrækkelig«.

Denne forenklede spørgeform, som bygger på en metode, udviklet af det tyske IFO-institut, er bevidst valgt af hensyn til mulighederne for en hurtig svarafgivning. På den anden side må det erkendes, at metoden indebærer en del måleusikkerhed samt, at målingernes sensitivitet er reduceret i forhold til oplysninger af kvantitativ art.

»Konjunkturbarometeret« offentliggøres på en form, der afspejler datamaterialets kvalitative karakter. Tabel 1 viser et typisk eksempel vedrørende det faktiske og det forventede udviklingsforløb for produktion, beskæftigelse, ordreindgang, løbende investeringer og ændringer i investeringsplaner. Den viser svarfordelingen på de tre svarkategorier »mindre«, »uændret« og »større« for de 5 spørgsmål. Der er forinden foretaget en vægtning af virksomhederne i forhold til deres andel af den samlede beskæftigelse i industrien. Desuden er der sket en opdeling efter arten af den frembragte produktion. Tabellen skal derfor læses således, at der eksempelvis var virksomheder, repræsenterende 44% af de beskæftigede inden for investeringsgodeindustrien, vurderede produktionen som »mindre« i det pågældende kvartal i forhold til foregående kvartal.2 Tilsvarende tabeller publiceres, opdelt på 29 industrigrupper og på amtskommuner.

Som »Konjunkturbarometeret« fremtræder, er det klart, at dets anvendelse må knytte sig til svarfordelingen på de enkelte spørgsmål, taget hver for sig. Der er derimod ingen mulighed for at vurdere fordelingen på to eller flere spørgsmål samtidigt med henblik på en analyse af deres eventuelle sammenhæng. Dette er beklageligt, fordi almindelig økonomisk indsigt tilsiger, at sådanne sammenhænge vil kunne forventes. De fire spørgsmål i fig. 1 om udviklingsforløbet for et kvartal vil således alle afspejle nogle generelle træk ved den (faktiske eller forventede) økonomiske udvikling. Det er netop denne egenskab, som er baggrund for deres anvendelse i barometeret som konjunktur indikator er.

Dernæst bemærkes det, at datamaterialets karakter af paneldata ikke udnyttes med
den valgte publiceringsform. Et interessant aspekt ved materialet vil være graden af
overensstemmelse mellem virksomhedernes konjunkturforventninger og den faktiske



2. Som anført på skemaet i fig. 1 bliver virksomhederne bedt om at se bort fra eventuelle sæsonmæssige svingninger.

Side 270

udvikling, men en vurdering heraf alene på grundlag af nettoforskydninger (de marginale fordelinger) som i tabel 1 vil som tidligere nævnt kun give et ufuldstændigt billede af de bruttobevægelser, som kan have fundet sted. En analyse heraf kræver kendskab til de simultane fordelinger af spørgsmålene vedrørende den faktiske og forventede udvikling, og dette forudsætter udnyttelse af materialets panelegenskaber.

Det synes at være en almindelig opfattelse blandt økonomer og andre brugere af »Konjunkturbarometeret«, at de indsamlede oplysninger med deres særegne karakter først og fremmest er anvendelige i konjunkturbedømmelsen i kraft af deres aktualitet, men i mindre grad egner sig til egentlige systematiske analyser.3 Den mest omfattende undersøgelse af danske konjunkturdata af den foreliggende type er Munksgårds afhandling (Munksgård, 1974), som bygger på et materiale fra perioden 1956-59 vedrørende tekstilbranchen. Inden for rammerne af en driftsøkonomisk model formuleres og afprøves en række hypoteser om dataenes egenskaber og anvendelighed som led i en »konjunkturtest«. Afhandlingen bærer i nogen grad præg af at være pionerarbejde, og det må erkendes, at datagrundlaget i nogle sammenhænge er ganske spinkelt, og at de anvendte statistiske metoder (derfor) er elementære.

Denne artikel, som er et uddrag af et større arbejde,4 har til formål at demonstrere anvendelse af en egentlig statistisk model, den såkaldte latente klasse (LK) model, ved analyse af data fra »Konjunkturbarometret«.5 Når denne model er fundet velegnet, skyldes det hovedsageligt følgende forhold:

(1) den er formuleret med henblik på kvalitative data, hvorved vi vil forstå svar af
den kategoriske type, enten uden ordning (Ja/neJ> mand/kvinde etc.) eller med
ordning (større/uændret/mindre, i høj grad/i ringe grad etc).;

(2) den tager udgangspunkt i sammenhængen mellem de enkelte spørgsmål, som
opfattes som indikatorer for en bagvedliggende, generel konjunkturvariabel, hvis
karakter det er et af modeilens formål at afdække;

(3) sammenhængen mellem indikatorer og bagvedliggende variable opfattes som
probabilistisk;

(4) den tillader en statistisk tilfredsstillende estimation og afprøvning, herunder tests
af hypoteser vedrørende modellens parametre;

(5) den er relativ simpel at fortolke.



3. Jf. Skak-Nielsens formulering i J. Hansen (red.): »Industrivirksomhedens Konjunkturvarslingssystem«, udg. Industrirådet 1976.

4. Nogle mere omfattende analyser foreligger i form af en række arbejdspapirer. De kan rekvireres ved henvendelse til forfatteren.

5. Efter færdiggørelse af denne artikel har forfatteren fået kendskab til arbejdet Flaig (1983), som tager det tilsvarende udgangspunkt i tyske data.

Side 271

Vi skal i næste afsnit give en kort fremstilling af det begrebsmæssige grundlag for latent strukturanalyse. Dernæst vil de statistiske inferensproblemer i LK-modellen blive behandlet, hvorefter modellen illustreres på data vedrørende et enkelt kvartal. Vi har valgt at belyse den faktiske udvikling i 1. kvartal 1981 på grundlag af tre af de i fig. 1 indeholdte konjunkturindikatorer.

Det begrebsmæssige grundlag for latent strukturanalyse

LK-modellen er et specialtilfælde af en mere generel samling af modeller, som Lazarsfeld (1950, 1954) kaldte latent strukturanalyse, se tillige Lazarsfeld og Henry (1968) for en samlet fremstilling. Modellerne er beslægtede med den mere velkendte faktoranalyse, men adskiller sig dog på flere væsentlige punktur. Ligesom i faktoranalysen tager den latente strukturanalyse sit udgangspunkt i sondringen mellem de direkte observerbare eller manifeste observationer og de bagvedliggende eller latente faktorer, som de afspejler. De observerede variable ses som ufuldstændige indikatorer for disse faktorer, som i statistisk forstand »forklarer« sammenhængen mellem de observerede variable, dvs. hvis vi kunne kontrollere værdien af faktorerne, ville de manifeste variable være statistisk uafhængige.

Formålet med modellerne er at afdække de latente begrebers egenskaber og forbindelse til de manifeste variable. I faktoranalysen sker dette typisk ved at antage en lineær struktur for relationen mellem de manifeste og latente variable. Udgangspunktet er sædvanligvis en kovarians- eller korrelationsmatrix, hvilket implicit forudsætter, at alle målinger sker på (mindst) intervalskalaniveau. I eksplorative analyser vil faktorløsningen ikke være entydig, hvilket leder til problemerne omkring rotation af faktorerne. Det grundlæggende princip er her at søge frem til en »simpel struktur«, dvs. en endelig løsning som fortolkningsmæssigt forekommer rimelig. Anvendes faktoranalysen hypoteseafprøvende indføres a priori restriktioner på modellens parametre, hvorved faktorløsningen bliver entydigt fastlagt. Dette er synspunktet hos Jöreskog (1969), se tillige tilføjelsen i Jöreskog og Sörbom (1979). Når en faktormodel er accepteret som tilfredsstillende, estimeres faktorscores som udtryk for de bedste skøn over de bagvedliggende sande faktorværdier og disse kan da anvendes i efterfølgende analyser.

Som Lazarsfeld bemærkede er det sjældent at støde på intervalskalerede målinger i samfundsvidenskaberne. Latent strukturanalyse bygger derfor på kvalitative indikatorer, dvs. variable, der er nominalt eller ordinalt skalerede. Som en konsekvens heraf er det grundlæggende mål for sammenhængen mellem de manifeste variable den simultane sandsynlighedsfordeling og der gøres ingen forudsætning om linearitet mellem variabierne på de to niveauer. Antages den latente variabel også at være kvalitativ, bestående af kategorier med eller uden orden, fremtræder den latente

Side 272

klasse (LK) model. Den latente klassevariabel »forklarer« her sammenhængen mellem indikatorerne i den forstand, at der inden for hver klasse er statistisk uafhængighed. Når modellen estimeres effektivt, f.eks. ved maximum likelihood princippet som nedenfor, opstår der ikke noget rotationsproblem, og den latente struktur kan vurderes direkte ved betragtning af (1) den relative fordeling af den latente variabel på klasser, dvs. klassestørrelsen, og (2) de betingede fordelinger for hver klasse på de manifeste indikatorers kategorier. Endelig kan der svarende til begrebet faktorscores beregnes klassetilhorssandsynligheder, der viser den betingede sandsynlighed for at tilhøre en vilkårlig klasse, når niveauerne på indikatorerne er givne.

Trods betydningen af de centrale ideer bag latent strukturanalyse, er det først med fremkomsten af moderne datamaskiner, at modellerne i praksis er blevet tilgængelige for analytikere. På grundlag af en række arbejder af Goodman (1974a, 1974b, 1975a), som anviste en algoritme til bestemmelse af maximum likelihood estimater af LK-modellens parametre, har Clogg (1977) udviklet et meget fleksibelt edb-program, MLLSA (for maximum /ikelihood /atent structure analysis), der kan behandle en lang række LK-modeller med eller uden restriktioner på parametrene. Alle beregninger i denne artikel er udført ved hjælp af MLLSA-programmet.

Statistisk inferens i latent klasseanalyse

Efter at have opridset det begrebsmæssige grundlag for latent struktur analyse skal
vi her give en mere formaliseret definition af det specialtilfælde, der kaldes LKmodellen
kort påpege nogle af modellens statistiske egenskaber.

Definition. Uden tab af generalitet vil vi betragte tre kvalitative manifeste variable
A, BogC med niveauerne i—l,. . ,/,;= 1,.. ? Jogk= 1,. . ?K. {ABC} angiver den
tredimensionale tabel, der fremkommer ved at krydse de tre variable med hinanden.
Tabellen vil indeholde IJK celler og den typiske celle betegnes {i,j, k). Det totale
antal observationer (respondenter) til fordeling i tabellen er N og antallet af
observationer i den typiske celle kaldes xijk. Sandsynligheden for en observation i
(ij, k) er nijk. Vi antager, at fordelingen af de N observationer på tabellens celler kan
beskrives ved en multinomisk fordeling med sandsynlighedsparametre nijk.

Lad nu X være en kvalitativ latent variabel med niveauer t= \,...,T. Hver
observation tilhører en og kun én klasse t af X, dvs.


DIVL5703

(1)

hvor nfjktcx angiver sandsynligheden for en observation i den typiske celle (i,j, k, t) i

Side 273

{ABCX}-tabé\\en. Bemærk, at {ABCX} ikke er direkte observerbar, da X er latent. Antag dernæst, at X i statistisk forstand »forklarer« sammenhængen mellem de manifeste variable, dvs. når X fastholdes eller kontrolleres bliver variabierne A, B og C (betinget) uafhængige. Formelt kan dette udtrykkes:


DIVL5709

(2)

hvor nft x er den betingede sandsynlighed for at observere Apå niveau i, når Xer givet på niveau t, og nft x og n^x er defineret analogt. nx er den marginale fordeling af X, som vi vil kalde klassestørrelsen. Da alle parametre i (1) og (2) er sandsynligheder må følgende lineære bånd gælde:


DIVL5715

(3a)


DIVL5719

(3b)

Kombineres (1) og (2) er LK-modellen defineret ved parametriseringen


DIVL5725

(4)

sammen med restriktionerne (3a) og (3b). LK-modellen tilhører således klassen af
parametriske, multinomiske fordelinger for hvilken der findes generelle teoretiskstatistiske
se Rao (1973) eller Andersen (1980a).

Estimation. Med udgangspunkt ien given antalstabel (xijk) vil estimationen af en
LK-model omfatte

(I) antallet af klasser T.

(II) for et givet antal klasser, estimation af det fundamentale parametersæt

(i) klassestørrelserne nx,...,nj-,nx,...,nj-, dvs. ialt (T—l) frie parametre under
hensyntagen til (3a)

(ii) de betingede sandsynligheder


DIVL5741

DIVL5743

DIVL5745

dvs. ialt T- (I +J + K— 3) frie parametre, når (3b) iagttages.

Side 274

Antallet af klasser T i (I) er ofte ikke kendte a priori og må da bestemmes eksplorativt ved udnyttelse af resultater i (II). Estimationen i (II) sker ved maximum likelihood (ML) princippet, som kan vises at være asymptotisk efficient, dvs. når antallet af observationer N bliver (meget) stort kan vi være sikre på at få præcise og pålidelige estimater.

Goodman (1974a) har påvist, hvorledes ML estimatorerne kan beregnes ved hjælp af en iterativ procedure, som nu kendes under betegnelsen EM-algoritmen, se Andersen (1980b) og Poulsen (1981). Parameterløsningen kan dog ikke vises at være entydig, og det er derfor tilrådeligt at gentage iterationerne fra et andet udgangspunkt og i tilfælde af flere løsninger vælge den, der svarer til den største værdi af likelihoodfunktionen. Tilfælde af løsninger på randen 0 eller 1 af parameterområdet behandles lettest ved at opfatte disse som a priori restriktioner på LK-parametrene, som beskrevet nedenfor i afsnittet om betinget testning.

Vurdering af »goodness-of-jit«. Når skøn over de fundamentale parametre i LKmodellen
opnået, kan modellens kvalitet som beskrivende tabellen {ABC}
vurderes ved den velkendte Pearson A^-størrelse:


DIVL5755

(5)

hvor nijk er skøn over nijk på grundlag af (4) med ML-estimaterne for LKparametrene
En anden »goodness-of-fit« indikator er likelihood-ratio
størrelsen


DIVL5761

(6)

Hvis LK-modellen er sand og identificeret6 vil X2X2 og G2G2 have samme asymptotiske
XX2-fordeling med et antal frihedsgrader df der bestemmes ved



6. En LK-model siges at være identificeret, såfremt der til et sæt af multinomiske sandsynligheder (nijk) findes præcis ét sæt af LK-parametre. Se iøvrigt diskussionen hos Goodman (1974b).

Side 275

df = antal celler i {/lflC}-tabellen -1
— antal fundamentale parametre

Dvs.


DIVL5771

(7)

i den generelle T-klasse model med tre manifeste variable. Sædvanligvis er forskellen mellem X2X2- og G2-værdierne underordnet, såfremt modellen holder, men G2G2 er snævert forbundet med ML-estimationsprincippet, idet G2G2 herved minimeres. Desuden har størrelsen vigtige egenskaber i forbindelse med sammenligning af hierarkiske modeller.

Betingede tests. To LK-modeller M, og M2M2 med samme antal klasser 7, siges at være hierarkisk forbundne, såfremt den ene model, f.eks. Ml, indeholder den anden, M2, som et specialtilfælde, idet en eller flere fundamentale parametre i M, er båndlagt i M2. To typer af bånd er værdirestriktioner, hvor en parameters værdi er fast, f.eks. rcf = 0.5 eller 71^ = 0.25, og lighedsrestriktioner, hvor nogle parametre er fastsat til samme (ukendte) værdi, f.eks. n^ —n2 og nf* = Ttf2=2 = 7rf*. Det kan vises, at et test for de ved M2M2 indførte restriktioner, betinget af Ml, kan fås ved at betragte differencen:


DIVL5779

(8)

som hvis M2M2 er sand vil have en asymptotisk x2-fordeling med antal frihedsgrader


DIVL5785

(9)

Tilordning til klasser. Når en LK-model er blevet accepteret som velegnet til beskrivelse af data, har det ofte stor interesse at undersøge sammenhængen mellem den latente klassevariabel X og andre målte kendetegn ved analyseenhederne (respondenterne). Til dette formål anvendes Bayes" sætning til beregning af de posteriore tilhørssandsynligheder,7 givet observationerne (ijk) på de manifeste variable:


DIVL5791

(10)

Ved indsættelse af estimater for LK-parametrene og anvendelse af (4) kan skøn



7. Lazarsfeld kaldte nf^f* for »recruitment probabilities«.

Side 276

over 7ifjitcx beregnes. Dernæst kan analyseenhederne tilordnes klassen med den
største tilhørssandsynlighed, idet det kan vises, at denne procedure minimerer det
forventede antal fejlklassificeringer, E, beregnet ved formlen:


DIVL5797

(11)

hvor


DIVL5803

Anvendelse af LK-modellen på »Konjunkturbarometeret for industrien«

Af de formelle udledninger ovenfor fremgår det, at estimation af LK-modellen ved ML-metoden kræver kendskab til den flerdimensionale antalstabel {ABC}, dvs. oplysninger på et væsentligt mere detaljeret niveau end den form, hvorpå resultaterne løbende publiceres. Det har derfor været nødvendigt at lave et udtræk af grundmaterialet, der er opbevaret i Danmarks Statistik. Af hensyn til virksomhedernes blev en række identifikationsvariable slettet, inden udlevering af materialet. Det skal desuden bemærkes, at virksomhederne i denne analyse indgår uvægtet uden hensyntagen til beskæftigelsesomfang. Der er dog i princippet intet til hinder for at vejede data kunne have været anvendt.

LK-modeller uden a priori restriktioner. Som grundlag for analysen har vi valgt data
vedrørende udviklingen i 1. kvartal 1981 sammenlignet med forrige kvartal. Vi vil
betragte følgende tre konjunkturindikatorer:

A: Faktisk produktion

B: Faktisk beskæftigelse

C: Faktisk udvikling i ordreindgangen

Alle tre variable er trikotome med niveauerne »1« = »mindre«, »2« = »uændret« og
»3« = »større«. Databasen omfatter N— A9l respondenter og den grundlæggende
antalstabel {ABC} er gengivet som kolonne (3) i tabel 2.

Bemærk, at 6 celler i tabellen indeholder 0 respondenter. Det betyder, at den asymptotiske teoris resultater kun med tilnærmelse kan antages at gælde. Desuden kan der opstå problemer med celler, som under nogle LK-modeller har forventede antal lig nul, hvilket ville kræve, at antallet af frihedsgrader i (7) korrigeres tilsvarende. Vi har valgt her ad hoc at lægge værdien 0.5 til alle celler med nul.8



8. Denne fremgangsmåde kendes fra kontingenstabelanalyse ved log-lineære modeller, se f.eks. Goodman's ECTA program, Goodman (1975b).

Side 277

DIVL5904

Tabel 2. Den grundlæggende antalstabel {ABC} og nogle resultater for den tilpassede 3-klassemodel.

Derved bliver N = 500. De strukturelle parametre er ganske robuste over for denne
korrektion.

Vi afprøver nu eksplorativt modeller med T= 1, 2 og 3 klasser. De tilhørende G2værdier
deres signifikans fremgår af tabel 3.

For T= 1 er LK-modellen Mx identisk med hypotesen om (global) uafhængighed mellem de tre indikatorer. Med G2(Mt) = 465.99 og d/(M1) =20måvi klart forkaste denne hypotese. Heller ikke modellen med T=2 klasser giver en tilfredsstillende beskrivelse af antalstabellen, men for 7=3 fås G2G2 =4.95, som med df=l

Side 278

DIVL5907

Tabel 3. »Goodness-of-fit« for LK-modeller uden a priori restriktioner med T= 1, 2 og 3 klasser.


DIVL5910

Tabel 4. Estimeret 3-klasse model uden a priori restriktioner. Faktisk udvikling, 1. kvartal 1981.

repræsenterer et glimrende fit. Antallet af frihedsgrader er opgjort til 7 og ikke de 6, som fås af formlen (7) for LK-modeller uden begrænsninger på parameterene. Det skyldes, at én estimeret parameter (n*?) ligger på randen (0.0). Vi må derfor betragte denne restriktion som indført a priori, hvorved antallet af frihedsgrader forøges med 1. Den estimerede 3-klassemodel er gengivet i tabel 4.

Fortolkningen af den afdækkede LK-struktur er forholdsvis indlysende. De tre
klasser består af respondenter (virksomheder), som overvejende har samme
udvikling (mindre, uændret eller større) på alle tre indikatorer. Klassen af »uændret«

Side 279

omfatter næsten halvdelen af respondenterne, og de to øvrige er stort set lige store. Af de tre indikatorer er produktionsudviklingen den variabel, der klarest adskiller de tre klasser. Tilsvarende er bekæftigelsesudviklingen den ringeste diskriminator. Dette er i sig selv interessante konklusioner, idet det viser, at mens de tre konjunkturindikatorernok koordinerede i udviklingen, er det primært produktionen som på kort sigt karakteriserer forskellene i konjunkturvurdering. En forklaring herpå kan være, at beskæftigelsen inden for den betragtede tidshorisont (kvartal) er mindre fleksibel end produktionen. Endelig er ordreindgangen i høj grad bestemt af eksogene faktorer og kan på kort sigt udvise betydelig variation.

På grundlag af den estimerede 3-klassemodel kan vi nu anvende den skitserede klassifikationsprocedure efter modalværdien af klassetilhørssandsynlighederne. Klassifikationen fremgår af tabel 2, kolonne 5 og 6. Til vurdering af klassificeringens kvalitet kan vi beregne det forventede antal fejlklassificeringer E iflg. (11). Vi får:


DIVL5836

dvs. kun 5,8 pct. af respondenterne kan forventes henført til den forkerte klasse.

3-klassemodellen med restriktioner. Som illustration af princippet om betinget testning skal vi nu indføre restriktioner i den generelle 3-klassemodel M, ovenfor. På baggrund af den estimerede struktur vil vi afprøve en hypotese om, at produktionsvariablen er perfekt indikator for den latente variabel. Formelt indebærer denne antagelse en entydig korrespondance mellem variablene A og X, dvs.:


DIVL5842

(12a)


DIVL5846

(12b)


DIVL5850

(12c)

Herved påføres ialt 6 uafhængige bånd, men da n^ — 0 i forvejen var gældende, har den restriktive model M2M2 5 frihedsgrader flere end Ml, dvs. d/(M2)=12. Den estimerede model har G2(M2)= 11.299, hvilket i sig selv repræsenterer et godt fit. Det betingede test for gyldigheden af restriktionerne (12a)-(12c) giver:


DIVL5856

DIVL5858

hvilket ikke kan anses for signifikant

Side 280

DIVL5913

Tabel 5. Estimeret 3-klasse model med produktionsudviklingen (A) som perfekt indikator.

Den estimerede, restriktive model fremgår af tabel 5.

Da den latente klassevariabel X her er sammenfaldende med den ene manifeste variabel A, produktionsudviklingen, vil klassestørrelsen naturligvis være identisk med den marginale fordeling af A. De øvrige parameterestimater har kun ændret sig lidt i forhold til modellen uden a priori restriktioner.

For at illustrere anvendelsen af lighedsrestriktioner skal vi nu afprøve en hypotese
om symmetri i svarsandsynlighederne for klasse 1 og klasse 3. Vi indfører de fire
bånd:


DIVL5868

(13a)


DIVL5872

(13b)


DIVL5876

(13c)


DIVL5880

(13d)

mens lighederne n^* = nnB * og 7rfjX = 7rf^ automatisk følger af de lineære bånd (3b). Denne endnu mere restriktive model Af 3 vil derfor have 4 frihedsgrader flere end M2M2- Estimation af modellen giver G 2(G2(M3) = 40.188 som med df=\6 repræsenterer et dårligt fit. Det af M2M2 betingede test giver ligeledes anledning til afvisning af symmetrihypotesen, idet


DIVL5886

med df=4 frihedsgrader er klart signifikant.

Side 281

Med accepten af produktionsvariablen som perfekt indikator har vi en vis forstand overflødiggjort den latente variabel ved beskrivelsen af datamaterialet. Det forventede antal fejlklassificeringer E er således reduceret til nul, da tilordningen til klasser nu ikke længere er behæftet med usikkerhed. Vi kan konkludere, at en model med betinget uafhængighed, hvor produktionsvariablen A »forklarer« sammenhængen beskæftigelsen B og ordreindgangen C, giver en god sammenfatning af [ABC]-tabellen. Cellesandsynlighederne nijk kan med den indførte notation i dette tilfælde skrives:


DIVL5892

(14)

(14)

Andre metoder, f.eks. direkte beregning af skøn over parametrene i (14) eller specifikation af den tilhørende log-lineære model,g kunne have været anvendt. En række log-lineære modeller har således en ækvivalent repræsentation som restriktive LK-modeller. Det drejer sig om strukturer som indeholder en form for uafhængighed (betinget eller übetinget) og som derfor er forholdsvis lette at fortolke. Mere komplicerede log-lineære modeller vil ikke kunne skrives på LK-form, men er samtidig vanskelige at begribe intuitivt. I LK-modellen er alle parametre derimod umiddelbart forståelige som sandsynligheder og desuden omfattes modeller, som ikke er log-lineære. Det ville iøvrigt være vanskeligt at afprøve restriktioner af typen (13a)(13d) den log-lineære formulering, mens det er problemfrit i LK-modellen.

Endelig er den måske vigtigste forskel erkendelsen af, at observationer i samfundsvidenskaberne som regel må opfattes som ufuldstændige indikatorer for en bagvedliggende struktur, som kan være vanskelig at afdække, men som til gengæld vil være mere stabil og derfor af større interesse, teoretisk såvel som praktisk.

Afsluttende bemærkninger

I denne artikel har vi foreslået anvendelsen af en specifik, statistisk model til beskrivelse af et datamateriale, som produceres og publiceres løbende af Danmarks Statistik. Formålet har blandt andet været mere principielt at pege på mulighederne for at præsentere resultaterne på en form, som ville gøre dem mere overskuelige og dermed anvendelige for brugerne. Dette kan som her ske ved hjælp af en teoretiskstatistiskmodel, anvendelsen af grafiske metoder eller ved andre datareducerende teknikker. Behovet såvel som mulighederne herfor afspejler den teknologiske udvikling på databehandlingens område. Moderne datateknik har på den ene side øget mulighederne for billigt og tilgængeligt at opbevare grundoplysningerne fra



9. En generel indføring i den log-lineære analysemetodik findes i Andersen (1980a).

Side 282

statistikproduktionen, men samtidig er behovet for en meningsfyldt sammenfatning af data blevet presserende. På dette felt må bureaustatistikeren og den matematiskorienteredestatistiker mødes. Muligheden for - mod passende vederlag - at kunne få lavet særkørsler af grundmaterialer i Danmarks Statistik er et første skridt på vejen i retning af en mere brugerorienteret statistikproduktion. Publicering af standardanalyser og konsulentbistand til løsning af individuelle analysebehov kunne være det næste.

Litteratur

Andersen, E. B. 1980a. Discrete Statistical Models With Social Science Applications. Amsterdam: North Holland Publishing Co.

Andersen, E. B. 1980b. Latent Structure
Analysis. Research report No. 64. Statistical
University of Copenhagen.

Clogg, C. C. 1977. Unrestricted and Restricted Likelihood Latent Structure Analysis: A Manual for Users. Working Paper No. 1977-09, Pennsylvania State University.

Flaig, G. 1983. Die Analysen von Qualitativen Variablen mit Latenten-Struktur-Modellen. Inaugural-dissertation, Universität Mannheim.

Goodman, L. A. 1974a. The Analysis of Systems of Qualitative Variables When Some of the Variables are Unobservable. Part I: A Modified Latent Structure Approach. American Journal oj Sociology, Voi. 79, No. 5. March.

Goodman, L. A. 1974b. Exploratory Latent
Structure Analysis. Biometrika, Vol. 61,
No. 2, pp. 215-231.

Goodman, L. A. 1975a. A New Model for Scaling Response Patterns: An Application the Quasi-Independence Concept. Journal oj American Statistical Association, 70, pp. 755-68.

Goodman, L. A. 1975b. ECTA Program.
Description for Users. Upubliceret manuskript.

Jöreskog, K. G. 1969. A General Approach to
Confirmatory Factor Analysis. Psychometrika,
34, No. 2. June.

Jöreskog, K. G. and D. Sörbom. 1979. Advances in Factor Analysis and Structural Equation Models. Cambridge, Mass.: Abt. Books.

Lazarsfeld, P. F. 1950. The Logical and Mathematical Foundation of Latent Structure. I: S. A. Stouffer et al. (eds.): Measurement and Prediction. Princeton: Princeton University Press.

Lazarsfeld, P. F. 1954. A Conceptual Introduction to Latent Structure Analysis. I: P. F. Lazarsfeld (ed.): Mathematical Thinking in the Social Sciences. New York: The Free Press.

Lazarsfeld, P. F. and N. W. Henry. 1968.
Latent Structure Analysis. Boston:
Houghton Mifflin Publishing Co.

Munksgård, H. 1974. Konjunkturtesten.
Et led i virksomhedens søge-læreproces.
København: Nyt Nordisk Forlag.

Poulsen, C. S. 1982. Latent Structure Analysis With Choice Modeling Applications. Ph.D. dissertation, Wharton School, University of Pennsylvania. Udgivet ved Handelshøjskolen Århus, skriftserie H, nr. 3.

Rao, C. R. 1973. Linear Statistical Inference
and Its Applications. New York: John
Wiley and Sons.