Ledelse og Erhvervsøkonomi/Handelsvidenskabeligt Tidsskrift/Erhvervsøkonomisk Tidsskrift, Bind 30 (1966)Om en ny type statistiske modeller og deres anvendelsesmulighederErling B. Andersen *) 1. Om statistiske modellerIfølge en udbredt opfattelse er en statistiker en person, til hvem man sender sine data for at få vurderet holdbarheden af visse hypoteser, man har opstillet. I mange tilfælde bekymrer man sig kun lidt om, hvilke metoder statistikeren finder det rimeligt at benytte. Ofte føler man måske, at man ikke rigtig har mulighed for at kontrollere, hvad det egentlig er, han gør ved tallene. For en statistiker er denne opfattelse ikke særlig tilfredsstillende. Og man kan vist roligt tilføje, at klienten måske også ville være nervøs ved fremgangsmåden, såfremt han vidste, hvor hjælpeløs statistikeren ofte er konfronteret med et givet datasæt. De seneste års udvikling har da også vist, at statistikerne beskæftiger sig mere og mere med selve grundlaget for dataanalysen: modelformuleringen. Her hverken kan eller ønsker statistikeren at være enerådende, idet to hensyn af lige stor vigtighed skal tilgodeses. På den ene side skal modellen i specifik matematisk form indeholde de faktorer, som klienten ønsker data skal belyse. På den anden side må modellen udformes, så det rent statistisk metodisk kan lade sig gøre at efterprøve klientens hypoteser på det aktuelle datasæt. Når en model er opstået som følge af et sådant teamwork er der to muligheder: Modellen kan være kendt og undersøgt i den statistiske litteratur, og man behøver da blot at anvende de i litteraturen udviklede analysemetoder, når data skal analyseres. *) Cand. stat., amanuensis ved Handelshøjskolen i København. Side 198
Lige så ofte opstår der imidlertid en model, som er ny eller lidet undersøgt. Det kan ske, at man ved visse tilnærmelser kan bringe modellen over i kendte modeller. Men i reglen må man selv i gang med at udvikle nye analysemetoder. Dette kan give anledning til en helt ny forskning på den teoretisk statistiske front. Her er det ikke mindst vigtigt, at modellerne generaliseres i deres rent statistiske formulering, idet der herigennem åbnes mulighed for anvendelse over for data, der stammer fra helt andre fagområder. En vigtig fase af dataanalysen er modelkontrollen, hvorved forstås en konfrontation af model og data. Såfremt data og model ikke er konsistente, vil man ofte opleve, at data så at sige anviser, hvorledes modellen kan reformuleres for at være konsistent med de aktuelle data. Efter reformuleringen må hele processen selvfølgelig gennemføres igen. Vi kan altså
opstille følgende skematiske oversigt over en statistisk
![]() Fig. I. Fig. 1 kan selvfølgelig kun i hovedtræk beskrive den indviklede proces,som fører til formuleringen af en statistisk model, men kan måske bidrage til at fastholde hovedsynspunktet. Vi skal i denne artikel beskæftigeos med de indrammede procesdele i forbindelse med omtalen af en type modeller, der er opstået i forbindelse med den statistiske analyseaf Side 199
lyseafen vis
type data, der hyppigt forekommer inden for psykologiske
Ved formuleringen og diskussionen af modellen vil vi stedse referere til den psykologiske problemstilling. Det sker dog kun af pædagogiske grunde. Alle betragtninger er generelle, og man vil let kunne oversætte sprogbrugen til andre anvendelsesområder. 2. Den tosidige observationssituationVi skal
beskæftige os med observationer, der er resultatet af et
samspil Eks. 1. Udbyttet ved dyrkning af en kornart afhænger på den ene side af den dyrkede marks kvalitet eller bonitet, på den anden side af mængden eller formen, hvori kunstgødning tilsættes, f. eks. i hvilken kemisk forbindelse eller kemisk koncentration et vigtigt grundstof tilsætte:?. Eks. 2. Antal
trafikulykker for buschauffører i London afhænger på
Listen kan
fortsættes ad libitum. Som eksempel skal vi i det
følgende Eks. 3. En række personer udsættes for opgaver af varierende sværhedsgrad i forbindelse med en intelligenstest. Resultatet, målt i antal korrekte besvarelser, afhænger på den ene side af personens intelligensniveau eller dygtighed og på den anden side af opgavernes sværhedsgrad. 3. Nogle hovedtyper af modeller.Vi skal først
omtale nogle hovedtyper af modeller. Ved en parametrisk model forstås en model, hvor de størrelser eller relationer, som skal undersøges, kan udtrykkes med matematiske konstanter.Hvis man skal studere, hvorledes et vist sagsforhold i gennemsnittager sig ud, er det naturligt at vælge en model, hvor der optræderen konstant der angiver middelværdien. Hvis man skal undersøge,om to faktorer varierer uafhængigt, er man i salveten, hvis uafhængighedinden Side 200
hængighedindenfor modellen er ensbetydende med, at en vis konstantq har værdien 0. Sådanne matematiske konstanter kaldes parametreog er definitionsmæssigt ukendte konstanter, der bestemmer modellens udseende. I en parametrisk model for den tosidige observationssituationhar vi to parametre: &, som er knyttet til den ene faktor, og e, som er knyttet til den anden faktor. Det statistiske problem består i at sige noget om O og £ ud fra observationerne. I det følgende betragtervi kun parametriske modeller. Det er naturligt at skelne mellem deterministiske og stokastiske modeller: Antag at vi kender værdien af parameteren for hver af de to faktorer, som påvirker observationen. Det vil f. eks. sige, at vi kender en persons intelligensniveau og en opgaves sværhedsgrad. Hvis vi har en deterministisk model, vil disse to parameterværdier bestemme observationen, det vil sige, at vi helt præcist kan forudsige resultatet. En sådan model vil være ensbetydende med en meget stærk konsekvens i personers løsning af intelligensprøver. Et enkelt blik på besvarelser af intelligensprøver modsiger en sådan opfattelse. Når vi arbejder med en stokastisk model, bestemmer værdien af de to parametre kun sandsynlighedsfordelingen for observationen, i eksempel 3 altså sandsynlighederne for korrekt og forkert løsning af opgaven. Observationer, som er underkastet en sandsynlighedslov, vil fremtræde med et vist tilfældigt præg. Det vil dog stadig være sådan, at afhængigheden af de to faktorers parametre inducerer en vis struktur i observationerne, som kan udnyttes til at bestemme parameterværdierne. For at udnytte det tosidige i observationssituatioen vil det ofte være nødvendigt at skaffe sig et tosidigt observationsskema på den måde, at hver faktors parameterværdi fastholdes, mens den anden faktors parameterværdi varieres. I nogle situationer er dette helt naturligt tilfældet: I eks. 3 besvarer hver person alle opgaver, og hver opgave besvares af alle personer. I andre situationer må man tilrettelægge et eksperiment, som frembringer et tosidigt skema. I eksempel 1 må man benytte samme gødningssammensætning på jorder af forskellig bonitet, og for hver bonitet må man anvende alle gødningssammensætninger. Dette er netop en dyrkningssituation, som tilstræbes ved mange dyrkningsforsøg. I eksempel 2 må man (i hvert fald i en forsøgsperiode) lade alle chauffører, som indgår i eksperimentet, gennemkøre forskellige strækninger med varierende trafikforhold og lade hver af strækningerne gennemkøre af alle chaufførere. Side 201
Vi kan således i
mange situationer fastholde parameterværdien for Hvis vi har et
tosidigt observationsskema, indgår der n værdier Den stokastiske
model specificeres nu fuldstændigt ved at angive
Fig. 2 viser et
tosidigt dbservationsskema sammen med de indgående
![]() Fig. 2. Et tosidigt ovservationsskema. Ved formulering af modellen er det afgørende, i hvilken form observationerneforeligger. De tre eksempler viser tre meget forskellige situationer. Høstudbyttet kan f. eks. måles i vægten (ell. rummålet) af det høstede korn pr. dyrket arealenhed. Variationsområdet for observationernevil her udgøre et kontinurn på den reelle talakse, hvorfor vi kalder observationerne kontinuerte. Variationsområdet for antal trafikuhelder alle positive hele tal. Vi kalder sådanne observationer numerable,idet de positive hele tal kan nummereres, hvad alle positive reelle tal ikke kan. Besvarelsen af opgaverne ved en intelligensprøve kan kun antage to former: »rigtig« eller »forkert«. Observationer hvis variationsområdekun Side 202
tionsområdekunomfatter et endeligt antal værdier vil vi betegne diskrete.Som det vil erindres fra elementære fremstillinger af sandsynlighedsregningmå kontinuerte, numerable og diskrete observationer behandlesforskelligt. I den tosidige situation er teorien for kontinuerte observationer bedst kendt. Det er her den yndede variansanalysis, der bygger på normal fordelte observationer, finder anvendelse. Knap så kendt er teorien for numerable observationer. Den bedst kendte fordeling er poissonfordelingen, som i den tosidige situation fører til en type modeller, der ikke er stort vanskeligere at arbejde med end variansanalysemodellerne. Disse modeller er behandlet af Rasch, 1960 i forbindelse med analysen af nogle læseprøver. Det kan vises, at
de grundlæggende principper for variansanalysen 4. Diskrete modeller.Vi betragter først tilfælde, hvor hvert af Xi ferne kun kan antage to værdier, som vi for nemheds skyld repræsenterer ved tallene 0 og 1. Det kan let indses, at det er uden betydning for modellen, hvorledes de to tal vælges. For at opstille en statistisk model til beskrivelse af observationer må vi specificere, hvorledes pa = Pr {xa =1} afhænger af Gi og ej. (Pr {xij = 0} fås som 1 —pu !). Vi tænker os nu, at ©i og sj er reelle positive tal og stiller det rent statistiske krav, at modellen skal have en form, der tillader, at de to sæt parametre 6>i, ..., &n&n og £i, .. £.k kan estimeres på enkel måde med udgangspunkt i observationerne. Det vil føre for vidt her at omtale, hvorledes dette krav kan formuleres helt præcist i statistiske termer og at bevise at modellen deduceres fra dette krav. I stedet skal vi angive den meget simple model, der som den eneste tilfredsstiller vort krav, og vi skal kort omtale, hvorledes estimationen kan udføres på grundlag af den udledte tale, hvorledes estimationen kan kan udføres på grundlag af den udledte model. Modellen har
udseendet ![]() (1) Modellen har
nogle iøjnefaldende attraktive egenskaber. Hvis ef
Side 203
-f-°°, og tilsvarende for ©i. Fortolker vi i intelligensprøve-modellen ©i som en persons intelligensniveau, betyder det, at sandsynligheden for at løse en bestemt opgave korrekt vokser med voksende intelligensniveau.Modellen har også en invariansegenskab, som forekommer naturlig. Hvis vi multiplicerer ©i med en konstant og dividerer sj med samme konstant, ændres modellen ikke. Dette modsvarer, at en meget intelligent person kan have samme besvær med en svær opgave, som en ringe begavet person kan have med en let opgave. k Antag, at en person har parameter ©i. Som udgangspunkt for en estimation af ©i har vi det totale antal rigtigt løste opgaver xi. Nu er det selvfølgelig af en vis betydning, hvad det er for nogle opgaver han har opnået så mange rigtige svar på. Det ville altså være en fordel, om man kendte de pågældende opgavers sværhedsgrad ci, ..., £fe Det gør vi imidlertid ikke. Det viser sig imidlertid, at man når til en statistisk tilfredsstillende fremgangsmåde, hvis man i stedet inddrager de primære størrelser xa, ..., x.k for estimationen af «i, ..., eis. Ved estimationen af gerne er tilsvarende ar.ferne de primære størrelser, mens xi. . . . , xn. inddrages som hjælpekonstanter. Estimationsprocedurer, der bygger på den her skitserede metode, er fuldt udarbejdede, og der er skrevet programmer med henblik på elektronisk behandling af vilkårlige datasæt. Vi skal nu generalisere modellen (1) til tilfælde, hvor observationerne kan antage flere end to mulige værdier. Typiske eksempler er spørgeskemaer,hvor en række personer skal vurdere forskellige forhold, og som svar på spørgsmålene kan vælge blandt et fast antal muligheder f. eks.: Side 204
»udmærket«,
»godt«, mindre godt«, »slet«. (Eks.: »Hvad synes De om
(2) ![]() ![]() (Den fjerde
sandsynlighed Pr {xa = 4} fås som 1 minus summen af
Antag igen, at Oi og ej er reelle tal. Vores opgave er da at angive de 3 sandsynligheder (2) som funktion af &i og e f. For at løse denne opgave må vi inddrage endnu et forhold i modellen, den såkaldte scoring af svarmulighederne. Ved en scoring af et antal svarmuligheder forstås valg af en måleskala, hvorpå svarmulighederne kan måles i forhold til hinanden. Hvis vi vælger den klassiske måleskala: den reelle tallinie, er scoringen ensbetydende med at angive den relative afstand mellem svarmulighederne. Lige stor relativ afstand betegner vi æqvidistant scoring, og vi kan f. eks. vælge tallene —1.5, —0.5, +0.5 og +1.5. Mere generelt kan scoringen med den reelle tallinie som måleskala udtrykkes gennem fire scoringsværdier 9?i, 952, 993 og (pi. Den naturlige generalisation af (1) er da ![]() (3) for r = 1, 2, 3, og 4. Hvis man er i den heldige situation at kende de fire 9?' er, kan denne model behandles helt parallelt til (1). En mere almindelig situation er dog, at vi ikke kender <p'erne. Man kan da gå flere veje. Man kan gætte (mere eller mindre systematisk) på et sæt <per, f. eks. de nævnte æqvidistante og undersøge, om observationerne er konsistente med de valgte 9?' er. Eller man kan opfatte y erne som parametre i fordelingen og estimere dem på linie med fi'erne og <9'erne. En nødvendig forudsætning for disse fremgangsmåder er imidlertid, at måleskalaen for scoringen er kendt. Modellen åbner
mulighed for at foretage scoringen i relation til mere
![]() Side 205
Forskellen på én-dimensional og fler-dimensional scoring kan anskueliggøres ved en forsøgsvis fortolkning af, hvad der kan ligge bag de forskellige scoringer. En én-dimensional scoring kan betyde, at personerne opfatter svarmulighederne som 4 niveauer på en skala, der spænder fra en klar positiv til en klar negativ holdning til det stillede spørgsmål. Hvis vi er nødt til at anvende en 2-dimensional scoring, kan det betyde, at personerne opfatter de 4 svarmuligheder på den måde, at der først skal vælges mellem en positiv eller en negativ tilkendegivelse, og uafhængigt heraf vælger man, om man vil benytte den mere ekstreme eller den mindre ekstreme mulighed. I mange tilfælde må man lade spørgsmålet om scoringens dimension stå åbent i starten af analysen. Modellen er velegnet til en sådan fremgangsmåde, fordi modellen, når der ses bort fra den måde leddet (ØiSj)vv opfattes på, er den samme i det én-dimensionale og det fler-dimensionale tilfælde. Denne
fremgangsmåde er blevet anvendt ved analysen af nogle
psykologiske 5. Erhvervsøkonomiske anvendelser.Som nævnt i indledningen er stokastiske modeller i deres rent statistiske formulering ikke knyttet til anvendelser inden for et bestemt fagområde. Det er således ikke svært at finde andre fagområder end psykologien og sociologien, hvor de modeller, som er omtalt i denne artikel, kan finde anvendelse. Vi skal specielt betragte mulige anvendelser inden for det erhvervsøkonomiske fagområde. Læseren vil måske finde, at de to eksempler, som er angivet nedenfor, ikke er særlig velvalgte, måske ikke engang særlig realistiske. Det er imidlertid forfatterens håb, at de to eksempler kan bidrage til at anskueliggøre de observationssituationer, over hvilke modellerne kan anvendes, og herigennem inspirere læseren til at foreslå andre anvendelser. Eks. 4: De skal sedge en mserkevare (f. eks. et vaskemiddel) og ensker at fa noget at vide om pa den ene side, hvor attraktive forskellige af maerkevarens egenskaber er, og pa den anden side vil De godt vide noget om bvilke kunder, der synes om varen, saledes at De kan placere de interesserede kunder f. eks. geografisk eller socialt. De sender derfor en udvalgt kreds af kunder varen, og efter en vis pravetid foretager De et rundsporge. Hver kunde konfronteres med forskellige egenskaber Side 206
ved varen (vaskeevnen, skåner den husmoderens hænder, tøjets hvidhed, emballagen, den indlagte konkurrence etc.). For hver egenskab kan kunden afgive en af fire mulige vurderinger, »meget tilfreds«, »nogenlunde tilfreds«, »ikke helt tilfreds«, »utilfreds«. Deres arbejdshypotese er, at hvis kunden er interesseret, vil vedkommende være tilbøjelig til at reagere tilfreds på alle egenskaberne og vice versa. Hvis denne hypotese er korrekt, skulle modellen være velegnet til at analysere Deres data, og De vil kunne estimere på den ene side den enkelte kundes tilfredshedsgrad med varen som helhed; og samtidig hvor begejstrede kunderne som helhed er for de forskellige egenskaber, der er spurgt om. Eks. 5: De star foran at skulle introducere Deres virksomheds produkter pa nye markeder, f. eks. i visse u-lande. De er nedt til at vaslge, hvor De vil saette ind med salgskampagner, hvorfor De onsker at vide noget om mulighederne pa de forskellige markeder. De bar i Deres virksomhed en raekke konsulenter, som De lader foretage en analyse af de mulige markeder. Hver konsulent skal for hvert marked afgive en vurdering, f. eks. i form af en udtalelse, der kan tage formerne: »gode muligheder«, »ret gode muligheder«, »kun nogenlunde muligheder«, »ringe muligheder«. De ved, at Deres konsulenter vurderer meget forskelligt, nogle er meget dristige og optimistiske af natur, mens andre er mere forsigtige, og De onsker at tage hojde for dette forhold. Vi har igen en typisk tosidig situation, hvor hver observation afhaenger af pa den ene side konsulentens vurderingsniveau og pa den anden side markedets reellc muligheder. Da observationerne endvidere er diskrete, vil den opstillede model vaere velegnet til at foretage en vurdering af de forskellige markeder, der er renset for konsulenternes forskellige Referencer1. G. Rasch:
Probalistic models for some intelligence and attainment
tests. Danm 2. Erling B.
Andersen: Vurdering af et psykologisk spørgeskema på
grundlag af en 3. Erling B.
Andersen: Den diskrete målingsmodel af endelig orden.
Københavns |