Ledelse og Erhvervsøkonomi/Handelsvidenskabeligt Tidsskrift/Erhvervsøkonomisk Tidsskrift, Bind 32 (1968)En metode til klassificering af kundeemner.1. Klassificeringsproblemet. - 2. Definition af diskriminantfunktionen. - 3. Hvad er kravet til en klassificeringsregel? - 4. Klassificering af ét element i en af to mulige populationer med vilkårlige, kendte tætheclsfunktioner. — 5. Den multinormale fordeling. — 6. Klassificering i en af to mulige multinormale fordeling med kendte parametre. - 7. Klassificering i en af to mulige multinormale fordelinger, når parametrene skal estimeres. - 8. Anvendelser af diskriminantanaly.se inden for afsætningsøkonomien. Niels Blunch *) 1. KlassificeringsprohlemetEnhver, der beskæftiger sig med afsætningsøkonomiske problemstillinger, det være sig som praktiker eller teoretiker, vil med korte mellemrum stå over for spørgsmålet: Hvorledes skelner jeg mellem forskellige grupper af efterspørgere? En besvarelse af dette spørgsmål vil nemlig være forudsætningen for en rationel løsning af en lang række afsætningsøkonomiske beslutningsproblemer. Som eksempler på
beslutningssituationer, hvor dette
klassificeringsproblem Eksempel 1. Ved salg af kostbare forbrugsvarer (f. eks. swimming pools) eller produktionsmidler (f.eks.maskiner), hvor salgsindsatsen i stort omfang er af personlig art, er det værd på forhånd - d. v. s. før man indleder salgsarbejdet over for den enkelte kundemulighed — al; kunne bedømme sandsynligheden for, at netop denne kundemulighed vil optræde som effektiv efterspørger af varen, idet dette vil være afgørende for, om det med de store omkostninger, der er forbundet med den enkelte salgsindsats, vil kunne betale sig at foretage henvendelse til netop denne kundemulighed. Dette må foruden af købssandsynligheden afhænge af omkostningerne ved salgsindsatsen og af varens dækningsbidrag. *) cand. mere, amanuensis ved Institut for Markedsøkonomi, Handelshøjskolen i Århus. Side 82
Den almindelige fremgangsmåde i sådanne tilfælde er, at købssandsynligheden antages at være en funktion af en række egenskaber ved kundemuligheden f. eks. i swimming pool-tilfældet hans indtægt, hans sociale stilling, hans haves størrelse, etc. Man søger da på grundlag af en bedømmelse af en række af sådanne sociale og økonomiske variable at klassificere kundemuligheden som effektiv efterspørger eller ikke effektiv efterspørger. Eksempel 2. Når et forsikringsselskab modtager en forsikringsbegæring, søger man på grundlag af de i begæringen givne oplysninger at placere forsikringstageren i én af flere risikoklasser som grundlag for præmieberegningen, idet man hverken ønsker, at forsikringstageren kommer til at betale for lille præmie i forhold til risikoen, hvilket vil være en dårlig forretning for selskabet, eller at han skal betale så stor en præmie, at han forsikrer i et andet selskab eller undlader at forsikre. Eksempel 3. Når en reklamekampagne eller anden salgsfremmende indsats for en mærkevare skal planlægges, er det af væsentlig betydning for såvel udformningen af budskabet som for mediavalget, at man er i stand til på grundlag af socio-økonomiske variable at skelne mellem grupper af efterspørgere. Eksempler på sådanne grupperinger er a) Købere af en vare
opdelt efter det oftest købte varemærke. b) Loyale
kontra mindre loyale købere af et varemærke.
c) Kobere af en
vare opdelt efter den type forretning, hvori den
Det failles træk
ved disse og utallige andre problemstillinger af
lignende Side 83
(1) Store bogstaver
betegner lier som overalt i det følgende vektorer eller
Vi betragter altså elementet karakteriseret ved vektoren X som en - i statistisk forstand — tilfældig observation fra én af de givne populationer. Spørgsmålet er da: Når en vektor X er observeret, fra hvilken population stammer da det pågældende element? Inden for en videnskab som antropologien har man ganske tilsvarende problemer, idet man dér ønsker på grundlag af måling af fysiske egenskaber ved et individ at placere det racemæssigt. Allerede i 1920'erne begyndte man at angribe dette problem med det statistiske va^rktøj og en lang udvikling har ført til fremkomsten af en speciel teknik multipel diskriminantanalyse, der er anvendelig ved løsningen af dette problem. Siden da har teknikken efterhånden fundet anvendelse inden for den psykologiske og sociologiske forskning, medens den har været ret ukendt uden for disse ret snævre fagområder. Der er imidlertid ingen grund til at den multiple diskriminantanalyse ikke også skulle kunne finde anvendelse inden for de mange andre områder, hvor klassificeringsspørgsmålet spiller en lignende rolle. Bemærk, at antallet og arten af populationer er fastlagt i forvejen. Det er ikke hensigten at finde de mest hensigtsmæssige klassificeringskriterier, men udelukkende at finde frem til den mest hensigtsmæssige klassificering af et eller flere elementer i en af flere i forvejen definerede populationer. 2. Definition af diskrirninantfunktionenAntag, at et element enten kan tilhøre populationen m eller populationen 7i2. Klassificeringen afhænger af den observerede vektor X. Vi ønsker at opstille en regel, således at elementer, der er karakteriseret ved en bestemt mængde vektorer X, vil blive klassificeret som tilhørende n\ og ellers som tilhørende 712. Vi kan
forestille os de enkelte elementer afbildet som punkter
i et p- Side 84
dimensionalt rum.
Observationerne falder da mere eller mindre som to
Da de to tæthedsfunktioner (eller punktklynger) imidlertid er overlappende (i modsat tilfælde ville klassificeringen jo give sig selv, når X er konstateret), ønsker vi at trække en grænse i det rum, eller - mere nøjagtigt udtrykt - vi ønsker at opdele rummet i to områder således, at hvis en observation falder i området R\, klassificeres den som tilhørende ti\, og falder den i Rz, klassificeres den som tilhørende 712. Da tæthedsfunktionerne som sagt er overlappende, er det umuligt at undgå, at nogle observationer vil blive anbragt på den »gale« side af grænsen, men vort formål er at finde en procedure for valg af Ri og i? 2, der er mest mulig »hensigtsemæssig«. Vor
klassificeringsprocedure vil altså få form af en
funktion af den En sådan funktion
kaldes en diskriminantfunktion. Vi vil her for en
Diskriminantfunktionen vil kunne
skrives: (2) Proceduren vil da vserc den, at de pa et
element foretagne malinger Hvis D b
klassificeres elementet som tilhorende m. Vor fastlæggelse af områderne Ri og R 2 og dermed vor klassificeringsprocedure vil altså afhænge af »vægtene« a\,a2. .. ai. ..av samt af konstanten b. Det gælder altså om at fastlægge disse størrelser »hensigtsmæssigt«. Bemærk, at
ligningen D = b fremstiller den plan, der deler det
p-åimensionale Vi har i dette afsnit skitseret problemløsningen i tilfældet med kun to populationer og vil også i det følgende begrænse os hertil. En generalisering til r populationer (r > 2) medfører ikke principielt nye problemer, kun mere regnearbejde, idet vi må arbejde med flere diskriminantfunktioner .1 ) 1) Der henvises til (1) i litteraturlisten. Side 85
3. Hvad er kravet til en klassificeringsregel?I almindelighed (d. v. s. i ortodoks »objektiv« statistisk teori) plejer man at udforme klasificeringsproceduren (diskriminantfunktionen) på en sådan måde, at de betingede sandsynligheder for de to typer af fejlplaceringer skal være så små som mulige og lige store. Kaldes de to
tæthedsfunktioner fi(X) og J2(X), kan dette lidt mere
(3) under
bibetingelsen (4) Det er imidlertid ikke vanskeligt at forestille sig situationer, i hvilke ovennævnte kriterium kan føre til uhensigtsmæssige resultater. F. eks. medfører denne procedure, at det forventede antal fejlklassificeringer ved klassificering af et bestemt antal elementer, f. eks. 10, er størst for de elementer, der tilhører den største population. Ligeledes kan man også let forestille sig situationer, hvor ulemperne ved den ene art fejlklassificeringer er betydelig større end ved den anden. Disse
bemærkninger afslører, at det kan være hensigtsmæssigt,
at klassificeringsreglen 1) a priori-sandsynlighederne for, at et element skal tilhore liver af de to populationcr. Hvis der a priori - d. v. s. for malingerne foretages - er storre sandsynlighed for, at et vilkarligt element tilherer den ene population frem for den anden, vil man (alt andet lige) vsere mest tilbojelig til at klassificere elementet som tilhorende den population, der har storst a priori-sandsynlighed. 2) forholdet mellem
offeromkostningerne ved de to former for fejlklassi-
ficering.
Idet man (alt andet lige) vil være mest tilbøjelig til
at klassificere senere skulle
vise sig, at klassificeringen er forkert, er mindst.
Set fra et
beslutningsteoretisk synspunkt må tankegangen derfor
være Hvis det har nogen mening at klassificere et element som tilhørende en af to (eller evt. flere) populationer, må det være, fordi der vil blive truffet forskellige beslutninger m. h. t. elementets »behandling«, alt efter om det klassificeres som tilhørende m eller nt. Ved en fejlklassificering vil man Side 86
derfor udsætte elementet for en forkert »behandling«, d. v. s. en behandling,der er forskellig fra den under de givne forhold optimale. Herved pådrager man sig nogle offeromkostninger (større omkostninger eller mindreindtægter), som ville være undgået, hvis den optimale behandling var foretaget. I tilfældet med
potentiel efterspørger fikke potentiel efterspørger vil
en 1) at der
indledes salgsarbejde over for en konsument, som ikke
vil være 2) at man
undlader at foretage salgsarbcjdc over for en potentiel
cftcrsporgcr I dette tilfælde vil det ikke være forblindet med større vanskeligheder at bestemme de af en fejlklassificering betingede offeromkostninger, medens det i andre tilfælde kan være et særdeles vanskeligt problem at formulere disse omkostninger i kr. Dette er heller ikke nødvendigt. Da — som vi senere skal bevise - det kun er forholdet mellem de to arter af omkostninger, der har betydning, kræves det kun, at de er ensbenævnte udtryk for graden af »uønskethed« af forkerte beslutninger som følge af forkerte klassificeringer. Betegner P(m) og P(tz2) a priori-sandsynlighederne for, at et tilfældigt element skal tilhøre ni henholdsvis 712, og benyttes betegnelserne C{\ 2) og C(2|l) for offeromkostningerne ved at klassificere et element tilhørende Jl2 som tilhørende n\ henholdsvis offeromkostningerne ved at klassificere et element, der tilhører n\ som tilhørende 712, kan problemets offeromkostnings-matrix skitseres som følger: Side 87
Det må være et rimeligt krav til klassificeringsrcglen, at den på en eller anden måde minimerer disse omkostninger, således at de ved gentagen brug af klassificeringsreglen bliver så små som mulige. Dette kan lidt mere præcist udtrykkes som følger: Vi ønsker at
fastlægge vor klassificeringsregd på en sådan måde, at
de (5) En procedure, der fører til dette resultat, kaldes en Bayes' procedure. Vi vil senere se, at en procedure, der bygger på kriteriet (3-4) under visse, meget specielle forudsætninger vil være en Bayes procedure, men ellers vil vi benytte det Bayes'ianske synspunkt, som det er formuleret i (5). 4. Klassificering af et element i en af lo mulige populationer med vilkårlige, kendte tæthedsfunktionerVort formål er at
vælge R.\ og Rz således, at (5) minimeres. For enhver
(6) af (7) fås (8) som indsat i (6)
giver (9) (10) Vi ønsker at minimere (1.0). Da C(1 [2) og P(712) er konstanter, opnås dette tydeligvis ved at fastlægge R% således at det indeholder alle de punkter, for hvilke C(2|l) P(m)fi(X)-C(l\2) P(m) fc{X) er negativ. Punkter, for hvilke dette udtryk er positivt tillægges da R\. Vi definerer
altså Ri og R2 som følger1): 1) Punkter, hvor C(2|l) Pin^f^X) - C( I|2) P(jr2)/2(X) =0, er her arbitrært tillagt Rv Side 88
(11) Det vil ofte være
mere hensigtsmæssigt at arbejde med forholdet mellem
(12) I så fald kan
(11) skrives (13) Det skal
sluttelig nævnes, at den klassiske regel (3)- (4), som
det umiddelbart (14) der kun vil være
en Bayes' procedure under forudsætningen (15) Specielt er
forudsætningen opfyldt for (16) der formodentlig
mere eller mindre bevidst ligger bag anvendelsen af den
Udtrykkene (13)
giver en formel løsning af klassificeringsproblemet
Af hensyn til løsningen af problemerne omkring anvendelsen af statistisketestprocedurer i forbindelse med diskriminantanalyse er det naturligvis påkrævet at kende disse tæthedsfunktioner, idet deres type og parametre dog eventuelt kan estimeres på grundlag af stikprøver fra hver af de muligepopulationer. Disse problemer er imidlertid kun nogenlunde grundigt gennemarbejdede for så vidt tæthedsfunktionerne er multinormale. Denne Side 89
forudsætning er også gjort i de indtil nu publicerede eksempler på anvendelseaf diskriminantanalyse på marketingproblemer. Vi vil derfor i det følgende give en kort introduktion til den multinormale fordeling og dernæstskitsere beregningen af diskrimiiiantfunktionen i det multinormale tilfælde. 5. Den multinormale fordelingDen
éndimensionale normalfordelings tæthedsfunktion kan som
bekendt (17) hvor f.i er
fordelingens middelværdi og o 2 dens variaris, medens c
er en Tæthedsfunktionen
for den f »-dimensionale normalfordeling har en
Skalar-variablen
x erstattes med en søjlevektor: (18) Skalar-paramctren
w, der angiver fordelingens middelværdi, erstattes
(19) der angiver
middelværdierne i de p marginalfordelinger. I stedet for
parametren o2o2 benyttes co-variansmatricen Side 90
(20) hvor o,; for i\
i= j angiver co-variansen mellem den i'te og den f te
variabel, (21) Endelig erstattes
udtrykket (22) med (23) hvor T angiver,
at vektoren er transponeret. Den
normalfordelings tæthedsfunktion kan således skri-
ves: (24) hvor c er en
konstant, der er valgt således, at integralet over j{X)
bliver 1. Variabierne X
siges at være normale N(/u,V). Det ses umiddelbart, at
Side 91
6. Klassificering i en af to mulige multinormale fordelinger med kendte parametreDer er givet to
multinormale fordelinger . fY(,m(1), F) og N(f.i^2\V)
Den r'te
tæthedsfunktion (r = 1,2) er: (25) og forholdet
mellem tæthedsi'unktionerne er (26) hvilket kan
skrives: (27) Omradet R\, for klassificering i ni, er den maengde af vektorcr X, for hvilke forholdet j\{X) jf-2(X) k} hvor k vaelges hensigtsmaessigt, d. v. s. i overensstemmclse med det formal, der forfolges med den pagasldende klassificeringsregel (jfr. afsnit 3). Da
logaritmefunktionen er monotont voksende., kan vi
omskrive (27) (28) eller (29) Udtrykket ?(//(l)
-f f^2)) er gennemsnittet af middeltalsvektorerne ide
(30) Da sidstc led pa
venstre side er en konstant, kan vi benytte forste led
Som tidligere nævnt, må konstanten k ansattes »hensigtsmæssigt«. F. eks. vil en antagelse af det »ortodokse« kriterium for optimalitet for klassificeringsreglen: minimering af de betingede sandsynligheder for fejlklassificeringer føre til k — 1 (if. (14)), hvoraf følger, at In k = 0. (31) kan da skrives: Side 92
(32) Med andre ord: Såfremt diskriminantfunktionen ved indsættelse af den observerede vektor X antager en værdi, der er større end eller lig med den værdi, den tager ved indsættelse af vektoren [*, der angiver gennemsnittet af f/(1) fg /i(2), er det observerede element beliggende i i?i og klassificeres derfor som tilhørende n\. I alle de
praktiske anvendelser inden for marketingområdet, som er
(33) indsættes i (31).
7. Klassificering i en af to mulige multinormale fordelinger, når parametrene skal estimeresDer cr givet en
stikprave Xi(1), Xz^ .... Arnl(1) fra n\ (X(l) cr
I modsætning til
det i forrige afsnit behandlede tilfælde kender vi ikke
Maksimum-likelihood-estimatorerne
for ju^ og er (35) medens
maksimum-likelihood-estimatoren for den fælles
co-varians-matrix (35) hvor (36) Og (37) Side 93
Ved indsættelse
af (34) og (35) I (31) fås: (38) hvor (39) A A 8. Anvendelser af diskriminantanalyse inden for afsætningsøkonomienDer er gennem de senere år fremkommet en del referater af praktiske anvendelser af diskriminantanalysen på afsætningsøkonomiske problemstillinger. Disse er hovedsagelig offentliggjort i amerikanske tidsskrifter, medens vi endnu har til gode at se et eksempel på teknikkens anvendelse i en dansk virksomhed. Nedenstående
artikler må betragtes som repræsentative med hensyn
Banks (L. 3)
har benyttet diskriminantanalyse til at studere
forskellene i Buck (L. 4) er interesseret i at fastslå den relative vægt, der kan tillægges elleve forskellige socio-økonomiske variable som indikatorer for en husstands besiddelse af køleskab, og for dens besiddelse af gas- henholdsvis el-køkken, idet hans problem er at reducere antallet af forklarende variable. Bucklin (L. 5) har undersøgt forbrugernes valg af shopping-center som funktion af socio-økonomiske og demografiske kriterier. Claycamp (L.
6) har studeret de sociale og økonomiske forskelle
mellem Evans (L. 7)
har studeret, i hvilket omfang socio-økonomiske og
psykologiske Frank, Masy & Morrison (L. 8) har behandlet problemet: Er det muligt på grundlag af en husstands socio-økonomiske egenskaber og dens købevanerat forudsige dens »villighed« til at acceptere et nyintroduceret varemærke?Det konkrete tilfælde drejede sig om introduktionen af en færdigmaletkaffe Side 94
maletkaffepå
Chicagomarkedet, og forfatterne benyttede »Chicago
Tribune«sforbrugerpanel Massy (L. 10)
har studeret lytternes valg af radioprogrammer baseret
på I alle de i dette afsnit nævnte tilfælde er det forudsat, at normalitetskravet er opfyldt, således at diskriminantfunktionen får den i formel (31) afsnit 6 og (38) afsnit 7 nævnte form. I en del al eksemplerne er denne forudsætning dog ret problematisk, hvorfor de statistiske tests må tages med alt mulig forbehold. LitteraturEn teoretisk
behandling af den »ortodokse« diskriminantanalyse findes
i (1) M. G.
Kendall: En beslutningsteoretisk synsmade, hvori
ogsa indgar en optimering af antallet af malinger (2)
IJaulIJauI E. Green: Som exempler pa
praktiske anvendelser af lineser diskriminantanalyse kan
naevnes (3) S. Banks:
(4) S.F.Buck: (5) Louis P.
Bucklin: (('.) //. /. Clay
camp: (7) F. B. Evans:
(8) Frank, Massy
and Morrison: (9) W.R.King:
(10) W. F. Massy:
|