Nationaløkonomisk Tidsskrift, Bind 116 (1978)

En metode til kalibrering af diskriminantanalysens

Institut for Statistik og Datalogi, Handelshøjskolen i Århus

Kai Kristensen

Resumé

summary : In this article the application of Fishers linear discriminant function for classification purposes is considered from a microeconomic point of view focusing on the determination of the cut-off point. The Decision-Makers utility function [indifference function) specified in the conditional probabilities of correct classification is used as a starting point, whereupon the utility function is maximized subject to the relevant constraint the conditional probabilities of correct classification. The results are adapted to practice through an approximation of the utility function by help of a Taylor expansion around a set of probabilities calculated from a preliminary estimate of the cut-off point given by the Decision-Maker.

I. Indledning

Fisher's lineære diskriminantfunktion (Fisher (1936)) har i de senere år vundet stor udbredelse inden for det driftsøkonomiske område ved løsning af taxonomiske problemstillinger. Se eksempelvis Blunch (1968), der indeholder en række afsætningsøkonomiske eksempler, Altman (1968) og Deakin (1972), der er eksempler på finansielle anvendelser og Welker (1974), der kan henføres det organisatoriske område. Af andre økonomiske anvendelser kan nævnes Tintner (1946) og Adelman and Morris (1968).

I Anderson's version (Anderson (1951) og (1958)) har Fisher's to-gruppe
diskriminantfunktion følgende udseende:


DIVL7638

(0

hvor xeren (pxl) normalfordelt stokastisk vektor, (fjLrfi2) er differencen mellem
to populationers forventningsvektorer og E er den fælles varians/
kovariansmatrix.

Ved klassifikatoriske anvendelser heraf i forbindelse med en Bayes' strategi
benyttes følgende klassifikationsregel for klassifikation i population 1:

Side 357

DIVL7646

(2)

hvor qi er apriori-sandsynligheden for population nr. i, og Ci er omkostningerne
at klassificere et element fra population j i population i.

Et interessant og i praksis meget betydningsfuldt problem i forbindelse med
applikationen af (i) og (2) er evalueringen af de respektive sandsynligheder
for korrekt klassifikation. Disse er hhv.:


DIVL7654

(3)


DIVL7658

(4)

hvor Fi er diskriminantfunktionens fordelingsfunktion for den i1 te population, og c er afskæringsværdien (cfr. højresiden af ulighedstegnet i (2)). Når såvel D{x) som c er kendte, er problemet trivielt, eftersom D (x) da er normalfordelt med parametrene:

(5)


DIVL7666

DIVL7668

(6)


DIVL7672

(7)

hvor A2A2 = (//1 -/i 2)'i7"1(/i1-ja2), dvs. Mahalanobis' generaliserede afstandsfunktion de teoretiske parametre. I praksis er informationen imidlertid som oftest ufuldstændig, såvel hvad angår diskriminantfunktionen som afskæringsværdien. har initieret en lang række studier på området, hvis fælles kendetegn er, at problemerne omkring D(x) behandles indgående, hvorimod c som oftest tages for givet.

Den første behandling af problemet findes i Wald (1944), hvori fordelingen
en variant af (1) søges etableret, når parametrene er ukendte og
derfor erstattes af de forventningsrette og konsistente estimater:


DIVL7680

(8)


DIVL7684

(9)

Side 358

DIVL7688

(10)

hvor Nj er stikprøvens størrelse for den j'te population.

Senere er fordelingen for D (x) = x'S'^Xjx2) — M>(xi x2)'S~1(x1 x2) gjort til genstand for intensive studier med den deraf følgende konklusion, at den nøjagtige fordeling er for kompliceret til at kunne finde anvendelse til numeriske og at man derfor må støtte sig til asymptotiske resultater. Der kan blandt andre henvises til Anderson ((1951), (1973))? Sitgreaves ((1952), (1961)), Bowker and Sitgreaves (1961) og Okamoto ((1963), (1968)). Sidstnævnte er en generel asymptotisk udvikling for fordelingen for D(x) til og med led af ordenen Nx~\ N 2N2-2, (N^*)-1, (JV1(JV1+^2-2))-1, (JV2(JV1+ JV2-2))~1 og (JVI+jV1 +jV" 2-2)~2. Det bemærkes, at fordelingsproblemet løses automatisk, JVi og N 2N2 begge er store, eftersom estimaterne (8), (9) og (10) er konsistente. Fordelingen for D(x) konvergerer da mod fordelingen for Z)(x).

Sideløbende med forsøgene på at etablere fordelingen for D(x) har man måttet erkende, at begrebet sandsynlighed for korrekt klassifikation ikke længere entydigt, når parametrene estimeres. Hills (1966) har givet en stringent af problemet formuleret i sandsynligheden for at fejlklassificere individ fra population 1, ax. Han fremhæver, at foruden den ukendte, sande sandsynlighed, a^D^x)), har følgende sandsynligheder interesse:

(1) a^D^x)) = Pr(D{x) < c\i,x1}x2, S) dvs. den faktiske fejlklassifikationssandsynlighed.

(2) E(a1(D(x))) — Pr(D(x) < c\i) dvs. den gennemsnitlige faktiske fejlklassifikationssandsynlighed.

Hertil kommer, at også fordelingen for a1(D(x))a1(D(x)) kan være af interesse.

Det indses umiddelbart, at a1(^(x))a1(^(x)) er den relevante fejlklassifikationssandsynlighed, D(x) allerede er valgt som klassifikationsinstrument, hvorimod for a^Dix)) og E(a1(D(x))) har interesse på et tidligere trin i planlægningen.

Estimation af de nævnte sandsynligheder er behandlet intensivt i litteraturen.For
kan henvises til Fisher (1936), Smith (1947), Frank et al.
(1965), Sorum (1971) og Joy and Tollefson (1975) og for E(a1(D{x))) til

Side 359

John (1961), Lachenbruch ((1965), (1967), (1968)), Lachenbruch and Mickey (1968), Hills (1966) og Dunn (1971). Endelig har John (1961) givet en asymptotisk udvikling af fordelingen for ax(.D(x)). En generel bibliografi er publiceret af Toussaint (1974), ligesom Lachenbruch (1975) giver omfattendehenvisninger.

Som tidligere anført tager disse studier afskæringsværdien for givet. Årsagerne hertil kan være mange. Den primære er formentlig, at det inden for mange af de traditionelle anvendelsesområder for diskriminantanalysen er rimeligt at antage C1 = C2, samtidig med at disse områder (f.eks. det biologiske det antropologiske) lider under dataknaphed. I driftsøkonomiske analyser forholdet som regel lige modsat. Således er datafremskaffelsen sjældent problem, medens det til gengæld ikke vil være forsvarligt at antage, at forholdet mellem omkostningerne er 1. En anvendelse af diskriminantanalysen for dette område vil derfor kræve, at fokus vendes mod afskæringsværdien.

Det er den almindelige opfattelse (se f.eks. Lachenbruch (1975)), at det i praksis er meget svært at arbejde med omkostningerne som det direkte grundlag for fastsættelsen af afskæringsværdien, og at man derfor må angribe problemet fra andre sider. Der findes i litteraturen et enkelt forsøg herpå, hvori Anderson (1969) (set med en økonoms øjne) betragter problemet fra en satisfieringssynsvinkel, idet der diskrimineres under hensyntagen til beslutningstagerens for fejlklassifikationssandsynlighederne. Denne metode lider imidlertid af den svaghed, at den ikke sikrer klassifikation af samtlige elementer, hvorfor der i dette arbejde skal anvises en alternativ fremgangsmåde. Denne fremgangsmåde baseres på en egentlig optimeringstankegang, afskæringsværdiens fastsættelse betragtes som et mikroøkonomisk

2. Afskæringsværdien i mikroøkonomisk belysning

Det er forfatterens erfaring, at det i mangfoldige situationer er lettere at arbejde direkte på de betingede sandsynligheder for korrekt klassifikation, Pi °S end på omkostninger og apriori-sandsynligheder ved fastsættelse af en rimelig afskærings værdi. Lad derfor udgangspunktet for det efterfølgende være beslutningstagerens nyttefunktion specificeret i/^og /32, U(f}13 /32). Lad endvidere de konkrete parameterværdier være kendt eller estimeret på grundlag så store stikprøver, at den forannævnte konvergens med rimelighed kan betragtes som opfyldt. Det fremgår nu, at

Side 360

DIVL7827

figur 1. Bibetingelser som funktion afMahalanobis' A2A2 (fix = i—ø {Ø~x(fi?) A)).


DIVL7717

(11)


DIVL7721

(12)

hvor ø er standardnormalfordelingsfunktionen. Dette indebærer, da ((£+
yy2A*)jA)-A = (e-y2A*)lA,2it


DIVL7727

(13)

der ses at være den relevante bibetingelse, hvorunder nyttefunktionen skal maksimeres med det formål at bestemme optimalkombinationen for de nævnte sandsynligheder og hermed den optimale afskæringsværdi. Det fremgår, at bibetingelsen er en funktion af A2A2 med et forløb som skitseret i figur nr. i. Lad herefter Mi = dU{f5l}f}2)ldfii, dvs. den partielle grænsenytte for den i'te sandsynlighed for korrekt klassifikation. Det ønskede maksimum for nyttefunktionen da findes af ligningen:

Side 361

DIVL7733

(14)

der under hensyntagen til bibetingelsen (13) kan ændres til:


DIVL7739

(15)

hvoraf fremgår, at den optimale afskæringsværdi skal findes af udtrykket:


DIVL7745

(16)

hvor fi ligesom i (15) angiver den normale tæthedsfunktion for den z'te population.
«**/>(— Y2(c-y2AyiA*), og daf2(c)ocexp(—y2(c+y2A*)*lA*),
fremgår det ved indsættelse, at den optimale afskæringsværdi optræder ved:


DIVL7751

(17)

Idet M-JM-2 benævnes det marginale substitutionsforhold mellem de betingede sandsynligheder for korrekt klassifikation, kan optimalbetingelsen hermed formuleres følger: / optimumspunktet er afskæringsværdien lig med minus den naturlige til det marginale substitutionsforhold mellem de betingede sandsynligheder for korrekt klassifikation.

Da M2\MX = —dpjdfiz for dU(^1,^2) — °> fremgår det, at optimum
også kan udtrykkes ved ligningen:


DIVL7759

(18)

hvor Ept(Pj) = (dlnØx/ålnPi) = (åpjåPs) (ptlP^ angiver elasticiteten af Pi med hensyn til P2. Da imidlertid PX\P% -> 1 for 2 —>-00, fremgår det, at for store værdier af A2A2 kan fastsættelsen af den optimale afskæringsværdi med rimelighed foretages udelukkende på grundlag af kendskab til elasticiteten i indifferenskurverne, hvilket indebærer visse praktiske fordele, eftersom denne ofte udviser en bemærkelsesværdig konstans. Formelt fås:

Side 362

DIVL7765

(19)

Når situationen A2A2 -» oo tages op til speciel overvejelse, er årsagen den, at gevinsten ved indførelse af en klassifikationsregel vil være positivt samvarierende A2. Da indførelsen endvidere fra en driftsøkonomisk synsvinkel repræsenterer tilfælde af total tilpasning, må gevinsten foruden variable omkostninger kunne dække implementeringsomkostningerne, der som oftest er af en ikke uvæsentlig størrelsesorden. Dette har som konsekvens, at man i det praktiske arbejde ofte konfronteres med relativt store værdier af A2.

Den anvendte fremgangsmåde ved optimeringen svarer til en anvendelse af den velkendte kæderegel for differentiation på strukturen: U(pi3p2) hvor px = gx(c) og $2 = c)* I den hensigt at opnå et resultat analogt til efterspørgselsteoriens der som bekendt siger, at den vejede grænsenytte i optimum skal være ens i alle anvendelser og lig med indkomstens grænsenytte, må denne struktur omformes til: U(pi,p2) hvor P\=g\x{c,A) og Pi=g2\{c,A), da A for nærværende afstikker grænser for valget af sandsynligheder, er analoge til de grænser, indkomsten afstikker for konsumentens varevalg. Idet q> betegner standardnormaltætheden for den z'te population, fører differentiation heraf til følgende ligningssystem:


DIVL7773

(20)


DIVL7777

(21)

Sættes (21) lig med o følger, at (20) kan gives nedenstående fremstilling


DIVL7783

(22)

der gør det muligt at formulere følgende til Gossen-betingelsen analoge optimalbetingelse: optimale qfskæringsværdi findes, hvor de med standardnormaltæthederne grænsenytter af de betingede sandsynligheder for korrekt klassifikation er ens og lig med grænsenytten af Mahalanobis" A.

Alternativt kunne vi have nået dette resultat ved følgende Lagrange-formulering vort optimeringsproblem: Maksimér U(fix,fit) når ø~1((}2)&~x (1Pj) = A. Resultatet heraf er MM1 q) 1 = M2M2y2 = Å, hvor A er Lagrangemultiplikatoren. sidstnævnte er netop lig med den ændring, man opnår i kriteriefunktionen, når konstantleddet i bibetingelsen ændres infinitesimalt (Johansen (1962)), hvoraf resultatet følger.

Side 363

DIVL7830

figur 2. Bestemmelse af optimalkombination for en Cobb-Douglas nyttefunktion med A = io,a = 0,25 og b = 0,75. A2A2 = 4.

Som beregningseksempler antages i det efterfølgende, at beslutningstagerens
er af Cobb-Douglas resp. CES-typen. Dvs.:


DIVL7793

(23)


DIVL7797

(24)

<TextAlignment type="Center"/>hvor A>o, o<a<i, o<b<i, B>o, C>o, D>o og —i<£<o eller q>o. <Linebreak/>

Disse funktionstyper er valgt som illustration, fordi begge besidder egenskaber, ofte antages at være til stede hos nyttefunktioner. Begge er således kvasikonkave og har dermed konvekse niveaumængder (se fig. 2 og 3). Endvidere begge homogene; Cobb-Douglas funktionen af graden a+b og CES funktionen af graden 1. Endelig gælder der for Cobb-Douglas funktionen, at elasticiteten i dens niveauflader (indifferenskurver) er konstant (jfr. tidligere).

For Cobb-Douglas funktionen ((23)) er dpjdp2 = —{b/a) (ft/Øa), og
optimalpunktet bestemmes følgelig af:

Side 364

DIVL7833

figur 3. Bestemmelse af optimalkombination for en CES nyttefunktion med B = 10, C= 0,9 og D = 0,1. A2A2 = 4.


DIVL7807

(25)

som løses ved hjælp af iteration. Bemærk i øvrigt, at Ept{fi^) = —{b/a), hvorfor
for store værdier af A2A2 kan beregnes direkte:


DIVL7813

(26)

I figur nr. 2er beregningerne udført for A = 10, a = .25, b = .75 og A2A2 = 4.
Resultatet er, at den optimale værdi aft er .85, hvortil svarer /?x = .719 og
{3232 = .924. er 8.68.

For CES funktionen bestemmes optimalpunktet af:


DIVL7821

(27)

som ligeledes løses ved iteration. I figur nr. 3 er beregningerne udført for
B —io, C =.90, D = .10, q = 1 og A2A2 = 4. Det fremgår, at den optimale
e-værdi er —1.35 hvortil svarer /3X = .953 og /32 = -627. {/-værdien er 9.07.

Side 365

3. Fastsættelse af afskæringsværdien i praksis

I den praktiske situation, hvor beslutningstagerens nyttefunktion er ukendt, må approximative metoder tages i anvendelse. Rent konkret anmodes om at give et indledende skøn over afskæringsværdien. dette skøn være cO.c0. Hertil svarer følgende sandsynligheder for korrekt :


DIVL7843

(28)


DIVL7847

(29)

I det ved ØØx * og 002 * dannede punkt Taylor-udvikles nyttefunktionen, £/(Øi,02), og erstattes af første ordens leddene. Dvs. at tangentplanet i punktet (oi*,02*) benyttes som substitut for den sande nyttefunktion. Idet £/<(Øi,02) betegner tangentplanet fås:


DIVL7853

(S«)

omformning fås heraf:


DIVL7859

(30

Tangentplanet kan naturligvis måles i nye enheder uden tab af generalitet,
og der arbejdes derfor videre på højresiden af (31):


DIVL7865

(32)

hvor H = [MJMz]^*^*) dvs. det marginale substitutionsforhold i det
ved beslutningstageren givne punkt. Minimering heraf under bibetingelsen
(13) fører til resultatet:


DIVL7871

(33)

Side 366

hvilket kan indses umiddelbart af resultaterne i afsnit 2 (specielt (17)). Imidlertid H ukendt og må erstattes af et skøn. Dette skøn opnås ved at anmode beslutningstageren om at angive en ny kombination af sandsynligheder for korrekt klassifikation, som efter hans opfattelse er beliggende på samme isonyttekurve som den ved c0 givne kombination. Lad denne kombination være (/?i**,^2 **)j hvorefter skønnet over H, H, kan beregnes til:


DIVL7877

(34)

Den praktiske bestemmelse af afskæringsværdien finder således sted ved anvendelse


DIVL7883

(35)

Hvis det opnåede resultat ligger fjernt fra cO,c0, kan der rejses tvivl om approximationens og proceduren bør derfor gentages. Principielt bør proceduren til løsningen er stabil, og det indses derfor, at metoden alternativt kan betragtes som et kalibreringsinstrument for en traditionel Bayes-løsning.

I Altman (1968) anvendes diskriminantanalyse til at skelne mellem konkursramte
2) °g ikke-konkursramte (Px) virksomheder på basis af følgende
nøgletal:


DIVL7891

(36)

Resultatet er følgende diskriminantfunktion:


DIVL7897

(37)

med A2A2 = 5.31, idet der ses bort fra konvergensproblemerne.

Antag som et eksempel på den ovenfor anførte metodes anvendelse, at
en beslutningstager vil benytte (37) i forbindelse med sin kreditgivning, idet
han som udgangspunkt benytter sig af den traditionelle afskæringsværdi på o.

Side 367

I den hensigt at kalibrere afskæringsværdien beregnes den til c0 hørende
kombination af sandsynligheder for korrekt klassifikation til:


DIVL7907

(38)

Beslutningstageren oplyser, at han for at være indifferent forlanger, at et fald i /32 på .05 skal kompenseres med en stigning i px på .08. I nytteteoretiske termer følger heraf, at (.875, .875) ~ (.955, .825) = (p1 ** } Øa**). Skønnet over parameteren H kan derefter beregnes til:


DIVL7913

(39)

jf. (34). Af (35) følgerda:


DIVL7919

(40)

hvorefter de faktiske sandsynligheder for korrekt klassifikation kan beregnes
til pi = .829 og p2p2 = .915.

Kreditgiverens beslutningsregel bliver herefter, at der ydes kredit, når
D(x) er større end eller lig .47, og at der gives afslag, når D(x) er mindre end

Litteratur

adelman, i. and morris, c. t. 1968. Per- formance Criteria for Evaluating Econo- mic Development Potential: An Opera- tional Approach. Quarterly Journal of Economics, vol. LXXXII, pp. 260-280.

altman, E. 1968. Financial Ratios, Discriminant and the Prediction of Corporate Journal of Finance, pp. 589-610.

anderson, j. A. 1969. Discrimination be-

anderson, t. w. 1951. Classification by Multivariate
Psychometrika, vol. 16,
pp. 31-50.

anderson, t. w. 1958. An Introduction to
Multivariate Statistical Analysis. New
York.

anderson, t. w. 1973. Asymptotic Evaluation the Probabilities of Misclassification Linear Discriminant Functions. I T. Cacoullos, ed. (1973), pp. 17~35-

anderson, t. w. 1973. An Asymptotic Expansion the Distribution of the »Studentized« Statistic W. Annals Statistics, 1, pp. 964-972.

blunch, n. 1968. En metode til klassificering
af kundeemner. Erhvervsøkonomisk Tidsskrift,
2, pp. 81-95.

BOWKER, A. H. and SITGREAVES, R. 1961. An Asymptotic Expansion of the Distribution Function of the W-classification Statistic. I H.Solomon, ed. (1961), pp. 293-310.

cacoullos, t., ed. 1973. Discriminant Analysis
Applications. New York.

deakin, e. b. 1972. A Discriminant Analysis
of Predictors of Business Failure. Journal
of Accounting Research, pp. 167-179.

dunn, o. j. 1971. Some Expected Values for Probabilities of Correct Classification in Discriminant Analysis. Technometrics, 13, P- 345-

fisher, r. a. 1936. The Use of Multiple
Measurements in Taxonomic Problems.
Annals of Eugenics, 7, pp. 179-188.

FRANK, R. E., MASSY, W. F. and MORRISON, D. G. 1965. Bias in Multiple Discriminant Analysis. Journal of Marketing Research, 2, pp. 250-258.

hills, m. 1966. Allocation Rules and their
Error Rates. Journal of the Royal Statistical
828, pp. 1-31.

johansen, l. 1962. Notat om tolkningen af
Lagrange-multiplikatorer. Memo fra Socialøkonamisk
Oslo.

John, s. 1961. Errors in Discrimination. Annals
Mathematical Statistics, 32, pp.
1125-1144.

joy, o. m. and tollefson, j. o. 1975. On the

lachenbruch, p. a. 1965. Estimation of Error Rates in Discriminant Analysis. Ph. D. dissertation. of California at Los Angeles.

lachenbruch, p. a. 1967. An Almost Unbiased of Obtaining Confidence Intervals for the Probability of Misclassification Discriminant Analysis. Biometrics, pp. 639-645.

lachenbruch, p. a. 1968. On Expected Values Probabilities of Misclassification in Discriminant Analysis, Necessary Sample Size, and a Relation with the Multiple Correlation Coefficient. Biometrics, 24, p. 823.

lachenbruch, p. a. 1975. Discriminant Analysis.
York.

LACHENBRUCH, P. A. and MICKEY, M. R. 1968.
Estimation of Error Rates in Discriminant
Analysis. Technometrics, 10, p. 1.

OKAMOTO, m. 1963. An Asymptotic Expansion the Distribution of the Linear Discriminant Annals of Mathematical 34, pp. 1286-1301.

OKAMOTO, m. 1968. Correction to: An Asymp-

totic Expansion for the Distribution of the
Linear Discriminant Function. Annals of
Mathematical Statistics, 39, pp. 1358—

SITGREAVES, r. 1952. On the Distribution of Two Random Matrices used in Classification Annals of Mathematical 23, pp. 263-270.

SITGREAVES, R. 1961. Some Results on the Distribution of the W-classification Statistic. H.Solomon, ed. (1961), pp. 241-25X -

smith, c. a. b. 1947. Some Examples of Dis-

soLOMON, h., ed. 1961. Studies in Item Analysis
Prediction. Stanford University
Press.

sorum, m. 1971. Estimating the Conditional
Probability of Misclassification. Technometrics,
p. 333.

tintner, G. 1946. Some Applications of Multivariate to Economic Data, fournal the American Statistical Association, 41, pp. 472-500.

toussaint, g. t. 1974. Bibliography on Estimation Misclassification. lEEE Transactions Information Theory, vol. IT-20, pp. 472—479.

wald, a. 1944. On a Statistical Problem Arising in the Classification of an Individual One of Two Groups. Annals of Mathematical Statistics, 15, pp. 145-162.

welker, r. b. 1974. Discriminant Analysis
as an Aid to Employee Selection. The Accounting
pp. 514-523.

26