Nationaløkonomisk Tidsskrift, Bind 116 (1978)En metode til kalibrering af diskriminantanalysensInstitut for Statistik og Datalogi, Handelshøjskolen i Århus Kai Kristensen Resumésummary : In this article the application of Fishers linear discriminant function for classification purposes is considered from a microeconomic point of view focusing on the determination of the cut-off point. The Decision-Makers utility function [indifference function) specified in the conditional probabilities of correct classification is used as a starting point, whereupon the utility function is maximized subject to the relevant constraint the conditional probabilities of correct classification. The results are adapted to practice through an approximation of the utility function by help of a Taylor expansion around a set of probabilities calculated from a preliminary estimate of the cut-off point given by the Decision-Maker. I. IndledningFisher's lineære diskriminantfunktion (Fisher (1936)) har i de senere år vundet stor udbredelse inden for det driftsøkonomiske område ved løsning af taxonomiske problemstillinger. Se eksempelvis Blunch (1968), der indeholder en række afsætningsøkonomiske eksempler, Altman (1968) og Deakin (1972), der er eksempler på finansielle anvendelser og Welker (1974), der kan henføres det organisatoriske område. Af andre økonomiske anvendelser kan nævnes Tintner (1946) og Adelman and Morris (1968). I Anderson's
version (Anderson (1951) og (1958)) har Fisher's
to-gruppe (0 hvor xeren (pxl)
normalfordelt stokastisk vektor, (fjLrfi2) er
differencen mellem Ved
klassifikatoriske anvendelser heraf i forbindelse med en
Bayes' strategi Side 357
(2) hvor qi er
apriori-sandsynligheden for population nr. i, og Ci er
omkostningerne Et interessant og
i praksis meget betydningsfuldt problem i forbindelse
med (3) (4) hvor Fi er diskriminantfunktionens fordelingsfunktion for den i1 te population, og c er afskæringsværdien (cfr. højresiden af ulighedstegnet i (2)). Når såvel D{x) som c er kendte, er problemet trivielt, eftersom D (x) da er normalfordelt med parametrene: (5) (6) (7) hvor A2A2 = (//1 -/i 2)'i7"1(/i1-ja2), dvs. Mahalanobis' generaliserede afstandsfunktion de teoretiske parametre. I praksis er informationen imidlertid som oftest ufuldstændig, såvel hvad angår diskriminantfunktionen som afskæringsværdien. har initieret en lang række studier på området, hvis fælles kendetegn er, at problemerne omkring D(x) behandles indgående, hvorimod c som oftest tages for givet. Den første
behandling af problemet findes i Wald (1944), hvori
fordelingen (8) (9) Side 358
(10) hvor Nj er
stikprøvens størrelse for den j'te population. Senere er fordelingen for D (x) = x'S'^Xj—x2) — M>(xi —x2)'S~1(x1 —x2) gjort til genstand for intensive studier med den deraf følgende konklusion, at den nøjagtige fordeling er for kompliceret til at kunne finde anvendelse til numeriske og at man derfor må støtte sig til asymptotiske resultater. Der kan blandt andre henvises til Anderson ((1951), (1973))? Sitgreaves ((1952), (1961)), Bowker and Sitgreaves (1961) og Okamoto ((1963), (1968)). Sidstnævnte er en generel asymptotisk udvikling for fordelingen for D(x) til og med led af ordenen Nx~\ N 2N2-2, (N^*)-1, (JV1(JV1+^2-2))-1, (JV2(JV1+ JV2-2))~1 og (JVI+jV1 +jV" 2-2)~2. Det bemærkes, at fordelingsproblemet løses automatisk, JVi og N 2N2 begge er store, eftersom estimaterne (8), (9) og (10) er konsistente. Fordelingen for D(x) konvergerer da mod fordelingen for Z)(x). Sideløbende med forsøgene på at etablere fordelingen for D(x) har man måttet erkende, at begrebet sandsynlighed for korrekt klassifikation ikke længere entydigt, når parametrene estimeres. Hills (1966) har givet en stringent af problemet formuleret i sandsynligheden for at fejlklassificere individ fra population 1, ax. Han fremhæver, at foruden den ukendte, sande sandsynlighed, a^D^x)), har følgende sandsynligheder interesse: (1) a^D^x)) =
Pr(D{x) < c\i,x1}x2, S) dvs. den faktiske
fejlklassifikationssandsynlighed. Hertil kommer, at
også fordelingen for a1(D(x))a1(D(x)) kan være af
interesse. Det indses umiddelbart, at a1(^(x))a1(^(x)) er den relevante fejlklassifikationssandsynlighed, D(x) allerede er valgt som klassifikationsinstrument, hvorimod for a^Dix)) og E(a1(D(x))) har interesse på et tidligere trin i planlægningen. Estimation af
de nævnte sandsynligheder er behandlet intensivt i
litteraturen.For Side 359
John (1961), Lachenbruch ((1965), (1967), (1968)), Lachenbruch and Mickey (1968), Hills (1966) og Dunn (1971). Endelig har John (1961) givet en asymptotisk udvikling af fordelingen for ax(.D(x)). En generel bibliografi er publiceret af Toussaint (1974), ligesom Lachenbruch (1975) giver omfattendehenvisninger. Som tidligere anført tager disse studier afskæringsværdien for givet. Årsagerne hertil kan være mange. Den primære er formentlig, at det inden for mange af de traditionelle anvendelsesområder for diskriminantanalysen er rimeligt at antage C1 = C2, samtidig med at disse områder (f.eks. det biologiske det antropologiske) lider under dataknaphed. I driftsøkonomiske analyser forholdet som regel lige modsat. Således er datafremskaffelsen sjældent problem, medens det til gengæld ikke vil være forsvarligt at antage, at forholdet mellem omkostningerne er 1. En anvendelse af diskriminantanalysen for dette område vil derfor kræve, at fokus vendes mod afskæringsværdien. Det er den almindelige opfattelse (se f.eks. Lachenbruch (1975)), at det i praksis er meget svært at arbejde med omkostningerne som det direkte grundlag for fastsættelsen af afskæringsværdien, og at man derfor må angribe problemet fra andre sider. Der findes i litteraturen et enkelt forsøg herpå, hvori Anderson (1969) (set med en økonoms øjne) betragter problemet fra en satisfieringssynsvinkel, idet der diskrimineres under hensyntagen til beslutningstagerens for fejlklassifikationssandsynlighederne. Denne metode lider imidlertid af den svaghed, at den ikke sikrer klassifikation af samtlige elementer, hvorfor der i dette arbejde skal anvises en alternativ fremgangsmåde. Denne fremgangsmåde baseres på en egentlig optimeringstankegang, afskæringsværdiens fastsættelse betragtes som et mikroøkonomisk 2. Afskæringsværdien i mikroøkonomisk belysningDet er forfatterens erfaring, at det i mangfoldige situationer er lettere at arbejde direkte på de betingede sandsynligheder for korrekt klassifikation, Pi °S end på omkostninger og apriori-sandsynligheder ved fastsættelse af en rimelig afskærings værdi. Lad derfor udgangspunktet for det efterfølgende være beslutningstagerens nyttefunktion specificeret i/^og /32, U(f}13 /32). Lad endvidere de konkrete parameterværdier være kendt eller estimeret på grundlag så store stikprøver, at den forannævnte konvergens med rimelighed kan betragtes som opfyldt. Det fremgår nu, at Side 360
(11) (12) hvor ø er
standardnormalfordelingsfunktionen. Dette indebærer, da
((£+ (13) der ses at være den relevante bibetingelse, hvorunder nyttefunktionen skal maksimeres med det formål at bestemme optimalkombinationen for de nævnte sandsynligheder og hermed den optimale afskæringsværdi. Det fremgår, at bibetingelsen er en funktion af A2A2 med et forløb som skitseret i figur nr. i. Lad herefter Mi = dU{f5l}f}2)ldfii, dvs. den partielle grænsenytte for den i'te sandsynlighed for korrekt klassifikation. Det ønskede maksimum for nyttefunktionen da findes af ligningen: Side 361
(14) der under
hensyntagen til bibetingelsen (13) kan ændres til:
(15) hvoraf fremgår,
at den optimale afskæringsværdi skal findes af
udtrykket: (16) hvor fi ligesom i
(15) angiver den normale tæthedsfunktion for den z'te
population. (17) Idet M-JM-2 benævnes det marginale substitutionsforhold mellem de betingede sandsynligheder for korrekt klassifikation, kan optimalbetingelsen hermed formuleres følger: / optimumspunktet er afskæringsværdien lig med minus den naturlige til det marginale substitutionsforhold mellem de betingede sandsynligheder for korrekt klassifikation. Da M2\MX =
—dpjdfiz for dU(^1,^2) — °> fremgår det, at optimum
(18) hvor Ept(Pj) = (dlnØx/ålnPi) = (åpjåPs) (ptlP^ angiver elasticiteten af Pi med hensyn til P2. Da imidlertid PX\P% -> 1 for 2 —>-00, fremgår det, at for store værdier af A2A2 kan fastsættelsen af den optimale afskæringsværdi med rimelighed foretages udelukkende på grundlag af kendskab til elasticiteten i indifferenskurverne, hvilket indebærer visse praktiske fordele, eftersom denne ofte udviser en bemærkelsesværdig konstans. Formelt fås: Side 362
(19) Når situationen A2A2 -» oo tages op til speciel overvejelse, er årsagen den, at gevinsten ved indførelse af en klassifikationsregel vil være positivt samvarierende A2. Da indførelsen endvidere fra en driftsøkonomisk synsvinkel repræsenterer tilfælde af total tilpasning, må gevinsten foruden variable omkostninger kunne dække implementeringsomkostningerne, der som oftest er af en ikke uvæsentlig størrelsesorden. Dette har som konsekvens, at man i det praktiske arbejde ofte konfronteres med relativt store værdier af A2. Den anvendte fremgangsmåde ved optimeringen svarer til en anvendelse af den velkendte kæderegel for differentiation på strukturen: U(pi3p2) hvor px = gx(c) og $2 = c)* I den hensigt at opnå et resultat analogt til efterspørgselsteoriens der som bekendt siger, at den vejede grænsenytte i optimum skal være ens i alle anvendelser og lig med indkomstens grænsenytte, må denne struktur omformes til: U(pi,p2) hvor P\=g\x{c,A) og Pi=g2\{c,A), da A for nærværende afstikker grænser for valget af sandsynligheder, er analoge til de grænser, indkomsten afstikker for konsumentens varevalg. Idet q> betegner standardnormaltætheden for den z'te population, fører differentiation heraf til følgende ligningssystem: (20) (21) Sættes (21) lig
med o følger, at (20) kan gives nedenstående
fremstilling (22) der gør det muligt at formulere følgende til Gossen-betingelsen analoge optimalbetingelse: optimale qfskæringsværdi findes, hvor de med standardnormaltæthederne grænsenytter af de betingede sandsynligheder for korrekt klassifikation er ens og lig med grænsenytten af Mahalanobis" A. Alternativt kunne vi have nået dette resultat ved følgende Lagrange-formulering vort optimeringsproblem: Maksimér U(fix,fit) når ø~1((}2)—&~x (1—Pj) = A. Resultatet heraf er MM1 q) 1 = M2M2y2 = Å, hvor A er Lagrangemultiplikatoren. sidstnævnte er netop lig med den ændring, man opnår i kriteriefunktionen, når konstantleddet i bibetingelsen ændres infinitesimalt (Johansen (1962)), hvoraf resultatet følger. Side 363
Som
beregningseksempler antages i det efterfølgende, at
beslutningstagerens (23) (24) <TextAlignment type="Center"/>hvor A>o, o<a<i, o<b<i, B>o, C>o, D>o og —i<£<o eller q>o. <Linebreak/> Disse funktionstyper er valgt som illustration, fordi begge besidder egenskaber, ofte antages at være til stede hos nyttefunktioner. Begge er således kvasikonkave og har dermed konvekse niveaumængder (se fig. 2 og 3). Endvidere begge homogene; Cobb-Douglas funktionen af graden a+b og CES funktionen af graden 1. Endelig gælder der for Cobb-Douglas funktionen, at elasticiteten i dens niveauflader (indifferenskurver) er konstant (jfr. tidligere). For Cobb-Douglas
funktionen ((23)) er dpjdp2 = —{b/a) (ft/Øa), og
Side 364
(25) som løses ved
hjælp af iteration. Bemærk i øvrigt, at Ept{fi^) =
—{b/a), hvorfor (26) I figur nr. 2er
beregningerne udført for A = 10, a = .25, b = .75 og
A2A2 = 4. For CES
funktionen bestemmes optimalpunktet af: (27) som ligeledes
løses ved iteration. I figur nr. 3 er beregningerne
udført for Side 365
3. Fastsættelse af afskæringsværdien i praksisI den praktiske situation, hvor beslutningstagerens nyttefunktion er ukendt, må approximative metoder tages i anvendelse. Rent konkret anmodes om at give et indledende skøn over afskæringsværdien. dette skøn være cO.c0. Hertil svarer følgende sandsynligheder for korrekt : (28) (29) I det ved ØØx * og 002 * dannede punkt Taylor-udvikles nyttefunktionen, £/(Øi,02), og erstattes af første ordens leddene. Dvs. at tangentplanet i punktet (oi*,02*) benyttes som substitut for den sande nyttefunktion. Idet £/<(Øi,02) betegner tangentplanet fås: (S«) omformning fås
heraf: (30 Tangentplanet kan
naturligvis måles i nye enheder uden tab af generalitet,
(32) hvor H =
[MJMz]^*^*) dvs. det marginale substitutionsforhold i
det (33) Side 366
hvilket kan indses umiddelbart af resultaterne i afsnit 2 (specielt (17)). Imidlertid H ukendt og må erstattes af et skøn. Dette skøn opnås ved at anmode beslutningstageren om at angive en ny kombination af sandsynligheder for korrekt klassifikation, som efter hans opfattelse er beliggende på samme isonyttekurve som den ved c0 givne kombination. Lad denne kombination være (/?i**,^2 **)j hvorefter skønnet over H, H, kan beregnes til: (34) Den praktiske
bestemmelse af afskæringsværdien finder således sted ved
anvendelse (35) Hvis det opnåede resultat ligger fjernt fra cO,c0, kan der rejses tvivl om approximationens og proceduren bør derfor gentages. Principielt bør proceduren til løsningen er stabil, og det indses derfor, at metoden alternativt kan betragtes som et kalibreringsinstrument for en traditionel Bayes-løsning. I Altman (1968)
anvendes diskriminantanalyse til at skelne mellem
konkursramte (36) Resultatet er
følgende diskriminantfunktion: (37) med A2A2 = 5.31,
idet der ses bort fra konvergensproblemerne. Antag som et
eksempel på den ovenfor anførte metodes anvendelse, at
Side 367
I den hensigt at
kalibrere afskæringsværdien beregnes den til c0 hørende
(38) Beslutningstageren oplyser, at han for at være indifferent forlanger, at et fald i /32 på .05 skal kompenseres med en stigning i px på .08. I nytteteoretiske termer følger heraf, at (.875, .875) ~ (.955, .825) = (p1 ** } Øa**). Skønnet over parameteren H kan derefter beregnes til: (39) jf. (34). Af (35)
følgerda: (40) hvorefter de
faktiske sandsynligheder for korrekt klassifikation kan
beregnes Kreditgiverens
beslutningsregel bliver herefter, at der ydes kredit,
når Litteraturadelman, i. and morris, c. t. 1968. Per- formance Criteria for Evaluating Econo- mic Development Potential: An Opera- tional Approach. Quarterly Journal of Economics, vol. LXXXII, pp. 260-280. altman, E. 1968. Financial Ratios, Discriminant and the Prediction of Corporate Journal of Finance, pp. 589-610. anderson, j. A.
1969. Discrimination be- anderson, t. w.
1951. Classification by Multivariate anderson, t. w.
1958. An Introduction to anderson, t. w. 1973. Asymptotic Evaluation the Probabilities of Misclassification Linear Discriminant Functions. I T. Cacoullos, ed. (1973), pp. 17~35- anderson, t. w. 1973. An Asymptotic Expansion the Distribution of the »Studentized« Statistic W. Annals Statistics, 1, pp. 964-972. blunch, n. 1968.
En metode til klassificering BOWKER, A. H. and SITGREAVES, R. 1961. An Asymptotic Expansion of the Distribution Function of the W-classification Statistic. I H.Solomon, ed. (1961), pp. 293-310. cacoullos, t.,
ed. 1973. Discriminant Analysis deakin, e. b.
1972. A Discriminant Analysis dunn, o. j. 1971. Some Expected Values for Probabilities of Correct Classification in Discriminant Analysis. Technometrics, 13, P- 345- fisher, r. a.
1936. The Use of Multiple FRANK, R. E., MASSY, W. F. and MORRISON, D. G. 1965. Bias in Multiple Discriminant Analysis. Journal of Marketing Research, 2, pp. 250-258. hills, m. 1966.
Allocation Rules and their johansen, l.
1962. Notat om tolkningen af
John, s. 1961.
Errors in Discrimination. Annals joy, o. m. and
tollefson, j. o. 1975. On the lachenbruch, p. a. 1965. Estimation of Error Rates in Discriminant Analysis. Ph. D. dissertation. of California at Los Angeles. lachenbruch, p. a. 1967. An Almost Unbiased of Obtaining Confidence Intervals for the Probability of Misclassification Discriminant Analysis. Biometrics, pp. 639-645. lachenbruch, p. a. 1968. On Expected Values Probabilities of Misclassification in Discriminant Analysis, Necessary Sample Size, and a Relation with the Multiple Correlation Coefficient. Biometrics, 24, p. 823. lachenbruch, p.
a. 1975. Discriminant Analysis. LACHENBRUCH, P.
A. and MICKEY, M. R. 1968. OKAMOTO, m. 1963. An Asymptotic Expansion the Distribution of the Linear Discriminant Annals of Mathematical 34, pp. 1286-1301. OKAMOTO, m.
1968. Correction to: An Asymp- totic Expansion
for the Distribution of the SITGREAVES, r. 1952. On the Distribution of Two Random Matrices used in Classification Annals of Mathematical 23, pp. 263-270. SITGREAVES, R. 1961. Some Results on the Distribution of the W-classification Statistic. H.Solomon, ed. (1961), pp. 241-25X - smith, c. a. b.
1947. Some Examples of Dis- soLOMON, h., ed.
1961. Studies in Item Analysis sorum, m. 1971.
Estimating the Conditional tintner, G. 1946. Some Applications of Multivariate to Economic Data, fournal the American Statistical Association, 41, pp. 472-500. toussaint, g. t. 1974. Bibliography on Estimation Misclassification. lEEE Transactions Information Theory, vol. IT-20, pp. 472—479. wald, a. 1944. On a Statistical Problem Arising in the Classification of an Individual One of Two Groups. Annals of Mathematical Statistics, 15, pp. 145-162. welker, r. b.
1974. Discriminant Analysis 26
|