Ledelse og Erhvervsøkonomi/Handelsvidenskabeligt Tidsskrift/Erhvervsøkonomisk Tidsskrift, Bind 34 (1970)Hypoteseprøvning i den multinomiske fordeling fra et geometrisk synspunktAf Ernst Lykke Jensen *), Sven L. Caspersen **), Axel Schultz Nielsen ***) og Jørgen Kai Olsen ***) Resumé:C. R. Rao har i [6, kapitel 5 og 6] givet en fremstilling af den parametriske teori for den multinomiske fordeling, der i det væsentlige er baseret på dels; et krav om, at estimatoren er asymptotisk efficient (af første orden) [6, p. 285], og dels en sætning, der angiver en tilstrækkelig betingelse for, at en kvadratisk form i Karl Pearsons vektor er fordelt efter 2-fordelingen [6, p. 318]. Hensigten med den foreliggende artikel er at forenkle teorien yderligere ved udnyttelse af den kendsgerning, at estimatoren er asymptotisk ækvivalent med en projektion. 1. IndledningDet antages, at klassesandsynlighederne nXi .. Tik i den multinomiske fordeling er funktioner af en parametervektor 0 = (61,..i6Q)' med g elementer, q < k. Idet n er antallet af uafhængige gentagelser i det multinomiske eksperiment, sætter vi D == ) fn(d-&), hvor Q = (6i,--,6g)f er estimator for 6. Lad 1(6) betegne logaritmen til likelihood funktionen, og lad Z= (Zi>' -) ZqY være en vektor, hvis r'te element er .£,• = n~idl^Jddr. Estimatoren siges at være asymptotisk efficient, hvis den for w-»oo er fuldstændig korreleret med den afledede af likelihood funktionen, d.v.s. D = BZi hvor B er en matrix med konstante elementer, der gerne må afhænge af 6. Symbolet læses »asymptotisk ækvivalent med« og har betydningen at differensen mellem venstresiden og højresiden konvergerer i sandsynlighed mod nul. Hvis antal observationer i de k klasser er «!,..,«* (b = »! + .. + «*), er 1(6) = nl\ogn1\ogn1(0) + . .+nk\og7tk(o) og *) Professor, dr. polit., **) Afdelingsleder, cand. polit. ***) Amanuensis, cand. mere, Institut for teoretisk Statistik, Handelshøjskolen i København. Side 130
idet nx +. . -\- Tit = 1 medfører, at åjtjådr +••+ dnicjddr = 0.1 matrixformulering kan vi skrive denne relation på formen £ = M'T, hvor M er en kxq matrix, hvis (i,j)'te element er 2 ajr</<sfy, og hvor Ter Karl Pearsons vektor Det (r., s)'te
element i M'M, d.v.s. er det (r, j)'te element i Fishers informationsmatrix for en enkelt multinomisk observation. Vi forudsætter, at søjlerne i Af er lineært uafhængige, således at $er regulær. Vælger vi nu B= 1, er D= = (M'Afj-WT, d.v.s. MD 1 PT, hvor P = M{M'M)-^M' er en projektionsmatrix. Vi ser altså, at MD er asymptotisk ækvivalent med projektionen af Karl Pearsons vektor på Fishers informationsrum, d.v.s. det vektorrum i?(Af) med dimension q, som udspændes af søjlerne i M. I 1900 beviste Karl Pearson, at en simpel hypotese angående nXi. nu kan testes ved beregning af T2, der under nulhypotesen asymptotisk, d.v.s. for rø->oo, er fordelt efter med k—l frihedsgrader. Hvis man i Karl Pearsons teststørrelse erstatter th med ni(d), hvor d er maksimum likelihood estimator for 6, fremkommer en stokastisk variabel, der har samme asymptotiske fordeling som (T— PT)2. Fisher [5] har vist, at fordelingen er en #2 -fordeling med k'-l-g frihedsgrader, når modellen m = th{o) er rigtig. I Cramér [4, kapitel 30] finder man Side 131
relationen D1 $~1£;~1£; men bevisførelsen er baseret på den unødvendigt strenge forudsætning, at klassesandsynlighederne har kontinuerte aflededeaf anden orden. Rao har bevist, [6, p. 296], at eksistensen af de afledede i en omegn af 6 og deres kontinuitet i d (suppleret med en identifikationsbetingelse)er nok til at sikre eksistensen af en løsning af likelihoodligningen £ = 0, der er konsistent og asymptotisk efficient. Hoist Andersen [1] tager udgangspunkt i den eksponentielle klasse af fordelingerog viser også, at likelihood ratio testet er asymptotisk ækvivalent med #2 -testet. I Birch [2] er relationen D= $~]>£ etableret under den svagere forudsætning, at klassesandsynlighederne er differentiable i det sande parameterpunkt 6. 2. Fordelingslovene for Y, PY, Y-PY og D. Karl Pearsons sætningDen asymptotiske fordeling for Y er JV*/fc,jfc-i(O, f&- q><p'), d.v.s. en A;-dimensional normal fordeling med rang k-1, nulvektoren som middelværdivektor og med kovariansmatrix lic~-cp<p\ hvor f & er enhedsmatricen af orden k, og <p er enhedsvektoren (j f^i,. J ftt*)'. Det er
tilstrækkeligt at vise, at fordelingen er en
endimensional normal Side 132
er normalt fordelt for n^-cc. Lad U være en stokastisk variabel med sandsynlighedsfordeling Pr(U = bif\/ni) = m (i = 1,. k). EU, EU2 og vart f er henholdsvis ££ f = (£, 93) (= cos a, hvor a er vinklen mellem b og 95), EU2 = £2 (= 1) og vart f = b2-(b,(p)2 (= l-cos2a). Da nu og Uti .., Un er
uaf haengige og identisk fordelt efter ovennaevnte
Det er herefter
en simpel sag at angive fordelingsloven for
projektionsvektoren Det bemærkes,
at 99-vektoren står vinkelret på Fishers
informationsrum, Side 133
mationsrumværeudspændt af de q
første koordinatakser Ax,. Aq i det Længderne af Karl
Pearson vektoren, projektionsvektoren og
residualvektoren asymptotisk er
fordelt efter %%2-fbrdelingen med k—l frihedsgrader,
Og asymptotisk er
stokastisk uafhængige og fordelt efter #2-fordelingen
med Da Z = M'Y og M'M
= % og da ep står vinkelret på R(M), er cov£ ==
Side 134
3. X²-testet for modelkontrolDa m er
differentiabel i punktet 6, fås ved en Taylorudvikling,
at den idet restleddet
konvergerer i sandsynlighed mod nul. Heraf kan vi
slutte, at har samme asymptotiske fordeling som (PY)2, d.v.s. en 2-fordeling med q frihedsgrader. Hvis modellen ikke forkastes ved testet for modelkontrol, der omtales nedenfor, har Rao [7, p. 31] foreslået R som teststørrelse ved afprøvning af en simpel hypotese for 6. Testet er asymptotisk uafhængig af #2-testet for modelkontrol, der førte til godkendelse af modellen. Da PT =MD= M^~XZ, er R under nulhypotesen asymptotisk kvivalent teststørrelserne (MD)2 = D'sD, (M^-1^)2 = Z"3~XZ °g> såfremt 6 estimeres ved maksimum likelihood metoden, med likelihood ratio testet. Den z'te
koordinat i residualvektoren T— PT er asymptotisk
ækvivalent hvor det sidste
skridt begrundes med konsistensen af Q og kontinuiteten
asymptotisk fordelt som (Y-PY)2, d.v.s. som y2y2 med h-\-q frihedsgrader. Den er asymptotisk uafhængig af de ovenfor nævnte teststørrelser for en simpel hypotese vedrørende 6, da Y og asymptotisk uafhængige. 4. Test for afvigelse i en enkelt klasseDersom
#2-testet fører til forkastelse af modellen, kan det
have interesseat Side 135
for variansen af L = nt-nn^B), der sætter os i stand til at teste afvigelsen ved hjælp af den standardiserede normalfordeling. Det vides ikke om Cochran, som bebudet i artiklen, har publiceret sit bevis. Et simpelt bevis, der kan betragtes som en forenkling af beviset i Rao [6; p. 328], er følgende. Vektoren med
koordinater har samme asymptotiske kovarlansmatrix som T- PTi hvorfor den asymptotiske varians af n er det r'te diagonalelement i h-cpcp -P, d.v.s. 1 -m- Pu. Hvis m er kontinuert differentiabel, kan vi slutte, at Gochrans asymptotisk følger en standardiseret normalfordeling, hvis afvigelsen i den z'te klasse blot skyldes en tilfældighed. Man bemærker, at V(L) er binomialfordelingens varians korrigeret med det z'te diagonalelement i projektionsmatricen. Accepteres
modellen, men forkastes en simpel hypotese B = BoBo ved
idet vektoren med
koordinater har samme
asymptotiske kovariansmatrix som PT. Som eksempel
betragter vi et talmateriale bestaende af n
Poissonobservationer Side 136
hvilket netop er
Cochrans korrektionsled. 5. Successiv testningVi ønsker på grundlag af specifikationen Bi = g{(T15. Tr), i= 1,. <7, r<<?, at undersøge om modellen kan udformes med færre parametre. Det antages, at qxr matricen A med elementer ågi/dtj har rangen r. Lad R(M) være Fishers informationsrum under r-modellen. Da er M = AIA,
hvorfor R(M) er et underrum af R{M), og Fishers
informations efficiente estimatorer under henholdsvis 6- og r-modellen, og lad PT og PY være projektionerne på henholdsvis R(M) og R{M). Hvis vi lader R{M) være udspændt af de r første basisvektorer Alt. Ar for det nye koordinatsystem, har vektoren PY— PY de nye koordinater (0,. 0, JV+u• >, 0,. 0). Hvis Ø-modellen ikke er forkastet efter modelkontroltestet i afsnit 3, og hvis r-modellen er rigtig, er m{d) = og følgelig har den i'te koordinat for vektoren PY-PY den asymptotisk kvivalente Side 137
Hvis r-modellen
er rigtig, kan vi heraf slutte, at teststørrelsen
Q En simpel hypotese for r afprøves ved et 2-test med r frihedsgrader på den i afsnit 3 angivne måde. Det bemærkes, at testet på et bestemt trin, på grund af den ortogonale opspaltning af Karl Pearsons vektor, asymptotisk er uafhængig af de tests, der førte til godkendelse af hypoteserne på de foregående trin. 6. Sammenligning af flere fordelingerDer foreligger m
multinomiske fordelinger med ki klasser i den z'te
hvor Mu er en
ktXq matrix, hvis (r, s)'tc element er 7tJr^d7l*'lddt8.
Hvis Side 138
Lad PT og PT
vaere projektionen af Karl Pearsons ( 2 pa °g hvor m. == »fa +.
.+ w«a:,. • Teststørrelsen for modelkontrol er under modellen
n^ = 7in(d) asymptotisk fordelt som (T-PT)2, altsa m ki under
homogenitetshypotesen asymptotisk er fordelt som
(PY-PY)2, LITTERATUR1. A. Hoist Andersen (1969): »Asymptotiske resultater for exponentielle familier«. Statistiske Interna No. 9, Matematisk Institut, Afdeling for statistik, Aarhus Universitet, og »Asymptotic results for exponential, families«. 37th session of the International Statistical Institute, Contributed papers, 259-260,. London, 1969. 2. M. W. Birch
(1964): »A new proof of the Pearson-Fisher Theorem«.
Ann. Math. Statist., 3. W. G. Cochran
(1954): »Some methods for strengthening the common yP
tests«. Biometrics, 4. H.Cramér
(1945): »Mathematical methods of statistics«, Princeton.
5. R. A. Fisher (1928): »On a property connecting the %% measure of discrepancy with the method of maximum likelihood«. Atti del Congresso Internazionale dei Mathematici, Bologna, 6, 95-100. Genoptrykt i »Contributions to mathematical statistics«, by R. A. Fisher (1950), Wiley, New York. 6. C.R.Rao (1965):
»Linear statistical inference and its applications«,
Wiley, New York. 7. C.R.Rao
(1961): »A study of large sample test criteria through
properties of efficient |