Ledelse og Erhvervsøkonomi/Handelsvidenskabeligt Tidsskrift/Erhvervsøkonomisk Tidsskrift, Bind 34 (1970)

Hypoteseprøvning i den multinomiske fordeling fra et geometrisk synspunkt

Af Ernst Lykke Jensen *), Sven L. Caspersen **), Axel Schultz Nielsen ***) og Jørgen Kai Olsen ***)

Resumé:

C. R. Rao har i [6, kapitel 5 og 6] givet en fremstilling af den parametriske teori for den multinomiske fordeling, der i det væsentlige er baseret på dels; et krav om, at estimatoren er asymptotisk efficient (af første orden) [6, p. 285], og dels en sætning, der angiver en tilstrækkelig betingelse for, at en kvadratisk form i Karl Pearsons vektor er fordelt efter 2-fordelingen [6, p. 318]. Hensigten med den foreliggende artikel er at forenkle teorien yderligere ved udnyttelse af den kendsgerning, at estimatoren er asymptotisk ækvivalent med en projektion.

1. Indledning

Det antages, at klassesandsynlighederne nXi .. Tik i den multinomiske fordeling er funktioner af en parametervektor 0 = (61,..i6Q)' med g elementer, q < k. Idet n er antallet af uafhængige gentagelser i det multinomiske eksperiment, sætter vi D == ) fn(d-&), hvor Q = (6i,--,6g)f er estimator for 6. Lad 1(6) betegne logaritmen til likelihood funktionen, og lad Z= (Zi>' -) ZqY være en vektor, hvis r'te element er .£,• = n~idl^Jddr. Estimatoren siges at være asymptotisk efficient, hvis den for w-»oo er fuldstændig korreleret med den afledede af likelihood funktionen, d.v.s. D = BZi hvor B er en matrix med konstante elementer, der gerne må afhænge af 6. Symbolet læses »asymptotisk ækvivalent med« og har betydningen at differensen mellem venstresiden og højresiden konvergerer i sandsynlighed mod nul. Hvis antal observationer i de k klasser er «!,..,«* (b = »! + .. + «*), er 1(6) = nl\ogn1\ogn1(0) + . .+nk\og7tk(o) og



*) Professor, dr. polit.,

**) Afdelingsleder, cand. polit.

***) Amanuensis, cand. mere, Institut for teoretisk Statistik, Handelshøjskolen i København.

Side 130

DIVL2539

idet nx +. . -\- Tit = 1 medfører, at åjtjådr +••+ dnicjddr = 0.1 matrixformulering kan vi skrive denne relation på formen £ = M'T, hvor M er en kxq matrix, hvis (i,j)'te element er 2 ajr</<sfy, og hvor Ter Karl Pearsons vektor


DIVL2543

Det (r., s)'te element i M'M, d.v.s.


DIVL2547

er det (r, j)'te element i Fishers informationsmatrix for en enkelt multinomisk observation. Vi forudsætter, at søjlerne i Af er lineært uafhængige, således at $er regulær. Vælger vi nu B= 1, er D= = (M'Afj-WT, d.v.s. MD 1 PT, hvor P = M{M'M)-^M' er en projektionsmatrix. Vi ser altså, at MD er asymptotisk ækvivalent med projektionen af Karl Pearsons vektor på Fishers informationsrum, d.v.s. det vektorrum i?(Af) med dimension q, som udspændes af søjlerne i M.


DIVL2553

Figur 1

I 1900 beviste Karl Pearson, at en simpel hypotese angående nXi. „nu kan testes ved beregning af T2, der under nulhypotesen asymptotisk, d.v.s. for rø->oo, er fordelt efter med k—l frihedsgrader. Hvis man i Karl Pearsons teststørrelse erstatter th med ni(d), hvor d er maksimum likelihood estimator for 6, fremkommer en stokastisk variabel, der har samme asymptotiske fordeling som (T— PT)2. Fisher [5] har vist, at fordelingen er en #2 -fordeling med k'-l-g frihedsgrader, når modellen m = th{o) er rigtig. I Cramér [4, kapitel 30] finder man

Side 131

relationen D1 $~1£;~1£; men bevisførelsen er baseret på den unødvendigt strenge forudsætning, at klassesandsynlighederne har kontinuerte aflededeaf anden orden. Rao har bevist, [6, p. 296], at eksistensen af de afledede i en omegn af 6 og deres kontinuitet i d (suppleret med en identifikationsbetingelse)er nok til at sikre eksistensen af en løsning af likelihoodligningen £ = 0, der er konsistent og asymptotisk efficient. Hoist Andersen [1] tager udgangspunkt i den eksponentielle klasse af fordelingerog viser også, at likelihood ratio testet er asymptotisk ækvivalent med #2 -testet. I Birch [2] er relationen D= $~]>£ etableret under den svagere forudsætning, at klassesandsynlighederne er differentiable i det sande parameterpunkt 6.

2. Fordelingslovene for Y, PY, Y-PY og D. Karl Pearsons sætning

Den asymptotiske fordeling for Y er JV*/fc,jfc-i(O, f&- q><p'), d.v.s. en A;-dimensional normal fordeling med rang k-1, nulvektoren som middelværdivektor og med kovariansmatrix lic~-cp<p\ hvor f & er enhedsmatricen af orden k, og <p er enhedsvektoren (j f^i,. „ J ftt*)'.


DIVL2593

Figur 2

Det er tilstrækkeligt at vise, at fordelingen er en endimensional normal
fordeling i en vilkårlig valgt retning. Vi vælger retningen bestemt ved
enhedsvektoren b og skal vise, at skalarproduktet


DIVL2565
Side 132

er normalt fordelt for n^-cc. Lad U være en stokastisk variabel med sandsynlighedsfordeling Pr(U = bif\/ni) = m (i = 1,. „ k). EU, EU2 og vart f er henholdsvis ££ f = (£, 93) (= cos a, hvor a er vinklen mellem b og 95), EU2 = £2 (= 1) og vart f = b2-(b,(p)2 (= l-cos2a). Da nu


DIVL2569

og Uti .., Un er uaf haengige og identisk fordelt efter ovennaevnte
sandsynlighedsfordeling, er E(b, T) = 0 og var(£, T) = b2-(b,cp)2 =
b' (Ik-(p(p')b. Heraf folger, at T for ethvert n har middelvaerdi ET = 0
og kovariansmatrix cov Th— =h— cpcp'. Ved hjcelp af den centrale greensevaerdisaetning
skitter vi endvidere, at fordelingen af (b, T) for tz^oo er
en normal fordeling. Tilbage star at vise, at fordelingen af T har rangen
k-1. Dette er ensbetydende med at vise, at Karl Pearsons vektor i et
passende valgt koordinatsystem har en koordinat lig med 0, og at
de ovrige koordinater er fordelt efter Nk-i(0, h-i). Da (<p, T) =
k
n~i 2 (nt — rati) = 0, star 99-vektoren vinkelret pa Karl Pearsons vektor.
i-i
Vi drejer derfor koordinatsystemet omkring begyndelsespunktet 0 over i
et nyt koordinatsystem, saledes at cp bliver basisvektor for en, f.eks. den
sidste, af det nye systems koordinatakser. Lad de nye koordinater for
Karl Pearsons vektor vaere (jy15. „j>k-i, 0). Lad Aj vaere en sqjlevektor,
hvis elementer er gamle koordinater for den j'te basisvektor i det nye
koordinatsystem (Ajc = cp); da erjv^ = (Aj, T). Lad A vsere en £#(£-1)
matrix med sejler Ax,. „ Ajc-i. De k—\ forste nye koordinater for Karl
Pearsons vektor er elementerne i vektoren A'T, der ifolge det ovenfor
beviste er fordelt efter Nk-i(0, h-i)', thi da cp er vinkelret pa AX,..,AX,..,
Ajc-i, og A'A = Iic-i(A1,. „ Ajc-i er enhedsvektorer), fas cov(A'T) =
.4'(covr)^ = A'(Ik-q><p')A = A'A = /&_!.

Det er herefter en simpel sag at angive fordelingsloven for projektionsvektoren
Pr og residualvektoren Y-PY = (h-P) Y.

Det bemærkes, at 99-vektoren står vinkelret på Fishers informationsrum,
idet (cp,Mj) = ånjådj +. .+ dnicjdQj = 0 (j = 1,.., g), hvor Mj er 7'te
søjle i M. Følgelig er kovariansmatricerne for PY og Y- PY henholdsvis
æv (PY) = P(covY)P' = P(Ik-<p<p')P = P og cov (Y-PY) = (h-P)
covY(Ik-Py = (h-P)(h-w') -h-yf-P, idet Pog Ik-PIk-P er
symmetriske og idempotente matricer. Til den ortogonale opspaltning
Y = (Y-PY) +PY af Karl Pearsons vektor svarer altså kovariansmatrixopspaltningen1%
- 999 f= (h ~ cp<p' -P) +P. Vi lader nu Fishers informationsrumvære

Side 133

DIVL2596

Figur 3

mationsrumværeudspændt af de q første koordinatakser Ax,. „ Aq i det
nye koordinatsystem, hvorved projektionsvektorens og residualvektorens
nye koordinater er henholdsvis (y\,. „ 0,.., o) og (0,.., ø, yq+l,.yq+l,. „
yjc-i, o). Da nu ylt. „yic-i asymptotisk er stokastisk uafhængige og fordeltefter
den standardiserede normalfordeling, er PI" og T—PT asymptotiskstokastisk
uafhængige og fordelt efter henholdsvis Nk,q{o,P) og
Mt,*-i-(r(0,/-Wf-/>).

Længderne af Karl Pearson vektoren, projektionsvektoren og residualvektoren
er invariante over for drejningen af koordinatsystemet. Heraf
følger Karl Pearsons sætning, nemlig at


DIVL2579

asymptotisk er fordelt efter %%2-fbrdelingen med k—l frihedsgrader,
samt at


DIVL2583

Og


DIVL2587

asymptotisk er stokastisk uafhængige og fordelt efter #2-fordelingen med
henholdsvis q og k-l—q frihedsgrader.

Da Z = M'Y og M'M = % og da ep står vinkelret på R(M), er cov£ ==
M'(Ik-(p(k-(p(pf)M = $. Følgelig er ,£ asymptotisk fordelt efter JV8(O,
Heraf afledes umiddelbart fordelingsloven for D = ) fw(o-0); thi da
D= \$~IZi nar samme asymptotiske fordeling som S^-vj og følgelig
er D asymptotisk fordelt efter N,q (0, x).

Side 134

3. X²-testet for modelkontrol

Da m er differentiabel i punktet 6, fås ved en Taylorudvikling, at den
f'te koordinat i MD er


DIVL2606

idet restleddet konvergerer i sandsynlighed mod nul. Heraf kan vi slutte, at


DIVL2610

har samme asymptotiske fordeling som (PY)2, d.v.s. en 2-fordeling med q frihedsgrader. Hvis modellen ikke forkastes ved testet for modelkontrol, der omtales nedenfor, har Rao [7, p. 31] foreslået R som teststørrelse ved afprøvning af en simpel hypotese for 6. Testet er asymptotisk uafhængig af #2-testet for modelkontrol, der førte til godkendelse af modellen. Da PT =MD= M^~XZ, er R under nulhypotesen asymptotisk kvivalent teststørrelserne (MD)2 = D'sD, (M^-1^)2 = Z"3~XZ °g> såfremt 6 estimeres ved maksimum likelihood metoden, med likelihood ratio testet.

Den z'te koordinat i residualvektoren T— PT er asymptotisk ækvivalent
med


DIVL2616

hvor det sidste skridt begrundes med konsistensen af Q og kontinuiteten
af jt{. Følgelig er teststørrelsen for modelkontrol


DIVL2620

asymptotisk fordelt som (Y-PY)2, d.v.s. som y2y2 med h-\-q frihedsgrader. Den er asymptotisk uafhængig af de ovenfor nævnte teststørrelser for en simpel hypotese vedrørende 6, da Y og asymptotisk uafhængige.

4. Test for afvigelse i en enkelt klasse

Dersom #2-testet fører til forkastelse af modellen, kan det have interesseat
undersøge, om en bestemt klasse yder et særligt stort bidrag til
teststørrelsen. Cochran har i [3] for specielle tilfælde angivet formler

Side 135

for variansen af L = nt-nn^B), der sætter os i stand til at teste afvigelsen ved hjælp af den standardiserede normalfordeling. Det vides ikke om Cochran, som bebudet i artiklen, har publiceret sit bevis. Et simpelt bevis, der kan betragtes som en forenkling af beviset i Rao [6; p. 328], er følgende.

Vektoren med koordinater


DIVL2633

har samme asymptotiske kovarlansmatrix som T- PTi hvorfor den asymptotiske varians af n er det r'te diagonalelement i h-cpcp -P, d.v.s. 1 -m- Pu. Hvis m er kontinuert differentiabel, kan vi slutte, at Gochrans


DIVL2637

asymptotisk følger en standardiseret normalfordeling, hvis afvigelsen i den z'te klasse blot skyldes en tilfældighed. Man bemærker, at V(L) er binomialfordelingens varians korrigeret med det z'te diagonalelement i projektionsmatricen.

Accepteres modellen, men forkastes en simpel hypotese B = BoBo ved
Rao's test, nævnt i afsnit 3, kan et signifikant bidrag til R fra den z'te
klasse afsløres ved teststørrelsen


DIVL2643

idet vektoren med koordinater


DIVL2647

har samme asymptotiske kovariansmatrix som PT.

Som eksempel betragter vi et talmateriale bestaende af n Poissonobservationer
xl}x1} x2,..,x2,.., xn med parameter 6 grupperet i k klasser, saledes
3.t jci(6) =df exp(-0)/ i==o, 1,.., k— 1. Vi antager, at ner stor
oo
nok til at berettige bortkastelse af restsandsynligheden ]£ 7it(d). Da
6log 7ii{d)jdd = (i-d)jd, er 2w,i • ifn = maksimum likelihood estimatoren
for 0. Af formlen P = M{M'M)~IM' finder vi

Side 136

DIVL2653

hvilket netop er Cochrans korrektionsled.

5. Successiv testning

Vi ønsker på grundlag af specifikationen Bi = g{(T15. „ Tr), i= 1,. „ <7, r<<?, at undersøge om modellen kan udformes med færre parametre. Det antages, at qxr matricen A med elementer ågi/dtj har rangen r. Lad R(M) være Fishers informationsrum under r-modellen. Da


DIVL2664

er M = AIA, hvorfor R(M) er et underrum af R{M), og Fishers informations
matrix M'M = A'^A under r-modellen er regulær. Lad Q og t være


DIVL2680

Figur 4

efficiente estimatorer under henholdsvis 6- og r-modellen, og lad PT og PY være projektionerne på henholdsvis R(M) og R{M). Hvis vi lader R{M) være udspændt af de r første basisvektorer Alt. „ Ar for det nye koordinatsystem, har vektoren PY— PY de nye koordinater (0,. „ 0, JV+u „>, 0,. „ 0). Hvis Ø-modellen ikke er forkastet efter modelkontroltestet i afsnit 3, og hvis r-modellen er rigtig, er m{d) = og følgelig har den i'te koordinat for vektoren PY-PY den asymptotisk kvivalente

Side 137

DIVL2670

Hvis r-modellen er rigtig, kan vi heraf slutte, at teststørrelsen


DIVL2674

Q
asymptotisk er fordelt som y\, d.v.s. som /2/2 med q—r frihedsgrader.

En simpel hypotese for r afprøves ved et 2-test med r frihedsgrader på den i afsnit 3 angivne måde. Det bemærkes, at testet på et bestemt trin, på grund af den ortogonale opspaltning af Karl Pearsons vektor, asymptotisk er uafhængig af de tests, der førte til godkendelse af hypoteserne på de foregående trin.

6. Sammenligning af flere fordelinger

Der foreligger m multinomiske fordelinger med ki klasser i den z'te
fordeling. A priori er klassesandsynligheden ny for denj'te klasse i den
i'te fordeling en differentiabel funktion af diX,.., diq. Vi onsker at teste
homogenitetshypotesen dtr == dr. Htvis vi anbringer klassesandsynlighederne
som elementer ien vektor i raekkefolgen nxx,. „ nxicX, n2X,. „
7i2k2) ••5 ••5 nmkm er Fishers informationsrum R{M) et m^-dimenm

sionalt vektorrum, der er udspsendt af sojlerne i en ( 2 ki) X (mq) blokinddelt
matrix af typen *== x


DIVL2690

hvor Mu er en ktXq matrix, hvis (r, s)'tc element er 7tJr^d7l*'lddt8. Hvis
homogenitetshypotesen er rigtig, er Fishers informationsrum R(M) et
m
vektorrum udspaendt af ( 2 ki) x q matricen

Side 138

DIVL2694

Lad PT og PT vaere projektionen af Karl Pearsons ( 2 pa
— - ?=?= -1
henholdsvis R[M) og R(M), og lad 0 og 0* vaere efficiente estimatorer
for henholdsvis m^-parametervektoren 0 a priori og
t under hypotesen. Den (i,jYte koordinat i PT og PT er asymptotisk
aekvivalent med henholdsvis


DIVL2698

°g


DIVL2702

hvor m. == »fa +. .+ w«a:,. • Teststørrelsen for modelkontrol


DIVL2706

er under modellen n^ = 7in(d) asymptotisk fordelt som (T-PT)2, altsa
m
som 2 med 2 ki-m-mq frihedsgrader, medens teststorrelsen
t = i

m ki


DIVL2712

under homogenitetshypotesen asymptotisk er fordelt som (PY-PY)2,
d.v.s. som x 2x2 med mq-q frihedsgrader.

LITTERATUR

1. A. Hoist Andersen (1969): »Asymptotiske resultater for exponentielle familier«. Statistiske Interna No. 9, Matematisk Institut, Afdeling for statistik, Aarhus Universitet, og »Asymptotic results for exponential, families«. 37th session of the International Statistical Institute, Contributed papers, 259-260,. London, 1969.

2. M. W. Birch (1964): »A new proof of the Pearson-Fisher Theorem«. Ann. Math. Statist.,
16, 817-824.

3. W. G. Cochran (1954): »Some methods for strengthening the common yP tests«. Biometrics,
10, 417-451.

4. H.Cramér (1945): »Mathematical methods of statistics«, Princeton.

5. R. A. Fisher (1928): »On a property connecting the %% measure of discrepancy with the method of maximum likelihood«. Atti del Congresso Internazionale dei Mathematici, Bologna, 6, 95-100. Genoptrykt i »Contributions to mathematical statistics«, by R. A. Fisher (1950), Wiley, New York.

6. C.R.Rao (1965): »Linear statistical inference and its applications«, Wiley, New York.

7. C.R.Rao (1961): »A study of large sample test criteria through properties of efficient
estimates«. Sankhya, A 23, 25-40.,