Evaluering og brug af samfundsforskning et norsk eksempel

Resumé

SUMMARY: The aim is to test the hypothesis of economies of scale in social science. The data consist of evaluations of 92 different Norwegian publications plus information about the institutions initiating, financing and performing each project. The hypothesis is tested by at simple probit regression as well as a bivariate probit model. According to the results regional research institutes perform better than national institutions. But projects carried out in single municipalities obtained lower scores than projects covering communities. Little correlation is found between quality according to local users and to academic referees. This illustrates the dilemma of applied research initiated and financed by a given group of users and evaluated by another group of referees.

1. Indledning

Stordriftsfordele blandt forskningsinstitutioner og forskningsmiljøer har længe været internationalt diskuteret emne. I de senere år har regeringer prøvet at styrke de stærke forskningscentre og reducere antallet af institutioner ud fra en tro på stordriftsfordele, i samfundsforskning. Store institutioner og netværk skulle klare sig bedre forsker end små og isolerede institutioner.

Formålet med denne artikel er at teste en hypotese om stordriftsfordele blandt samfundsvidenskabelige Det empiriske grundlag består af evalueringer af 92 anvendelsesorienterede forsknings- og udviklingsprojekter, som alle er støttet af et norsk forskningsinitiativ. Foruden den evaluerede kvalitet af hver publikation, har vi baggrundsdata med oplysninger om, hvilken institution der havde igangsat og finansieret pågældende forskning eller udvikling, institutionen som udførte den, samt tid og penge anvendt på det pågældende forskningprojekt etc. etc. Fire nordiske grupper af referees har evalueret publikationerne fra disse projekter. Resultatet af disse evalueringer forsøgt modelleret i en kvantitativ analyse. Hypotesen er, at store forskningscentre miljøer vil producere publikationer af højere kvalitet end publikationer fra mindre og måske mere isolerede enheder og miljøer. For det andet antages det, at publikationer ikke-forskningsenheder (som fx private konsulentfirmaer eller regeringsinstitutioner) blive bedømt til at have lavere kvalitet end publikationer fra regulære forskningsinstitutioner uafhængig af størrelse.

Side 155

2. KS Forskning

I 1986 startede KS, Kommunernes Sentralforbund, et forskningsprogram »KS Forskning«, som blev finansieret af et medlemsbidrag betalt af alle amter og kommuner Norge. KS er en landsforening af alle amter og kommuner i Norge (svarende til Kommunernes Landsforening og Amtsrådsforeningen i Danmark). I løbet af perioden 1987-92 bevilgede KS Forskning 133 mio. NOK til 263 projekter. Det samlede budget for disse projekter var 437 mio. NOK.

Formålet med KS Forskning var angiveligt at støtte forskning og udvikling af relevans arbejdet i amter og kommuner samt kommunikation af forskningsresultater til slutbrugere. Endelig kan man også se KS Forskning som et forsøg på at styrke og udvikle forskningsenheder og miljøer. Det norske tilfælde er af særlig interesse, det offentlige i Norge har støttet oprettelse af vidt spredte regionale forskningsenheder.

I 1992 besluttede KS at få evalueret forskningsprogrammet, da det blev diskuteret, (Jill plOglaililliCl 51S.U11C lOllsÆilC Ug i gIVCI fdid, Olil dCi sKUiiC t>kc UigdiiiadliUiiadLndringer. ønskede en evaluering af projekter finansieret af KS Forskning. Denne evaluering skulle inkludere en faglig bedømmelse, såvel som en stikprøveundersøgelse potentielle brugere i amter og kommuner. De faglige bedømmelsesudvalg skulle vurdere relevans og kvalitet af det offentliggjorte materiale fra en stikprøve af projekter.

AKF, Amternes og Kommunernes Forskningsinstitut i Danmark, blev udpeget til at lede evalueringen, og resultatet herfra er offentliggjort i Rieper og Kristiansen (1994). I denne artikel vil vi primært behandle resultatet af den faglige evaluering og mulige forklaringer på forskellene mellem kvalitetsvurderingerne af forskellige publikationer.

Brugen af peer-reviews i evaluering af forskning har været diskuteret bl.a. i OECD (1987). Metoden giver anledning til problemer med hensyn til definitionen af kvalitetsstandarder konsistens, specielt inden for samfundsforskning. Implikationerne af disse problemer er diskuteret i Hemlin (1991). Cole et al. (1981) indeholderet interessant på, hvorledes en ændring i sammensætningen af en peer-review gruppe kunne ændre resultatet af selve evalueringen. Vi skal vende tilbage til, at der ikke nødvendigvis overensstemmelse mellem definitioner eller opfattelser af, hvad der er kvalitet, inden for peer-review grupper og blandt brugerne af anvendt forskning. Dette nødvendiggør mere end almindelig forsigtighed, når man skal tage stilling til resultatet af en evalueringsproces.

3. Data

For at undersøge kvaliteten har AKF, som nævnt i indledningen, udtaget en stikprøvepå publikationer, som alle var helt eller delvis finansieret af KS Forskning. Nogle af publikationerne blev produceret inden for det samme forskningsprojekt. Detteintroducerer korrelation mellem evaluering af publikationer inden for samme

Side 156

projekt. Denne form for afhængighed kan analyseres i multi-level modeller for normalfordeltedata, fx Goldstein (1986). For kategoriserede data er en sådan modelleringmere og er derfor ikke anvendt i denne analyse, idet vi ønskede at introducereandre strukturer i data. Vi beregnede imidlertid binære indikatorvariablefor gruppe af publikationer, som tilhørte samme projekt. Flertalletaf indikatorer viste sig ikke at være signifikante i en regression, hvor de var de eneste forklarende variable, og de tilbageværende indikatorer blev insignifikante, når andre forklarende variable blev introduceret.

Det samlede antal projekter finansieret af KS var 263. Stikprøven dækkede således ca. 1/3 af alle projekter, men over 40% af det beløb, som blev brugt af KS (da stikprøven trukket under hensyntagen til KS' omkostninger). Således blev stikprøven betragtet som tilstrækkelig til at illustrere kvaliteten af KS Forskning (ifølge referees vurdering). Men selvfølgelig kan stikprøven kun anvendes til at illustrere den forgangne i KS Forskning, ikke norsk samfundsforskning.

For hver publikation har vi som nævnt en række variable, og hver publikation er evalueret af en gruppe akademiske referees fra forskellige nordiske lande, udvalgt af AKF. Hver gruppe evaluerede publikationer inden for et specifikt område. De fire områder økonomi, helse og social forskning, national udvikling, organisation mv. Publikationerne blev opdelt i to kategorier: forskning og ikke-forskning (udredning, udvikling, vurdering etc). Det blev klart, at denne opdeling var nødvendig efter en første gennemgang af nogle publikationer fra stikprøven, hvis såvel forskning som udredning skulle vurderes på egne præmisser.

Kvaliteten af forskningspublikationerne blev vurderet på følgende fire dimensioner: metode, relevans på kort sigt og relevans på langt sigt. Kvaliteten af ikke-forskningspublikationer blev kun vurderet på to dimensioner: nyhedsværdi og generel

Hver publikation var udtrukket enten af KS Forskning eller af AKF. I den efterfølgende analyse antager vi, at i relation til de forskellige kvalitetsmål er publikationerne af AKF udvalgt tilfældigt. Vi vil vende tilbage til den ikke-tilfældige for de øvrige publikationer.

Da der er fire evalueringskriterier for forskning og kun to for ikke-forskning, konstruerede to fælles kategorier ved at antage relevans som gældende for korttidsrelevans forskningspublikationer og relevans for ikke-forskningspublikationer, og inden nyhedsværdi tog vi værdien fra det relevante svar på hver kategori.

4. Den statistiske model

Da vi primært er interesseret i effekten fra forskellige eksogene variable pä responsvariablene, regressionsmodeller hensigtsmæssige. Lad os betegne vore to responsvariable, og nyhedsværdi, som v, og \\ og specificere en simpel probit regression for hver respons som

Side 157

hvor <£> er standard normalintegralet og x;. er en vektor af forklarende variable.

Responsvariablene er oprindelig kodet som kategoriske variable på en 5-punktsskala. blev den indledende modellering udført som en ordnet probit-model med fem niveauer. Dette viste sig at være alt for detaljeret i betragtning af antallet af observationer. blev antallet af niveauer reduceret til tre, hvilket stadig førte til insignifikante Sluttelig blev en binær indikatorvariabel beregnet for hver responsvariabel. skal imidlertid bemærkes, at hovedresultaterne ikke ændrer sig, men at signifikansen når vi bevæger os fra 5-punktsskalaen til de binære indikatorer.

Der estimeres også en udvidet version af (1). Dax_r formentlig ikke indeholder alle potentielle forklarende variable, introduceres et fejlled s i hver af regressionsligningerne. vi ikke kan sondre mellem fejlspecifikationer af den funktionelle form i (1) og tilstedeværelsen af et fejlled udvides (1) til en bivariat probit-model, der modellerer y_x og jf₂ sunuiiani som

(2)

hvor ønu er det bivariate standard normalintegrale. De tre øvrige simultane udfald for v, og y2y₂ defineres om i Maddala (1983). Den mulige korrelation mellem s_x og s2s₂ muliggør en identifikation af fejlen fra en potentiel fejlspecifikation af sandsynlighedsmodellen tilstedeværelsen af fejlleddene.

For at opnå det størst mulige antal observationer inkluderer vi data fra forskningspublikationer,såvel ikke-forskningspublikationer. Samtidig beregnes en indikatorvariabel(forskning), er 1, hvis publikationen antages at være forskning, ellers nul. Denne variabel indicerer i givet fald en forskel i vurderingen af kvalitetsniveauet mellem de to kategorier af publikationer. Da den er konstrueret i begyndelsen af evalueringsprocessen,kan af variablen være tvivlsom. Vi kan håndtere detteproblem at antage, at nogle ikke-observerede såvel som observerede regressorer alene bestemmer værdien af forskning, og at variablen forskning derfor ikke øver indflydelsepå to responsvariable givet, at de observerede variable inkluderes i modellenog at der korrigeres for de ikke observerede regressorer, som det sker i (2). Efter således at have kontrolleret for al relevant eksogen information antager vi, at variablenfor ikke påvirker responsvariablene. Vi har således løst endogenitetsproblemetved at antage, at givet al relevant information (som fx forskerkvalitet)har ingen indflydelse på responsen. Denne forudsætningkan ved at undersøge t-værdierne for regressionsparameteren for forskning,når estimeres. Da vi ikke kan kalkulere værdien af forskning for 10 ikke offentliggjorteprojekter stikprøven, har vi i første omgang udført regressionsanalyserneuden 10 observationer. I disse regressioner viste forskningsvariablen sig ikke at

Side 158

være signifikant, og vi accepterer derfor antagelsen om, at forskningsvariablen ingen
indflydelse har på responsvariablene. I de endelige regressioner sættes v, og v% til 0 for
de 10 nævnte observationer og inkluderes derefter i data.

For at håndtere det generelle konsistensproblem i peer-reviews beregner vi binære indikatorvariabler for hver gruppe af referees (dvs. for hvert af de fire emneområder). Vi fortolker ikke koefficienterne til disse variable som relateret til emnespecifikke effekter, antager, at de kontrollerer for forskellene mellem standarder for forskningskvalitet referee-grupperne. Da resultatet af evalueringsprocessen for hver publikation er en eller anden form for gennemsnitsvurdering inden for hver gruppe, vi således ikke, at nogen vurdering bliver biased som følge af forskellige definitioner kvalitetsstandard, så længe alle signifikante forklarende variable er inkluderet modellen.

Estimationen af modellerne ovenfor forudsætter, at data er tilfældigt udtrukket fra den undersøgte population. Desværre er dette ikke tilfældet for den samlede stikprøve som nævnt i afsnit 2. Vi har 92 observationer, men af disse er 14 udvalgt specielt til denne analyse. Hvis N er størrelsen af den samlede population, vil de 78 tilfældigt udvalgte hver have sandsynligheden l/N (N forudsættes at være stor) for at komme i stikprøven. De tilbageværende 14 publikationer har hver en sandsynlighed på 1 for at komme i stikprøven. Derfor er disse publikationer oversamplet med en faktor på 1/(1/ I estimationerne præsenteret nedenfor er de 14 specielt udvalgte publikationer vejet ned sammenlignet med de øvrige 78 publikationer. Vægten er konstrueret på en sådan måde, at det samlede antal observationer i stikprøven forbliver uændret. I det omfang problemstillingen ikke kan opfattes som et choice-based sampling se Amemiya (1985), efterlader denne fremgangsmåde stadig en vis bias i de estimerede parametre.

5. Empiriske resultater

Tabel 1 viser estimationsresultaterne for yx ~ relevans og tabel 2 de tilsvarende resultater
j 2j2 ~ nyhedsværdi. Tallene i parantes øverst i tabellen henviser til ligningerne
det forrige afsnit.

Umiddelbart bekræfter resultaterne ikke hypotesen om stordriftsfordele i norsk kommunalforskning. Tværtimod viser det sig, at regionale forskningsinstitutioner (regionale synes at klare sig bedre end nationale institutioner, private konsulentfirmaer Hvad angår relevans, er de regionale enheder vurderet til at ligge signifikant højere i kvalitet end de øvrige institutioner. Dette kunne måske forventes, da regionale forskningsinstitutioner skulle have en komparativ fordel i regional og lokal mens samme fordel synes mindre intuitiv rigtig med hensyn til innovationsdimensionen.

Det kan tilføjes, at større projekter (målt i tid og penge) absolut ikke vurderes højere
små.

Side 159

Tabel 1. Estimationsresultaterfory x ~ »relevans«.

Man kunne spørge, hvorfor forskning, udført af norske universiteter, ikke kan klare sig bedre i denne analyse, specielt da flere af disse universiteter har et højt internationalt inden for mange områder af samfundsforskning. Ét svar er, at der kun er inkluderet tre universitetspublikationer i data. Derfor kan de eksisterende data ikke bruges til at afvise hypotesen om stordriftsfordele. KS Forskning har simpelthen ikke rekvireret studier fra universiteter. Man skal dog samtidig være klar over, at de regionale kun tæller 27% af antallet af forskningsprojekter og 19% af midlerne allokeret fra KS Forskning. Specielt mente de regionale institutter ikke selv, at KS på nogen signifikant måde bidrog til deres trivsel (se Brofoss 1993). Faktisk data, at forskningsmiljøer i større regioner klarer sig bedre end i andre (de store er Osloområdet og Sør-landet, som tæller henholdsvis 24 og 13% af de 92 evaluerede publikationer).

Vi finder også tegn på stordriftsfordele på regionalt niveau, hvis datainput i et giventforskningsprojekt indhentet fra flere kommuner (dataindsamling). Projekter begrænset til problemer og emner i en enkelt kommune er signifikant ringere end projekter,der data fra mere end én kommune. Dette gælder for såvel nyhedsværdiensom Projekter, der alene handler om emner i et enkelt lokalsamfund, synes ofte isolerede og af ringe generel relevans. Projekter, som er startet i en enkelt kommune, kan også være isoleret fra relevant teori og resultater fra tilsvarende projekterandetsteds.

Side 160

Tabel 2. Estimationsresultaterfory-, ~ »nyhedsværdi«.

terandetsteds.De bidrager ikke til akkumulering af viden og erfaring. Sådanne projekterkunne
oplagte eksempler på manglende stordriftsfordele.

Endelig viser tabellerne, at de projekter, som blev initierede af KS Forskning selv (KS opdragsgiver), synes at være af lavere kvalitet end andre projekter. Projekter, der blev startet på initiativ af amter, kommuner, forskningsråd eller andre statslige institutioner, signifikant bedre chancer for at komme igennem evalueringsprocessen end dem, der blev startet af KS. Uanset hvorledes dette nu skal fortolkes, synes det som om KS Forskning ikke har haft evnen til at igangsætte forskning af acceptabel kvalitet - hvis man da skal tro peer-review s.

Grunden kunne være, enten at allokeringen af midler blev bestemt af politiske rsager, end hensyn til relevans eller nyhedsværdi. Eller at KS institutionen manglede nødvendige viden og ressourcer til at lede forskningspolitikken. Begge forklaringer kunne pege mod en ny organisation af KS forskningsprogrammer. Hvis formålet er forsknings- og udviklingsprojekter af høj kvalitet, skulle organisationen gøre brug af mere forskningsekspertise i udvælgelsen af emner og projekter. Men som vi skal se, er det muligt, at brugere vurderer dette helt anderledes end referees.

6. Evaluering og brugerværdi

42 af publikationerne, der blev evalueret, var også bedømt af brugere, som fx ledere i de norske kommuner (Asplan 1993). Så det var muligt at sammenholde de to sæt vurderingermod Resultatet var ikke opmuntrende. Skønt der var en signifikant positiv korrelation mellem graden af kvalitet i henhold til evalueringsgrupperne og brugerne, var sammenhængen ikke imponerende. Hvis kvalitetsmål, som vurderet af

Side 161

evalueringsgrupperne, skulle forklare kvaliteten, som målt af brugerne, blev R2R2 kun
0,09.

Årsagerne til, at kvaliteten som målt af evalueringsgrupperne kun forklarede så lidt
af brugernes præferencer, kunne være trefold.

For det første er subjektiviteten af peer-reviews velkendt, som tidligere omtalt.

For det andet brugte brugerne ikke forskningsresultaterne. I det mindste var det meget hvis overhovedet nogen, i kommunerne, der ændrede adfærd som resultat af forsknings- og udviklingsprojekterne fra KS (ifølge Asplan 1993). Dette resultat er imidlertid i overensstemmelse med almindelig empirisk erfaring vedrørende brugen af samfundsvidenskab (Rieper 1994). Brugerne var generelt mere positive end referees over for publikationernes kvalitet. Rapporterne selv blev dog sjældent studeret grundigt, sammenfatningerne i høj grad blev værdsat af de lokale ledere (men ikke lokale politikere, som kun kendte lidt til KS Forskning).

For det tredje kan relevans og nyhedsværdi være meget forskellige begreber set ud ne indicere det dilemma, som megen anvendt forskning og udvikling står over for, uanset om den er finansieret af kommuner, statsinstitutioner eller andre brugertyper. Produkterne skal bruges og finansieres af én gruppe og bliver evalueret af en anden, deraf dilemmaet.

7. Konklusion

Umiddelbart er der ingen stærke vidnesbyrd om stordriftsfordele i norsk samfundsforskning relevans for amter og kommuner. Tværtimod synes regionale forskningsinstitutioner klare sig bedre end nationale institutioner, men dette kunne lige så vel være resultatet af forskningspolitikken og allokeringen af midler som nogen indikation forskelle i kvalitet.

På den anden side fik forsknings- og udviklingsprojekter, der blev udført i et enkelt lokalsamfund, signifikant ringere vurdering end projekter, der dækkede to eller flere samfund. Det bør tilføjes, at publikationer fra en eller to af de større byregioner er evalueret at producere publikationer af relativ høj kvalitet sammenlignet med de øvrige regioner.

Endelig viste det sig, at projekter, der blev startet af KS Forskning, blev vurderet lavt. Dette kan måske illustrere politiske årsager eller mangel på evne, hvad angår forskningspolitik. Det kunne også tænkes, at de akademiske bedømmere var fjernt fra lokalbrugerne af publikationerne. Skønt der var en signifikant positiv korrelation mellem i henhold til referees og lokale brugere, var regressionskoefficienten mere end lav. Dette illustrerer dilemmaet i anvendt forskning sat i gang og finansieret af en brugergruppe, men evalueret af en ganske anden gruppe af akademiske bedømmere.

Side 162

Det er velkendt, at enhver evaluering af samfundsvidenskab indeholder et betydeligt element. Resultaterne af denne undersøgelse er kun direkte relevant for projekter, der blev finansieret af KS Forskning. Og mange gode grunde indicerer, at konklusionerne bør behandles med nænsomhed. Konklusionerne kunne ikke desto mindre være af interesse for andre offentlige institutioner, som finansierer samfundsforskning udvikling. Helt generelt skulle de måske tøve med at igangsætte isolerede og udviklingsprojekter i enkeltkommuner eller lokalsamfund uden reference generel teori og/eller empiriske resultater fra andre dele af verden. Tilsvarende de overveje at trække mere systematisk på et samfundsvidenskabeligt netværk, når forskningspolitik og projekter skal formuleres.

Hvis formålet med det evaluerede system også er forskning og udvikling af acceptabel er det nødvendigt med tættere kontakt til forskningsinstitutioner. En succesfuld fortsættelse af KS Forskning indebærer nok en ny organisation med større samfundsvidenskabelig kapacitet og uafhængighed af kommuner, amter, deres politikere sammenslutninger, samt tillige tættere kontakt med samfundsvidenskabelige forskningsmiljøer.

Men disse konklusioner er selvfølgelig draget af forskere fra AKF, Amternes og
Kommunernes Forskningsinstitut. De skal også derfor tages med et gran salt.

Litteratur

Ameniya, T. 1985. Advanced econometrics.
London.

Asplan Analyse As. 1993. Nytteværdien af KS
Forskning. En brukerundersøkelse. Oslo.

Brofoss, Karl Erik. 1993. Kommunernes Sentralforbund forskningsspecifik aktør - en delevaluering. Utredningsinstituttet for forskning og højere uddanning, Oslo.

Cole, S., L. Rubin og J. R. Cole. 1981. Chance
and consensus in peer review. Science, 214.

Goldstein, H. 1986. Multi-level mixed linear
model analysis using iterative generalized

least squares. Biometrika 73, page 43-56.

Hemlin, S. 1991. Quality in Science Researchers' and Judgments. Ph. D. Thesis, Department of Psychology, University of Gothenburg.

Maddala, G. S. 1983. Limited-dependent and
Qualitative Variables in Econometrics.
Cambridge.

OECD. 1987. Evaluation of research - a selection
current practices. Paris.

Rieper, O. og I. Kristiansen. 1994. Evaluering
af KS forskning. København.

Bilag 1: Beskrivelse af data (gennemsnit i parentes)

Nyhedsværdi: Indikatorvariabel for nyhedsværdi for en given publikation; lig 1,
hvis kvaliteten er vurderet gennemsnitlig eller over; ellers 0. (0.53)

Relevans: Indikatorvariabel for relevans for en given publikation; lig 1, hvis kvaliteten
vurderet gennemsnitlig eller over; ellers 0. (0.40)

Tid: Varighed i måneder af forskningsprojektet bag publikationen (er ikke nødvendigvis
afsat tid til produktion af den pågældende publikation). (32)

KS-andel: KS Forsknings andel af budgettet for forskningsprojektet bag publikationen
ikke nødvendigvis lig afsat andel til produktion af den pågældende publikation)

Dataindsamling: Dataindsamlingsmetode; lig 1 hvis data til projektet bag publikationen
indsamlet i flere kommuner eller hele Norge; ellers 0. (0.65)

Tema: økonomi: Emneindikator; lig 1, hvis emnet for publikationen er økonomi; ellers
(0.22)

Tema: helse/social: Emnedikator; lig 1, hvis emnet for publikationen er helse eller
sociale forhold; ellers 0. (0.28)

Forskning: Lig 1, hvis publikationen er klassificeret som forskning; ellers 0. (0.30)

Stat: Lig 1, hvis det er en institution på nationalt niveau, der udfører projektet bag
publikationen; ellers 0. (0.46)

Regional inst.: Lig 1. hvis det er en institution på regionalt niveau, der udfører projektet
publikationen (regionalt forskningsinstitut eller amt); ellers 0. (0.27)

Privat: Lig 1, hvis det er et privat konsulentfirma, der udfører projektet bag publikationen;
0. (0.10)

KS opdragsgivere: Lig 1, hvis det er KS Forskning, der selv er opdragsgiver til projektet,
0. (0.23)

Oslo region: Lig 1, hvis projektet bag publikationen blev udført i Oslo eller omkringliggende
(region 3); ellers 0. (0.24)

Sør-landet: Lig 1, hvis projektet bag publikationen blev udført i: Sør-landet (Trondheimområdet);
0. (0.13)

Der var flere variable i datasættet, men disse var insignifikante allerede i de indledende

Bilag 2

Tabel 1. Estimationsresultaterfor y_x —»relevans« y2y₂ ~ »nyhedsværdi«.

Nationaløkonomisk Tidsskrift, Bind 132 (1994)