Ledelse og Erhvervsøkonomi/Handelsvidenskabeligt Tidsskrift/Erhvervsøkonomisk Tidsskrift, Bind 63 (1999) 1Kvantificering af gruppediskussioner- metodetriangulerlng via edb? Marcus Schmidt og Hans Solgaard Side 55
ResuméArtiklen beskriverden kvalitative
analyseproces, indledningKvalitative data
og analysemetoder har altid Side 56
Kvalitative data vil typisk være beskrivelser og feller forklaringer afhændelsesforløb eller uddybning af holdninger i en konkret kontekst. Takket være de kvalitative teknikker kan analytikeren granske og afdække et bredt spektrum af fænomener. Derigennem opnås et indblik i komplicerede problemområder. Tekst (og billeder) er nu engang lettere forståelige og dermed mere overbevisende for mange beslutningstagere, end side op og side ned med tal, tabeller og grafer. Men der er
naturligvis en skyggeside. Set ud fra en poppersk videnskabsopfattelse kan man sige, at den kvalitative analyse med computerens hjælp har overskredet demarkationslinien mellem mytologi og videnskab. I en vis grad kan kvalitative analyser nu om stunder endog leve op til det såkaldte falisificeringskriterium, idet der kan opstilles hypoteser med hensyn til sprogbrug, relationer mellem ord mm., der kan efterprøves ved hjælp af statistiske tests. Brug af computere til kvalitative analyser støder derimod også på kritik: 1. Fokusering på kvantitative forhold, statistik osv. resulterer i at programmet styrer processen. Konsekvensen bliver at metoden styrer problemet fremfor det omvendte. 2. De kreative og intuitive tilgange sløres, nedtones og træder i baggrunden. 3. Der kommer for meget fokus på små, isolerede fænomener. 4. Samtidigt med at detaljer opprioriteres, går det holistiske overblik tabt, idet fokuseringen foregår på mikroniveau. Se hertil Evans (1989) og Robson and Hedges (1993). Vi skal ikke
her komme ruermere ind pa Side 57
desøges"valideret" ved hjælp af et lille empirisk eksempel. Afslutningsvis fortællervi kort om vores erfaringer med at brugemetoden på komplette gruppediskussioner. Den kvalitative analyseproces og fremkomsten af computer-støttet analyseEn af de væsentligste kritikpunkter ved den traditionelle kvalitative analyse er dens ateoretiske og usystematiske fremgangsmåde. Et klassisk eksempel herpå findes hos Popper. Han diskuterede engang en konkret opførsel hos et barn med Adler. "Once, in
1919,1 reporter/ to him a case, Det hænder, at
man i faglige tidsskrifter Heldigvis cr
sadanne tilfselde af "selvindlysende"
Deter nok ogsa i
det lys man skal se Inddelingen i
tabel 1 kan diskuteres, Side 58
programmerne i den foregående kategori kunne, men samtidigt indeholder noget nyt, da de er opstået på et senere tidspunkt. Programmerne
under 5-7 skiller sig ud. De fleste af programmerne i tabel 1 rummer booleanske søge-faeiliteter, indeksering og kan opstille lister med ordfrekvenser. De bedste features og brugervenlige interfaees, der ved programmernes fremkomst for ea 10-15 år siden var spredt ud over et stort antal forskellige producenter, er i tidens løb blevet overtaget af de fleste analyse-pakker. Følgen er at programmerne i dag kan mange af de samme ting og derfor er begyndt at ligne hinanden ret meget". De fås normalt i varianter til flere forskellige styresystemer og prisen svinger mellem halvtreds til hundrede dollars for en students-lab udgave til omkring tusind dollar for en fuld udbygget version. Det er i øvrigt slet ikke sikkert, at en anskaffelse er nødvendig, idet adskillige af faciliteterne (søgning, sortering, indeksering, visse statistiske oplysninger osv) er integreret i de gængse kontorpakkers standardmoduler. Så, hvis man i forvejen råder over noget sådant og til og med har adgang til relationsdatabase-software svarende til Access eller Dbase IV, da er man på forhånd ganske godt dækket ind. Man skal også være opmærksom på, at en del af programmerne enten kun fungerer når teksten, der skal indlæses, er på engelsk eller amerikansk (fx General Knqirer III) eller at visse centrale features formentlig ikke virker efter hensigten, når sproget er et andet. Selv hvis alt lader til at fungere, vil en række systemfiler være sat op til en- Side 59
gelsk hvilket medfører en forkert læsning (programmet vil fx tro at "possess" - og ikke "park" - er synonym for "have", når det behandler en dansk tekst). Etnograph, NUD.IST og General Enquirer er formentlig de tre, der anvendes mest. Når ingen af programmerne har opnået betydelig udbredelse uden for de akademiske cirkler er årsagen givetvis den, at de er tidskrævende at anvende. Bearbejdning og analyse består typisk i en detaljeret gennemgang og nærlæsning af teksten, hvorefter der skal indlægges koder, etableres kategorier mm. I følge Catterall and Maclaren (1998, 216) tager det i den første tid omkring 1 minut for at kode 'f > tekstlinie i NUD.IST. Med det tempo bliver det en opgave på ca 3 arbejdsdage for blot at kode en enkelt gruppediskussion. Når der oveni dette påløber 1-2 dage for at få et bånd skrevet ud, ja så ender man med at bruge en hel uge blot på det forberedende arbejde. Det vil helt sikkert sprænge de ressourcemæssige rammer for det budget, der er afsat til en kommerciel fokusgruppe. En andet
væsentlig svaghed er, at selv program kan komme
ud over dette aldeles Tekstanalyse ved hjælp af neurale netværkSelv om et
program som CATPAG stadigvæk Brugen af neurale netværk til tekstanalyse er først og fremmest blevet introduceret af folkene bag tekstanalyseprogrammet CATPAC (CATegory PACkage) fra Terra Research and Computing. Den oprindelige udvikling påbegyndtes sidst i 1970'erne; i 1989 blev programmet så udbygget til at inkludere et neural netværk. Se Woelfel and Fink (1980), Woelfel (1993), Woelfel and Stoyanoff, (undated). Den foreliggende version er CATPAC™ 4-Windows, Version For en generel introduktion til neurale netværk se for eksempel Masson and Wang (1990) samt Rasmussen (1995), mens en mere detaljeret beskrivelse kan findes hos White et al. (1992). Man skelner mellem to hovedtyper af netværk, - (a) supervised net\ ærk, som typisk anvendes Side 60
til klassifikations-formal. Her trcenes netvaerket pa historiske data til at kunne genkende cller forudsige et af flere mulige udfald - og (b) unsupei'vised'netvxrk, der anvendes til identifikation og kvantificering af monstre, som matte findcs i datasiut eller tckstfragmenter. Den type netvterk, der anvendes til tekstanalyse, er saledes af typen unsupervised, ogsa kaldet selforganizing. Det princip, som
neurale netværk er baseret Et neuralt netværk starter med et sæt neuroner, i tekstanalyse-tilfældet med én neuron for hvert ord, svarende til et "sanseindtryk" fra den tekst, som det neurale netværk læser. Det neurale netværk "sanser" n ord ad gangen. I CATPAC sættes n til værdien 7, svarende til det antal ord, som et menneske i følge den kognitive psykologi menes at kunne overskue i et enkelt "view". Jfr. Miller (1956, 81-97) Man husker i snit højst 7 parametre ved et produkt.
Forbindelserne mellem neuronerne Resultatet af
netværkets læsning af teksten Forberedelse af tekst til kvantitativ analyse: Filglatnings-processenFør man overhovedet giver sig i lag med CATPAC må det helt sikkert anbefales, at man har gjort et grundigt forarbejde. Det kommer nemlig ikke noget godt ud af blot Side 61
at indlæse en tekst (endsige en med et avanceret filformat). Det anbefales, at man gennemløber en forberedelsesfase, svarendetil det, som fremover ka\åesfil-glat- nings-processen. Det tilrådes også at man i første omgang holder sig til tekster af en overskuelig længde, dvs. allerhøjst to sider, men helst ikke mere end en side. Ved en gruppediskussion, hvor mødelederen skifter spørgsmål eller emne fx ti gange i løbet af seancen anbefales, at man nøjes med et enkelt mere eller minde sammenhængende emne som "rådata" til sin analyse. Man kan så om nødvendigt gentage processen flere gange og foretage en særkørsel for hvert emne-afsnit. Kort om fil-glatnings processens faser: Allerførst skal man transformere dvs. global-erstatte de danske tegn (æ til ae ø til oe og å til aa), eliminere orddelinger, holde sig til en record-længde på maksimalt 80 karakterer per linie samt fjerne andre interpunktionstegn end komma og punktum. Da programmet ignorerer tal er man i givet fald nødsaget til at verbalisere dem (fx omskrive Q 10 til QTI). Herefter kan teksten konverteres til ASCII-tekst med extension .txt. 1. Man skal nu
først og fremmest have defineret 2. Dernæst skal man have "ensrettet" vigtige ord, der minder meget om hinanden. Et typisk eksempel er samme ord i ental, flertal, bøjninger og evt. som verbum (barn, boerns, barnlig etc.). Her skal man så vælge en version, der an- vendes som gennemgaende standard, fx {boern}4. Det foreslas at ord, der i teksten ikke forefindes i standardformen, markercs vcd at skrive det sidste bogstav stort. Stod der oprindeligt {barns} eller {boernene}, da indgar ordet som {boerN} i analysen5. 3. Teksten skal renses for homonymer. Det kunne være en relevant oplysning, når et besøg i Tivoli opfattes som en{dyr} sag. Nu kan det imidlertid forekomme, at der i samme diskussion om børne-ferier falder en bemærkning om {dyr} i Zoologisk Have. 4. Der skal checkes for synonym-relationer, {boern}, {unger}, {mine døtre} o.lign. anvendes ofte i flæng. I sådanne situationer skal man enes om en gennemgående standard. Det foreslås, at man i de tilfælde, hvor keywords substituerer et synonym, markerer dette ved at man staver ordet ved skiftevis at anvende store og små bogstaver. Står der fx unger}, dette som {BoErN}. 5. Man skal kontrollere for negationer som {ikke}, {aldrig} og {hader}. Sådanne ord er typisk uinteressante i sig selv, hvorimod de kan "ompolere" betydningsindholdet af de keywords, i hvis tekstuelle omverden de befinder sig. I sådanne tilfælde er det nødvendigt at neutralisere de implicerede keywords. 6. Til sidst skal
man være klar over betydningen P'or en langt
mere detaljeret redegørelse Side 62
Case eksempel med uddrag af fokus gruppe for rugbrødSchmidt (1998a,
siderne 21-30 og 46-59). I tabel 2 ses en lille og relativt overskuelig tckst. Det drejer sig om et uddrag fra en gruppediskussion blandt 8 husmodre i alderen 20-49 armed born i husstanden, der alle var kunder hos en af de store detailhandelskaeder. Interviewet foregik for nogle ar siden i en dansk provinsby". Den lille gruppediskussion består af præcist 173 ord. Af disse ord staves 108 på forskellig vis (Dvs. at der forekommer 108 "unique words"). Først skal man nu have foretaget en række smårettelser: " f.eks." skal udskrives, idet det ellers læses som to ord, {f} og {eks} hvilket øger forvirringen. {mave- ftarmfunktioner} kan sammenskrives til et ordfmavetarmfunktioner}. Tan- kestregen i [03],
omdannes til et komma I det foreliggende tilfælde kunne det interessere på hvilken måde franskbrød og rugbrød vurderes ud fra et sundhedsmæssigt synspunkt, hvad man synes om smagen, og hvornår man spiser hvad. Det foreslås derfor, at der på nuværende tidspunkt oprettes en slags log-bog eller protokol, Side 63
hvori det på
detaljeret vis noteres, hvilke Tabel 3
sammenfatter 16 forskellige sekvcnser Det skyldes, at koblingen til {rugbroed} ikke forekom som "hævet over enhver tvivl". Derimod er vurderingen, at det lige akkurat var acceptabelt at substituere {lyst broed} med {FrAnSkßrOeD} og klart forsvarligt at erstatte {fuldkornsbroed} med (RuGbßoEd). Erfaringen tilråder her at anla'gge et konservativt kriterium mht. nærhed af sproglige varianter. Men analytikeren må fra sag til sag afgøre, om der bør anlægges et mere liberalt skelnemærke. Når man har gennemført disse ndringerer fremme ved tabel 4, en version af teksten, der er parat til at blive indlæst i CATPAC. Den indeholder nu 170 ord (100 unique words). Af disse samles interessen om præcis 7 unique keywords, der samlet forekommer 18 gange i teksten. De resterende152 ord (herunder 93 unique words) Side 64
er derimod uden interesse. Dette meddelesCAT PAG ved at indtaste eller indkopieredisse 93 ord i en såkaldt excludefil(med extension .exe)7. På den måde sikres,at CAT PAC ignorerer disse ordx. ResultaterTabel 5 viser resultatet af ordtællingen, akkompagneret af en clusteranalyse foretaget med udgangspunkt i de syv definerede I venstre kolonne er ordene opført på en måde, der minder om det fra de hierarkiske clusteranalysemodeller så velkendte dendrogram. Det fremgår tydeligt af figuren, at der tale om to klynger, hvoraf den ene {franskbroed, morgen, usund, smag} forekommer mere fasttømret eller udkrystalliseret end den anden {godt, rugbroed, sund}. I tabel 6 vises
en tabel, dcr svarer til en Side 65
turligt led i
analyseprocessen ville være at Fabel 7 viser
resultatet af en såkaldt Det noteres, at
neuronet {franskbroed} mellem mærker og
begreber, hvis de tolkes Figur 1 gengiver
det todimensionale Påny ses en klar
association mellem Side 66
Figur 2 understreger atter den tætte association mellem {franskbroed}, {morgen} og {usund}. Det noteres, at den tætte association mellem {rugbroed} og {godt} svækkes lidt, når man ser på tredjeaksen. Det bliver endvidere klart, at {sund} ligger langt fra disse to ord i denne dimension". KonklusionDen lille analyse
byggede på 18 forekomster Den ene af
forfatterne har anvendt programmet mændene. De i alt
5 mænd med småbørn Generelt set kan
man forestille sig mange Side 67
SummaryThe article describes a qualitative analysis process and how this process can be supported by the use of computers. New advanced software for text analysis, based on a neural network, is presented. The article gives instructions on how a text should be prepared prior to being subjected to a quantitative analysis. How the program works is being validated by means of an empirical example. In conclusion, the authors describe their experience in the use of the method for complete group discussions. Noter 1 EDB'-programmer til analyse af kvalitative data går underfællesbetegnelsen CAQDAS (Computer Assisted Qualitative Data Analysis Software) 2 For en grundig gennemgang af programmerne henvises læseren til Weitzmann and Miles (1995). Forfatterne diskuterer de fleste af programmerne i tabel 1 på den måde, at hvert program he Ili ges et detaljeret review-kapitel. Det er selvfølgelig et problem, at deres bog efterhånden er næsten fem år gammel, og derfor ikke har de 2-3 nyeste versioner aj programmerne med. 3 Deter en udvikling ikke ulig den, som man har kunnet se med hensyn til de programmer, der indgår i de kendte forretingspakker. 4 Fremover sættes et ord i {sådanne} parenteser, i de tilfælde, hvor de opfattes som et "datapoint'". 5 Dette trick er nødvendig, idet ASCI i'-formatet ikke tillader egentlige typografiske virkemidler til en lettere identifikation som kursiv, understregning, skyggeskrift o. lign. Erfaringen viser nemlig det praktiske ved, at man hele tiden har et overblik over, om det pågældende keyword optræder i den form, hvori det oprindeligt figurerede i teksten, eller om det som led i processen er erstattet med en anden grammatisk form respektive med et synonym. En sådan fremgangsmåde kan forekomme pertentlig. Men når man analyserer tekst er det bydende nødvendigt at man anlægger en ambitiøs præcisions-tærskel. Der tolereres ingen som helst slinger i valsen! For hvis man ikke opretholder en entydige kobling mellem den oprindelige tekst samt den, der anvendes til analysen, risikerer man altfor let at miste overblikket. Derfor anbefales, at man opretteren "logbog", der fører nøjagtig kontrol og registrerer hver eneste manipulative ændring, som foretages i forhold til den oprindelige tekst. Nærmere derom forneden og i Schmidt (1998a). 6 Da der i den tilgrundliggende tekniske rapport ikke er registreret en personkode, har det ikke været muligt at koble ytringer (tallet i kantet parentes) med subjekter. Der deltog kun 8 respondenter, og derfor vil nogle af koderne vedrøre samme respondent. Man ved bare ikke hvem der hører hvortil. Men deter også ganske ligegyldigt i det foreliggende tilfælde. Sagen er i let modificeret form optryk i Hollensen og Schmidt (1998). 7 Bemærk, at programmet, hvis den ikke for anden besked, indlæser den engelske default-fil. Den diskva/ificerer så automatisk en række ord, der er uinteressante på engelsk, og som har et andet, men ikke nødvendigvis uinteressant betydningsindhold på dansk som {and}, {by}, (gave} o. lign. 8 Helt konkret bygger CatPac s analyse på præcis 18 forekomster af følgende 7 ord{BrAnSkßrOeD morgen usuuD fransbroeD usunD niorgeN smaG godT smag rngbroed godt sunD smaG RuGbßoEd godt rugbroeD rugbrod) sunD}. Hverken mere eller mindre. 9 Man kunne ganske vist have valgt en logaritmisk skalering, som i det foreliggende tilfælde i tre og især i to dimensioner på dramatisk vis trækker {godt}, (rugbroedj og {sund} sammen. Optisk set opnås da to "rene klynger", der ligger i hver sin ende af to modstående kvadranter og med (smag} omkring or fgo. Men en sådan projektion snyder, rent bortset fra at man i dette tilfælde kan være i tvivl om en todimensional projektion er udtryk for det rigtige -valg af dimensiona/itet. LitteraturCatterall, Miriam
and Pauline Machiran: Using Computer Kvans, T:
Analysis and interpretation in S. Robson and Fielding. N .G.,
and R. M. Lee: Using Computers in Grimert, Klaus,
and Margarete Bader: "A Systematic Helmersson,
Helge: "Metodestudierav konsumentpreterenser Hollensen, Svend
og Marcus Schmidt: Scener fra dansk er Kelle, I "do:
Computer-Aided Qualitative Data Analysis Leung, Josef, and Ching-Long Yeh: "Natural Language Processing - Verbatim Text Coding and Data Mining Re port Generation." ESOMAR Proceedings (Edinburgh): ;cujiio men Masson, Kgill and
Yih-Jeou Wang: Introduction to Computation Miles, Matthew B:
Qualitative Data as an attractive Nui Miles, Matthew
8., and A. Michael Huberman: Qualitati Miller, G. A.:
The Magic Number Seven, Plus and Mi Moore. Karl,
Robert Burbach, and Roger Heeler: Using Pfaffenberger,
B.: Microcomputer Applications in Qua fifati Popper, Karl R.
Conjectures and Refutations. Londor Rasmussen, Knud
Frik.: "Neurale netværk som beslutningsstøtteværktøj".
Robson, S., and
A. Hedges: Analysis and Interpretation Schmidt, Marcus:
Kvantitativ analyse af kvalitative data
(herunderissergruppediskussioner). Schmidt, Marcus:
Quantitative Analysis of Qualitative Schmidt, Marcus:
Kvantificering af tekst. 21. Sumposium i Schmidt, Marcus:
Multivariate Analysis of Focus Group Tesch, R.:
Qualitative Research: Analysis 'I'xpes and Software
VVassmann, David. A.: "Using Catpac to read Qualitative data," Paper presented at I'he Advanced Research Techniques Forum, Lake Tahoe, NV: American Marketing Association, 1992. Weitzman, K. A.,
and M. B. Miles.: Computer Programs foi White et al.:
Artificial'NeuralNetworks: Approximation ana
Woelfel, J.:
"Artificial Neural Networks in Policy Research: Woelfel, J., and
E. L. Fink.: 'The Measurement of ('.omnium Woelfel, Joseph
and Nick Stoyanoff: "CATPAC: A Neural Bemaerk, at tre af de i litteraturlisten
n;u\nte kilder cr til |