Side 91
Resumé
Data mining
omhandler nyere metoder til analyse
af store mængder
af virksomhedens data. I
denne oversigtsartikel
omtales flere af de
udbredte metoder anvendt
indenfor data
mining. Speciel opmærksomhed henledes
på
objektet for data mining: virksomhedens data
skabt i virksomhedens processer. Da stadig flere
processer frembringer stadig flere data, producerer
virksomheden en stigende strøm af data;
specielt
udløser anvendelsen af Internet en eksplosion
af
datamængden. Analysen af de store
datamængder kræver
i sig selv et højt stade af
informationsteknologi.
Samtidig medfører behovet
for frembringelse af
velegnede data til data
mining, at etablering af et
data warehouse i virksomheden bliver et krav for med
sikkerhed at kunne forsyne virksomhedens data mining med
integrerede og valide data.
Artiklen illustrerer,
hvorledes data warehouse og data mining er elementer i
virksomhedens aktive akkvisition af data
finformation/viden, aktive produktion og den aktive
udbredelse af virksomhedens viden. Med anvendelse af
data vjarehouse og data mining foretager virksomheden en
bevægelse fra passiv opsamling og passiv udbredelse af
viden - virksomheden som pulterrum for viden - til
virksomheden som videnspumpe1.
Data
mining - begreb og historie
Den engelske metafor "data
mining" skaber billeder af en eksotisk minedrift:
guldgravning. Den ordrette metafor er således ikke
korrekt. Det er ikke data der søges, men noget der kan
sammenlignes med guld. Metaforen fremgår også af valget
af firmaog produktnavne som SPSS Clementine2
og Kdnuggets3. Specielt det sidste navn
refererer til at finde store klumper af guld (viden) og
fremhæver gennem denne type minedrift en individbaseret
metode med anvendelse af kløgt - og måske også en del
held. Heroverfor kunne stilles billeder af andre
fremfindingsmetoder for samme værdifulde metal, fx
udvaskning af guldstøv, som ville fremstille et mere
møjsommeligt, men mekaniserbart arbejde. Billedet af det
mere
prosaiske og
gentagne arbejde passer i virkeligheden
langt bedre
på processen
omkring data mining, specielt
understreges
det særdeles omfattende forberedende
arbejde fremfor heldet.
Deter
karakteristisk at data mining processenomfatter
et
stort arbejde, fordi
miningen bygger pa analyse af
store samlingeraf
data - ofte endda gigantiske
maengder (Giga-bytes). Billedet pa at finde
nogle enkelte data i de meget store samlingerer
holdbart for nogle tilgange, men i
mange andre
tilfaelde angar miningen at
der foretages en
gruppering af datamaengden.Data
mining er som begreb
noget
nyere, men tset knyttet til begrebet
"Knowledge Discovery in Databases" og her
Side 92
understreges
størrelsen også ved at referere
til "Very Large
Databases"4.
Storrelsen af
datamaengden er dog ofte
vanskelig at illustrere, og
pa trods af understregningen
af de meget store
datamaengder
illustreres fundene oftest gennem
enkeltobservationer eller kortvarige forlob
(se
eksempelvis Mitchell (1999) og Berry &
Linoff
(1997, s. 151)), fx det monster at en
bankkunde
gentagne gange haever storre
belob pa kontoen og
derefter afslutter ved
at lukke kontoen. Hvis
lukningen kan forudsiges
udfra monsteret, burde
banken reagere.
Mere komplicerede monstre kan
fremfindes
ved analyse af de store datamaengder,
men netop kompleksiteten gor det
vanskeligt at
illustrere. Omvendt forekommer
nogle monstre
sjaeldent. Saledes
kraeves der (heldigvis) en stor
maengde data
for at kunne finde eksempler pa
forsikringssvindel.
Data mining daekker ogsa
vaerktoj til at finde sadanne sjaeldne monstre
og udtage mistaenkelige forhold til
yderligere
bearbejdning.
Objektet for data
mining er store datamængder
som samles i et data
warehouse.
Data warehouse
Begrebet "data
warehouse" - som her
anvendes i den fordanskede form
data
varehus5 - tillægges almindeligvis W.H.
Inmon (1996). Data varehuset er en metode
til at
samle, validere, integrere, bevare og
tilgængeliggøre virksomhedens information.
Den
statiske betragtning af data varehuset
udfordres af
andre anskuelser:
"Data Warehousing is a process
of fulfilling Decision Support enterprise needs through
the availability of information" (Welbrock, 1998).
Her lægges vægten
først på, at der er tale
om en proces. Dernæst på at
det er virksomhedens
krav, der opfyldes. Denne
betragtning hos Welbrock illustrerer, at data
varehus processen ikke blot er en teknisk
disciplin, men at teknikken er underlagt
forretningens mål.
En overflod af data - brug og gem
Anskuelsen af en organisation som en
informationsbearbejdende enhed implicerer,
at
organisationens objekt hovedsageligt
er information
eller tidligere i processen
data. Organisationens
oplysninger, spørgsmål
og beslutninger bevæges fra
arbejdssted
til arbejdssted og nu som strømme af
digitaliseret information. Kundeorienterede
transaktioner er gennem flere årtier blevet
registreret i virksomhedens informationssystemer
som operative data, nu opbygges
også spor af den
interne behandling i virksomheden.
Den traditionelle
for-elektroniske opbevaring
har store fysiske
omkostninger, fx vil
der ved opbevaring af
papirdokumenter (fx
fakturaer, ordresedler etc.)
skulle anvendes
ganske store ressourcer i form af
ringbind,
arkivbokse, hyldemetre, reoler, rum og
bygninger.
Desuden er sogbarheden af et dokument
ofte begraenset til en enkelt indgang
(fx
fakturanummer), som direkte er en
nogle for den
fysiske placering. Store
omkostninger sammenholdt
med vanskelig
anvendelse gor kassation saerdeles
attraktiv
i det forrige arhundredes traditionelle
informationsverden. Men med virksomhedens
automatiske registrering af elektroniske
spor og
opbevaring i digitaliseret form
er omkostningerne
ved bevaring saerdeles
sma, og mulighederne for
fremfinding
naesten übegraenset fleksible ved
passende
opbygning af registrene. Dermed bliver
bevaring langt mere attraktiv end kassation
(som
i ovrigt ogsa kan vaere fejlbehaeftet,
ved at noget
bevaringsvaerdigt fejlagtigt
kasseres). Omkostningen
ved opbevaringen
er hovedsageligt
sikkerhedsproblemer, herunder
bl.a. problemet med
forsat at kunne
tilga informationen - "digital
information
lasts forever - or five years, whichever
comes first!" (Rothenberg, 1995). Deter
sjaeldent nedbrydning af mediet, der er problemet
med digital information. Problemet
findes i den
teknologiske foraeldelse; nar
der ikke laengere
findes den gamle teknologi
(fx 5 ar gamle), der kan
laese de gemte
medier.
Side 93
Mennesker har
gennem århundreder
bekymret sig over den stigende
mængde af
information i samfundet. Et nyere eksempel
findes hos Brandi og Hildebrandt (2000),
der
citeres for at udtrykke at viden fordobles
på 2 år,
og at i 2020 vil fordoblingen
være sket på bare 70
dage. Men der er forskel
på om der med korte
mellemrum dukker
en ny Einstein op, og på at
virksomhedens
viden om kundernes adfærd
automatregistreres
i stigende omfang. Den sidste
type viden angår kun virksomheden og
kunden og
forandrer ikke umiddelbart
vores verdenssyn. Selvom
lagringskapaciteten
forøges, og databaserne forøges,
så er
den menneskelige administration af systemerne
netop ikke lineært afhængig af
antallet af
registreringer. Der behøves ikke
tre gange så mange
ansatte for at administrere
en vækst på 3 gange i
lagringskapacitet
(således som det fremsættes i en
notits i
Computerworld, 24. april 2001). Udskiftes
en PC, er lagringskapaciteten for det meste
fordoblet. Pladsen bliver hurtig brugt, men
der
skal alligevel ikke to personer til at
betjene den
nye maskine.
En yderligere
grund til opbevaringen kan
vaere, at de elektroniske
registreringer er
lovgivningsmaessigt fastsatte, fx
opbevaring
af regnskabsoplysninger. Desuden kan
informationerne vaere nodvendige for fastlaeggelse
af ansvar. Manglende opfyldelse af
kvalitetsmal
for et produkt eller en ydelse
vil gennem
informationssystemerne kunne
spores til leverandorer
og deres underleverandorer.
Virksomheden og dens
kontakter
har saledes en interesse i disse
registreringer.
Angar registreringen ansatte eller
kunder,
kan registreringen fa karakter af
overvagning.
Det henleder opmaerksomheden
pa, at
handlingerne ogsa har en etisk
dimension. Men man
burde snarere udtrykke,
at den digitale registrering
ikke forer til
aendring af det forhold, at enhver
handling
ogsa har en etisk dimension.
Den stigende opsamling af
information, den øgede lagringskapacitet og tendensen
til opbevaring snarere end kassation introducerer
informationssamfundets opgør med den materielle samfunds
fysiske "brug-og-smid-væk" mentalitet, der erstattes med
en omfattende "gem-og-brug" af information. Udover den
digitaliserede informations perfekte egenskaber mht.
opbevaring og distribution, så har information som
materiale et interessant værdiforløb. Når viden
udbredes, opnår den en højere værdi, når viden slet ikke
deles, er den uden social værdi. Virksomheden vil derfor
på den ene side opbevare sin information og på den anden
side have en stor interesse i at udnytte og udbrede
denne information og skabe forretningsmæssig fordel
gennem en vidensproduktion, der vanskeligt kan
eftergøres.
Yderligere oplysninger fra Internet
Med fremkomsten af elektronisk
handel over Internet er der sket en mangedobling af
muligheden for at opsamle informationsspor. Med
Internet-logning og "clickstream analysis" kan den
enkelte forbrugers vej mod beslutningen om køb
fastlægges. Internet-logning består primært af
identifikation (oplysning om klientens navn eller IP
(Internet Protocol) adresse), hvilket element eller side
brugerens browser har bedt om, hvilken returkode denne
transaktion havde (primært om det var succesfuldt, koden
200 betyder "OK"), samt antallet af bytes der
returneredes (Kendall, 2000, s. 101).
Derudover kan en
mere avanceret logning
vise, hvorfra brugeren kom
til denne
side ("referrer tracking"). Logningen kan
dermed for det første fastslå (for-)brugerens
indgang til siden, og desuden kan den foretagne
rute på virksomhedens eget web-sted
opsamles.
Hvis man mangler fantasi, vil
man stråle over at
kunne benytte disse
oplysninger til en minutiøs
fastlæggelse af
den interne rute, der er gået forud
for salget
(det positive mønster). En mere kreativ
tilgang vil indse at logningen også vil sætte
os
i stand til at analysere adfærden blandt
de der ikke
købte (det negative mønster).
Med forbedringer
baseret på den viden kan
ikke-køberne blive til
kommende kunder.
Side 94
For begge typer
brugere kan vi gennem
"cookies" genkende brugeren på
web-sitedet.
En cookie er en lille tekst-fil der
lægges
på brugerens PC. Brugerens IP-adresse er
sjældent en statisk oplysning; ved opkobling
til
en internetudbyder tildeles brugeren
ofte dynamisk
et IP-nummer. Den samme
bruger kan således have
ændret IP-adresse
ved næste besøg. Men gennem
anvendelsen
af cookie-filen kan web-stedet fastslå
og genkende brugerens6 tidligere besøg på
stedet, og oplysninger om brugeren i form
af
foretrukne sider og indkøbsvaner kan
benyttes til at
fastlægge et individualiseret
web-sted (Laudon,
2000; Kimball, 2000).
Dette illustreres fx i
startbilledet fra
Amazon.com, der indeholder
meddelelsen:
"Hello Karsten,
here are our recommandations
for you"
Personaliseringen
kan også typisk finde
sted gennem udvælgelse af de
viste bannerreklamer
("target marketing").
Internetlogning er et bastant eksempel på,
hvorledes der kan opsamles minutiøse
oplysninger
for hver enkelt bruger.
Herigennem åbnes mulighed
for personificering
af behandlingen af kunden - og
desuden
må der overvejes etiske og sikkerhedsmæssige
perspektiver omkring persondata.
Den løbende
opsamling fra Internet vil
bidrage med gigantiske
mængder af data til
virksomheden.
Validering af data
samlinger
Data varehuset
udtraekker oplysninger fra
virksomhedens
operationelle data. Hermed
menes bade det
traditionelle transaktionssystem,
men ogsa de
oplysninger der indsamles
fra Internet. Da mange
informationssystemer
i virksomheden er
utilstraekkeligt
integrerede, vil en efterfolgende
integration
af oplysninger kraeve et omfattende
valideringsarbejde. Valideringen vil besta i
en
omfattende liste af procedurer der ma
gennemlobes;
spaendende fra "skrubning"
af data (Welbroch, 1998,
s. 155) hvor der
sikres konsistens - fx saledes at
samme
felttype (fx kon) angives pa ensartet vis (fx
som "M" og "K") i samtlige tabeller - til
mere
komplicerede afgorelser, hvor der
gennem inddragelse
af adskillige felter i
flere tabeller sikres, at
samling af oplysninger
angar samme individ (hvor der
kan
have vaeret uens registreringer), og til
etablering
af entydighed blandt modstridende
oplysninger (fx en adresse). Foretages
aggregeringer er det afgorende, at de aggregerede
oplysninger valideres mod detailoplysningerne.
Valideringerne vil ofte vaere
meget omfattende
og langt mere tidskraevende
end anvendelsen af de
senere
forskellige analysemetoder (Weis &
Indurkhya, 1998, s. 5).
Valideringsarbejdet skaber
intern konsistens
i data varehuset. Populariserede
fremstillinger kalder dette etablering af "En
Sandhed". De totalitære overtoner i udtrykket
medfører hos forfatteren her en under-
Side 95
stregning af, at
konsistens kan opnås, uden
at der er tale om
sandhed.
Forekomsten af
manglende data udgor et
omfattende problem ved data
mining. Med
inddragelsen af et stort antal variable
vil
forekomsten af records med oplysninger i
samtlige variable blive stadig mindre.
Udelukkelse af records med manglende
data er
derfor uholdbart og det bliver nodvendigt
at
beslutte og behandle forskellige
typer af manglende
data7.
Inddragelse af historiske data
Det er
kendetegnende for data varehuset,
at det er et
blivende opbevaringssted for
data. Mens de
operationelle systemers arkitektur
primært vil være
optimeret med
henblik på hurtige svartider -
"performance"
(Kimball, 1996, 5.2) -og derfor
indrettes
til kun at angå og opbevare direkte
produktionsrelevante
data, vil data varehuset være
optimeret med henblik på at kunne forsyne
beslutningssystemerne med de relevante
data.
En foresporgsel
til det operationelle
system kan fx vaere: "Har
Hansen betalt sin
faktura nr. 794837-2?". På et
eller andet
tidspunkt er svaret antagelig "Ja". Det
operationelle
system vil dermed levere forskelligt
svar til forskellige tidspunkter; det operationelle
system producerer et øjebliksbillede
af et
system i stadig bevægelse.
Heroverfor kan en
forespørgsel til et data
varehus være: "Hvor stor en
andel fakturaer
var übetalte i mere end 30 dage i
1999?".
Svaret bør være uforanderligt - i
betydningen
uafhængigt af tidspunktet det stilles på
- og det naturlige følgespørgsmål "Og hvordan
så
i 1998?" illustrerer, at data varehuset
rummer en
tidsserie og dermed omfatter
historiske data.
Tilgængeliggørelse - metadata
Formålet med
opsamling og integration af
virksomhedens data er
ikke at skabe en
ressource for senere
historieskrivning, men
at foretage en umiddelbar
anvendelse. For
at kunne anvende de store
datasamlinger
optimalt, må data ligeledes
dokumenteres
optimalt, og dokumentationen kan selv
betragtes som data, altså metadata
(Rasmussen,
2000). Den næsten øjeblikkeli-
Side 96
ge anvendelse
sikrer mod ophobning af
udokumenterede data. Frem
for at bygge
midlertidige uformelle "underground"
datasamlinger
er data varehuset en kvalitetssikrende
proces der forhindrer, at metadata
blot findes i
hovedet på enkeltindivider. I
stedet gøres metadata
direkte tilgængelige,
og dermed kan data udnyttes
fleksibelt
(Welbrock, 1996, s. 12).
Det er
kendetegnende, at data i varehuset
"frigives" til
brug. Ændringer i eksisterende
data - data der en
gang er placeret og
frigivet i data varehuset - bør
i princippet
ikke forekomme. Det er et krav, at data
i
data varehuset er gennemvaliderede,
førend de
annonceres som tilgængelige, og
data er først
tilgængelige, når de ligeledes
er
gennemdokumenterede med metadata.
Anvendelse af data varehuset - og ny viden
Adgang til data
og dermed udbredelse af
data er ikke en
tilstrækkelig betingelse for
en positiv anvendelse
af data. Data varehuset
er samlingen af data, mens
udbredelsen
og anvendelsen af data sker gennem
diverse
applikationer i virksomheden. Det er
gennem applikationerne, at data analyseres,
præsenteres og stilles overfor virksomhedsrelevante
processer. Hermed opnås ny
viden i virksomheden,
typisk ved at ikke
tidligere sammenførte data
relateres, eller
ved at data anvendes på nye områder
og
analyseres gennem nye metoder.
Det bør i denne sammenhæng
understreges, at data varehuset i vid udstrækning også
støtter den rutinemæssige vidensproduktion, der finder
sted i virksomheden fx i form af standardrapporteringer.
Her kan være tale om særdeles omfattende og krævende
statistikker og præsentationer evt. publiceret på
virksomhedens Intranet. Omfattende applikationer vil
helt kunne automatisere disse virksomhedscentrale
rutineprodukter.
Blandt de typer af
applikationer, hvormed der produceres ny viden, findes
området med data mining. Data mining udgør altså som
tidligere nævnt kun en delmæng-
de af de metoder, der udnytter
data varehuset og stadig kun en delmængde indenfor
virksomhedens produktionen af ny viden. Men er data
mining så kun en ny etiket?
Metoder indenfor data
mining
Hvad er det, der adskiller
data mining fra anden analyse? I Berry og Linoffs
udbredte værk fra 1997: "Data Mining Techniques"
benyttes følgende definition:
"Data mining ... is the
exploration and analysis, by automatic or semiautomatic
means, of large quantities of data in order to discover
meaningful patterns and rules". (Berry & Linoff
1997, s. 5).
Denne rummelige
definition inkluderer
både eksplorative og
beskrivende metoder
samt egentlig analyse. Metoderne
anvender
ikke overraskende informationsteknologi
(automatisering). Der er tale om store
mængder
af data (men er 1.000 stort eller
er 10.000 stort?),
og forfatterne henleder
opmærksomheden på, at en
stor datasamling
i sig selv ikke er tilstrækkelig
for at
levere viden (Berry & Linoff, 1997, s.
3).
Yderligere afdækkes mønstre og regler, der
er meningsfulde. Et stort antal metoder kan
indeholdes i denne definition, men i denne
fremstilling medtages kun nogle få af disse
metoder. Kriteriet for den her foretagne
udvælgelse af metoder indenfor data
mining har
været, at metoden er almindelig
udbredt og solidt
understøttet af software.
Hos Berry og
Linoff stilles hypotese-tests
overfor "knowledge
discovery" som hhv.
top-down og bottom-up. Denne
bottom-up
approach ses andre steder beskrevet som,
at data mining snarere er data drevet end
drevet
af brugeren og opstilling af kriterier
for
falsifikation (Mena, 1999, s. 50). At metoderne
i
højere grad er data drevne implicerer,
at der
anvendes en automatiseret
metode som efter nogle
gennemløb af data
præsenterer en model, der kun i
beskedent
omfang er fastlagt af en person.
Altomfattende
automatiserede metoder
har ofte problemer med
meningsfuldheden.
Side 97
En
faktoranalyse kan opstilles overfor et
passende
problem, og der kan metodisk
konstrueres
tilfredsstillende faktorer - men
stadigvæk er
"dåben" af faktorer en vanskeligehuman
kunst. Det er
ikke automatiserbartat
fortolke en vektor af
ladninger og
sætte begreb på den bagvedliggende
faktor
(Harman, 1967, s. 133).
Meningsfuldheden
bør tillægges vægt når
metoderne evalueres. Berry og
Linoff er
også opmærksomme på, at der hører aktion
til meningsfuldheden:
".. merely finding the
patterns is not enough. You must be able to respond to
the patterns, to act on them, ultimately turning the
data into information, the information into action, and
the action into ualue" (Berry & Linoff, 1997, s.
18).
Anvendelsesområder for data mining
Blandt de
problemer der løses gennem
anvendelse af data
mining, er situationer,
hvor deter vanskeligt efter
den centrale
begivenhed at opnå valide data.
Problemet
kan fx være, at kunder forlader
virksomheden.
En forudsætning for denne analyse er,
at deter muligt at fastslå, hvorvidt kunderne
er
loyale, dvs. at kunderne nødvendigvis
er
registrerede. Eksempler kan være telefonselskaber,
bankvæsen, avisabonnement
etc. Dvs. tilfælde
hvor der udsendes
regelmæssige regninger. Men i
stadigt stigende
omfang registreres også andre
firmatypers
private kunder, oftest gennem
medlemskab,
og ved elektronisk handel er
registreringen
oftest en betingelse for, at varen
vil kunne leveres, idet både betaling (via
kreditkort) og modtagelse (angivelse af
adresse)
skal fastlægges, førend levering
finder sted.
Ved "churn"
forstås, at kunder afgår fra
et teleselskab - og
antagelig skifter til et
andet. Problemet for en
efterfølgende
undersøgelse er, at de frafaldne
kunder risikerer
at have en kraftig bias. De afgåede
kunder har ringe interesse i at bruge tid på
at
udfylde spørgeskemaer, blive interviewet,
eller
hvilke efterfølgende dataindsam-
lingsmetoder man
måtte anvende. I stedet
kan virksomheden så vælge at
anvende
data, der snarere er generelt og objektivt
observeret frem for indhentet med et
instrument
konstrueret til formålet. Disse
data beskriver
kundens handlinger frem til
afgangen; i dette
eksempel fx længde og
hyppighed af samtaler.
Specielt indenfor
mobiltelefoni ses rabatter ved
anskaffelse
af telefoner og oprettelse som abonnent,
der gør det særdeles attraktivt for kunden
at
skifte selskab og særdeles vanskeligt for
firmaet at
opnå nogen profit på den enkelte
kunde indenfor det
første årB.r8. Hvis selskabet
kan "forudse" at en
kunde er på vej til
at "churne", kan virksomheden
forsøge at
fastholde kunden gennem en godt tilbud.
Et andet
vanskeligt undersøgelsesområde
er bedrageri.
Eksempler findes her
typisk i forbindelse med
forsikringssager.
Her søger man gennem data mining
at
finde mønstre, der afviger fra det almindelige,
og som af denne grund påkalder sig
ekstra
opmærksomhed ("exception reporting").
Læring:
træning, validering, scoring
Den data-drevne, bottom-up
"knowledge discovery" opdeles af Berry og Linoff (1997,
s. 6) i en dirrigeret og en ikke-dirigeret type. Den
dirigerede type forsøger at forklare et af felterne i
data (fx om der fandt et salg sted), mens den
ikke-dirigerede type er yderligere eksplorativ mht. at
finde mønstre eller sammenhænge mellem flere felter i
data. Der er dog ingen helt fastslået enighed om
terminologien indenfor området, således opdeler Weiss
& Indurkhya (1998, s. 7) data mining i "prediction"
og "knowledge discovery".
Mens data mining
og "directed knowledge
discovery" er
virksomhedstermer for
anvendelsen af specielle
metoder, benyttes
indenfor datalogien begrebet
"maskinel
læring" (Mitchell, 1997). Man kan tale om
dirigeret læring, når et udfald, et mål
("goal")
eller afhængig variabel forudsiges
på grundlag af
andre variable indgående i
en model opstået
(indlært) gennem analyse
Side 98
af rækkevis af
data. Weiss & Indurkhya
(1998) betoner
forudsigelseselementet i titlen
på deres bog
"Prediktive Data Mining".
Ofte vil målet, der ønskes
forudsagt, være
binært som i eksemplet ovenfor
(salg:
ja fnej), men det kan også være numerisk
(fx værdien af det pågældende salg).
Indlæringsaspektet består i, at den opbyggede
model gennem træning forbedres
mht. at forudsige
målet; det maskinelle
består i at træningen,
foretages af en computer.
Data varehuset
består af flere indbyrdes
relaterede tabeller i en
database, men med
henblik på undersøgelse gennem
data
mining ønskes udvalgte data omformet til
en
rektangulær eller flad fil (en tabel som i
et
regneark). Filen, der ønskes undersøgt
gennem data
mining, er altså ikke nødvendigvis
på forhånd
fastlagt i data varehuset,
hvilket understreger den
fleksibilitet, der
ønskes af data varehuset. Til
gengæld vil
filen for data mining være omfattende,
både hvad angår antallet af records eller
poster
og ofte ligeledes mht. antallet af
medtagne
variable. Det første sikrer at
modeller vil kunne
bestemmes med større
sikkerhed, det sidste at der
kan undersøges
et meget stort antal modeller. I
modsætning
til hypotesetests foretages der altså
ingen omfattende forudgående teoretisk
begrundet
udvælgelse, hvorfor data mining
altid må betragtes
som eksplorativ.
Når der analyseres historiske
data, kendes også udfaldet. Hver record beskriver en
situation eller et forløb afsluttende med beskrivelse af
målet. Blev resultatet af en katalogudsendelse et salg
eller ej? Målet behøver naturligvis ikke være noget
ønskemål - fx kan målet være om der er foregået svindel
- men information om målet må
findes i data. En variabel må
angive, om der var tale om svindel eller ej. Modellen
foretager en klassifikation indenfor et defineret
udfaldsrum (her binært).
Modellen anvender en
opsplitning blandt records - oftest gennem en tilfældig
udvælgelse. Der opdeles i en del der anvendes til at
træne og opbygge modellen, en anden der validerer og
justerer modellen, og endelig en tredje del hvor
modellen testes.
Behovet for store datamængder
er blandt andet begrundet i, at data opdeles i flere
adskilte samlinger. I samtlige datadele kendes det
faktiske udfald, og dermed fås gennem testen et udtryk
for modellens forudsigelsesgrad. Der er tale om en
særdeles praktisk validering - "the proof of the pudding
is in the eating". Modellen evalueres ved forudsigelse
af udfaldene i testdatasættet. Modellens forudsigelse og
de virkelige udfald sammenholdes gennem en
konfusionsmatri x9:
Denne type
opstilling anvendes ogsa for
medicinske tests, hvor
gruppen af negative
(som ikke har sygdommen)
lykkeligvis er
meget stor. Men det implicerer, at
safremt
kun 100 ud af 10.000 er positive, vil der
kun
begas 100 fejl (falsk negative) ved at haevde
at alle er negative. For at modellen kan
siges
at vaere bedre end tilfaeldet, ma faerre
end 100
rubriceres fejlagtigt (eksempel fra
Weiss &
Indurkhya). En ukritisk udregning
af fejlprocenten
(1 pet.) kunne umiddelbart
give indtryk af, at
modellen er acceptabel.
Ved sadanne skaevt fordelte
materialer
foretages ofte indledningsvist en
stratificeret
sampling, saledes at samtlige blandt
en
lille gruppe fa positive medtages, mens der
foretages en tilfaeldig udvaelgelse blandt
den
store maengde negative.
Med
træningsdata opstilles modellen,
Side 99
som bliver
mindre og mindre fejlfyldt, jo
mere kompliceret og
omfattende modellen
tillades at være (gennem
anvendelse af
længere computertid og flere
iterationer).
Modellen kan sammenlignes med at
tilpasseen
kurve til nogle observationer. Med
"overfitting" menes, at modellen næsten
med
fuldkommenhed kan reproducere
træningsdatasættet,
men det er sket, fordi
hvert et lille bump på kurven
- enhver
særhed i data - er blevet indlært. Modellen
er blevet perfekt dresseret til netop denne
situation. Når modellen afprøves mod et
valideringsdatasæt viser det sig, at
fejlprocentenfor
forudsigelsen igen stiger, efter at
et optimalt punkt er passeret. (Berthold &
Hand, 1999, s. 236).
Af det grafisk
illustrerede eksempel
fremgår, at den optimale model
opnås ved
iteration 4, hvor valideringsdata
forudsiges
med en fejlprocent på ca. 18. Derefter er
også valideringsdata opbrugt, og modellen
testes
mod den tredje datadel. Efter at
modellen således er
fastlagt, benyttes den
til at foretage "scoring" af
nye data, hvor
målet ikke kendes. Dermed kan der
gættes
på, hvorledes den pågældende gruppe eller
evt. enkeltperson (fx ved beregning af
kreditværdighed)
vil reagere.
Data
mining metoder
I det følgende
omtales nogle af de mest
udbredte data mining
metoder.
Indledningsvist
bør man ved sammenligning
med almindeligt anerkendte
analysemetoder
være opmærksom på, at data
mining
har andre kvaliteter. Analyse følger
oftest et
mønster af hypotese - undersøgelsesdesign
-
operationalisering - indhentning
af data -
hypotesetest. Heroverfor står
data mining som
anvender af eksisterende
observationelle data uden
indhentningsmæssig
bias, og data i langt større
målestok
end der ellers ville kunne indhentes. Imod
data mining bør bemærkes, at en ukritisk
accept
af de forhåndenværende data kan
overse helt centrale
og betydende variable,
som blot ikke findes i data.
På den anden
side ses den store målestok også at
have
indvirkning: "hypotheses that are excellent
approximations may be rejected in large
samples"
(Glymour et al., 1997), derfor
bemærker forfatterne,
at tildeling af score i
data mining vil være mere
attraktiv end
egentlige tests.
Ved data mining er der mindre
fokus på selve modellen - og dermed den bagvedliggende
forklaring - og mere koncentration om en pragmatisk
udvælgelse af den bedste metode til videre anvendelse.
Beslutningstræ
Et beslutningstræ foretager
en opdeling af data gennem en serie af logiske
spørgsmål. Oftest er der tale om spørgsmål med binær
svarmulighed (Ja eller Nej). "Over 25.000 kr.
Side 100
indestående på
kontoen?". Hvis svaret er
"Ja" stilles et nyt
spørgsmål, hvis svaret er
"Nej" stilles et andet.
Dermed breder
beslutningstræet sig10 ligesom i legen
"20
spørgsmål til professoren" (Berry & Linoff,
1997, s. 244). Ved hjælp af logisk kombinationaf
spørgsmålene (konjungerende kombinationmed
"og")
kan spørgsmålene samles
til et enkelt logisk udtryk
som let lader sig
fremstille som en
betingelsessætning fx i
databasesproget SQL:
SELECT * from
MyData where (Indestående
> 25000) AND
(KundeAntalÅr < 4)
Dette er et eksempel på en
velkendt anvendelse af beslutningstræets logiske
opdeling. Det nyere ligger i at computeren anvendes til
at beregne, hvorledes opdelinger bedst kan foretages i
materialer. Siden 1960'erne er der udviklet og anvendt
en række algoritme r11, der alle hviler på at
foretage de bedste opdelinger (Mitchell, 1997, s. 55),
dvs. opdelinger hvor variationen indenfor gruppen
minimeres, mens variationen mellem grupperne maksimeres.
Et simpelt konstrueret
eksempel illustrerer reropsplitningen med
beslutningstræ. Her antages at kunderne er
karakteriseret ved to dimensioner i form af kontinuerte
variable (normalt vil en langt større mængde variable
benyttes). Dernæst er afsat de succesfulde indkøb og
indkøbsture, der ikke resulterede i salg.
Som illustreret
kan der foretages opsplitning
af hele udfaldsrummet
i grupper med
ens adfærd ved hjælp af et antal
regler.
Men hvis antallet af regler accepteres til
at
være meget stort, betyder det, at modellen i
stigende grad beskriver tilfældige særheder
ved
læringsdatasættet. I eksemplet ovenfor
er opdelingen
med de enkelte indkøbsvogne
i nederste højre hjørne
et eksempel på
en regelbygning, der antagelig blot
angår
disse træningsdata, idet der ikke er tale om
grupper, men om regler for enkelte individer.
Ved anvendelse af reglerne på valideringsdatasættet
vil de komplicerede regler
ikke resultere i
nogen overbevisende konfusionsmatrix.
Beslutningstræets klare fordel
består i, at træet og dets forgreninger er umiddelbart
forståelige, og at beslutningstræet direkte kan omsættes
til handlen, fx opdeling i
Side 101
kundegrupper.
Desuden kan beslutningstræet
med smidighed behandle
både kategoriale
såvel som kontinuerte variable.
Man kan også
betragte beslutningstræets
udsagn som udtryk for
regler indenfor et
system af kunstig intelligens
eller ekspertsystem.
Hvis eksperter har udformet
reglerne,
kan man tale om en top-down approach.
Mens hvis udsagnene er fremkommet
gennem data
mining, vil det være korrekt
at betegne metoden som
data-drevet eller
bottom-up. Interessant ved en
virksomhedsbetragtning
er, at udsagnene vil kunne
afsløre, at der i praksis følges nogle uautoriserede
eller uhensigtsmæssige forretningsregler.
Metoden med
beslutningstræ er en fast
bestanddel af den
software, der udbydes
som data mining12.
Kunstigt neuralt netværk
Et neuralt netværk er en
model, hvor samtlige inputs er forbundne og gennem
kombination transformeres til et output. Almindeligvis
er både input og output skaleret til mellem 0 og 1.
Denne grafik (en lignende
forekommer hos Berry & Linoff, 1997, s. 296 )
illustrerer hvorledes modellen bygger på et netværk af
neuroner med input(s) og output (der kan forekomme flere
outputs i modellen). Ligesom neuroner kan "fyre af til
andre neuroner - ved at udsende en impuls, overføre
gennem en synapse og modtage gennem en dendrit - vil det
kunstige netværk skulle overstige en tærskel for at
påvirke efterfølgende celler. I modellen indskydes som
vist yderligere neuroner i et skjult lag ("hidden
layer").
Gennem oplæring
fastsættes vægte for
hvert enkelt input. Ved at
flere inputs samles,
kan der både være tale om, at
en lille
ændring i en input-kilde bevirker en
ændring - overskridelse af en tærskel for
neuronen - og at en større ændring i input
ingen
ændring medfører. Overskrides
tærsklen for den
efterfølgende neuron (fx
"Skjult-1"), vil denne
"fyre af* og sende
videre. Transformationsfunktionen
illustreres
gennem den anvendte logistiske funktion
(Sigmoid-kurve) i den følgende graf.
Output for
Sigmoid funktionen ligger mellem
0 og 1, stort
negativt input og stort
positiv input vil have
værdier på hhv. 0 og
1. Indenfor et ret snævert
område omkring
0 skifter funktionen, men funktionen
er her
tilnærmet liniær.
Et neuralt
netværk vil ofte have et meget
Side 102
stort antal
input-kilder. Det store antal
inputs samt
anvendelsen af et skjult lag af
neuroner - som
ligeledes vægtes - betyder,
at modellen er særdeles
vanskelig at fortolke.Modellen
er i praksis en
black-box.
Berry og Linoff udtrykker flot, at
kunstigt
neuralt netværk kan anvendes, når
resultaterneer
vigtigere end forklaringen (2000, s.
128 og 287). Den rene pragmatik kan være
tiltrækkende, men der er også praktiske
grunde
til forsigtighed i anvendelsen af
kunstige neurale
netværk.
Såfremt modellen
ikke kan fortolkes, er
det usikkert indenfor hvilke
rammer
modellen er holdbar. Der kan ikke etableres
advarselssystemer for, hvornår der bør skiftes
model. Det bedste råd vil derfor være, at
modeller med kunstigt neurale netværk bør
oplæres og valideres med meget korte mellemrum.
Der kan desuden være lovgiv-
ningsmæssige restriktioner
overfor anvendelsen af sådanne black-box eller
orakelagtige metoder. I USA er der således også
begrundelsespligt for private virksomheder som fx banker
i forbindelse med at yde lån. Det er ikke tilstrækkeligt
at meddele: "Min computer fortæller mig, at du ikke kan
få et lån. Ha' en god dag!".
Regression
Med regression vendes der
tilbage til den fastere grund hvad angår modellers
opbygningen ningenog fortolkningen af modeller.
Udgangspunktet er liniær regression, hvor målet m
forklares med et antal kendte variable:
Men i data mining
sammenhæng anvendes
regressionsmodeller på samme
pragmatiske
vis som det neurale netværk. Selvom
den statiske forklaringskraft af en model
kan
beregnes til at være temmelig ringe,
kan
anvendelseskraften være tilstrækkelig
til, at
modellen er interessant i en forretningsmæssig
sammenhæng. Mens Berry og
Linoff (1997) blot
nævner regression og ikke
betragter metoden som en
egentlig data
mining teknik, så anvendes metoden
regression (specielt som logistisk regression)
i
SAS-pakkens Enterprise Miner.
Regressionsmetoden udmærker sig
ved
at modellens anvendelse af input-variablene
kan fortolkes gennem vægtene. Desuden
er der
forbindelse til andre metoder; således
vil den
logistiske regression være et
specialtilfælde af det
neurale netværk uden
noget mellemliggende lag.
Udvælgelse af metoder
De ovenfornævnte
tre metoder: beslutningstræ,
neuralt netværk og
regression vil alle
tre kunne anvendes til
forudsigelse.
Side 103
Udgangspunktet
kunne være en postal
udsendelse af et katalog,
hvorfra kunder
har bestilt varer. Virksomheden
vedligeholder
et kunderegister indeholdende
information
om, hvilke kunder der ved forrige
udsendelse bestilte varer fra kataloget. Hvis
købet kan forklares gennem de tilstedeværende
variable, vil det være interessant
for
virksomheden at opnå adgang til et
større register
med tilsvarende oplysninger.
Omkostningerne pr. brev
ftryksag er faste,
men kan der foretages en
udvælgelse af de
personer der mest sandsynligt vil
reagere
på forsendelsen, kan omkostningerne
reduceres.
I eksemplet her svarer gennemsnitligt
godt 7 pct. positivt. Beregningerne vil
endvidere kunne inkludere startomkostninger
og
en størrelsesangivelse for gevinsten
ved hver
positiv tilbagemelding. Dermed vil
der gennem data
mining software direkte
kunne vises, hvilke grupper
der bør udsendes
til, og hvor stor en gruppe der i
alt bør
udsendes til. Udvælges en gruppe med
større end gennemsnitlig sandsynlighed for
at
blive kunde har modellen skaffet et "lift";
hver af
modellerne har da lift-kurver13 der
kan
sammenlignes:
I eksemplet
nedenfor ses, at beslutningstræet
("Tree") opnår det
bedste lift for de
første 10 pct., men skal
virksomheden fx
have kunder blandt 50 pct. af
registeret, bør
i stedet anvendes
regressionsmodellen
("Reg") da denne ligger lidt
over det neurale
netværk ("Neural"). Bemærk at
fordelen
naturligvis aftager, hvis hele registeret
udnyttes. Uanset model - selv uden model
(illustreret ved "Baseline") - vides, at ca. 7,7
pct. af registeret vil blive kunder, såfremt
de
modtager kataloget.
Klassifikation og
kvalitative mønstre
De ovenfor
skitserede metoder har alle
vaeret
klassifikationsmetoder hvor et mal
(typisk med et
binaert udfaldsrum) fastlaeggesud
fra en stor
maengde indgaende
variable. Et eksempel pa en simpel
model
med ganske fa indgaende variable findes i
en undersogelse af praktiserende laegers
valg af
behandling (typisk ved ordinering af
medicin) i
forbindelse med diagnoser
(Rasmussen og
Falko-Lorenzen, 1999).
Udvalgte praktiserende laeger
blev bedt om
at koble enhver medicinordinering til
en
diagnose. Variablene medicin og diagnose
havde hver et meget stort udfaldsrum.
Yderligere
havde patienter ofte flere
diagnoser ved samme
besog.
Sporgsmalet var, om det var muligt
at
foretage koblingen maskinelt pa
baggrund af de
patientbesog, hvor
der kun var en enkelt diagnose,
altsa
patientbesog der ikke introducerede
usikkerhed om, hvilken diagnose en
medicinering
tilb.orte? Det viste sig,
at en sadan simpel model
kunne forbedreforudsigelsen
fra 42 pet. ved
en
tilfseldig forudsigelse til 91 pet.
ved at benytte
indlaeringen fra den
kendte sikre sammenhaeng.
Undersogelsenskonklusion
er, at safremt
forudsigelsesprocenten vurderes at
levere en
tilstraekkelig praecision for
det faenomen man
onsker at undersoge,kan
metoden undga den
tidsmaessigtog
del, deter at bebyrde de
praktiserendelæger
Side 104
delægermed at
foretage koblingen mellem
medicinering og diagnose.
Klassifikation
opfattes ofte som binær, og
såfremt output er
kontinuert (fx mellem 0
og 1), opfattes værdien som
en sandsynlighed
for det interessante udfald (fx et
salg). I
tilfældet ovenfor var der tale om et stort
muligt udfaldsrum, og i andre sammenhænge
kan
store udfaldsrum forekomme i
forbindelse med andre
typer input. Således
er data mining af tekst et
område med kvalitativt
snarere end kvantitativt
input. I et
projekt foretoges klassifikation af
nyhedstelegrammer
baseret på de nye telegrammers
ordmæssige afstand til tidligere klassificerede
telegrammer (Berry & Linoff,
1997, s. 165).
Dette område af kvalitativt
input og blandede
medieformer forventes
at påkalde sig stor interesse
for fremtidig
data mining (Mitchell, 1999).
Med "automatic clustering"
foretages en gruppering af enkelttilfælde på basis af
deres placering i rummet. Sammenlignet med
beslutningstræet foretages der ikke nødvendigvis klare
opdelinger indenfor de dimensioner tilfældene er
placeret i. I stedet opereres med et afstandsmål mellem
observationer. Det vanskelige i anvendelsen af
cluster-metoder vil være fastlæggelsen af et validt
afstandsmål. Cluster-metoderne kan med fordel anvendes
som en ikke-dirigeret indgang til datamaterialet.
Association
Mens de
ovenstående eksempler på data
mining har anvendt
datasæt med en record
for hvert udfald, er man ved
associationsanalyse
interesseret i sammenfald af
produkter.
Med samme udgangspunkt indenfor
salg
er spørgsmålet nu ikke, om der
fandt et salg sted. I
stedet ønskes belyst,
hvilke produkter der blev købt
samtidig.
Analyseformen benævnes også "basket
analysis". Ved parvist14 at kombinere samtlige
varer i indkøbskurven - registreret på
samme bon
ved "point-of-sale" (POS) - vil
man kunne analysere
sig frem til, hvilke
vare-kombinationer der ofte
forekommer.
Et af de berømte eksempler er, at øl og
bleer indkøbtes
samtidig om torsdagen
(Berry & Linoff, 1997, s.
126; Frappaolo,
1998)15. Imidlertid er det ikke
klart, hvorledes
denne information skal anvendes.
Skal
disse to varer placeres tæt på hinanden?
Eller tværtimod langt fra hinanden så
metervis
af indbydende varehylder passeres
undervejs? Eller
skal man vende undersøgelsen
af varer med høj
affinitet på hovedet
og koncentrere sig om at finde
antagonistiske
varer, som netop ikke forekommer
i det samme indkøb? Her kræves en større
marketing indsigt. Endelig er praktiske
spørgsmål som kurvens størrelse (antallet
af
varer) af betydning. Der forekommer
betydeligt flere
kombinationer i varerne når
indkøbet foretages i
Bilka, end når det foregår
i Fakta!
Når informationen
udstrækkes fra at
være et indblik i den enkelte og
isolerede
indkøbskurv, og i stedet yderligere kan
kobles
til information om kundens øvrige indkøb,
opstår der hurtigt mere intuitive
anvendelser af
informationen. Ved registrering
gennem
indkøbsforeninger - fx FDB i
Danmark - kan
oplysninger om medlemmets
indkøb benyttes til
særdeles målrettet
marketing mod relevante
grupper16. Ved
indkøb over Internet vil kunden også
typisk
være medlemsregistreret - om ikke andet
så identificeret gennem gentagen anvendelse
af
det samme betalingskort - derfor
kan virksomheden
også her sammenkoble
kundens indkøb foretaget på
forskellige
tidspunkter.
Aktion efter data mining
Som tidligere
angivet i data-mining citatet
fra Berry og Linoff
(1997), laegges vaegten pa
den praktiske aktion,
efter at der vha. data
mining er fundet vaerdifuld
viden. Den
opnaede viden skaber vaerdi gennem
aktion.
Et eksempel herpa findes hos
Amazon.com, hvor
man som kunde praesenteres
for, hvilke andre boger
andre kunder
der kobte den fremfundne bog ogsa har
kobt. Hermed bliver informationen om
andre
kunders indkobsmonstre til interessant
viden for
andre kunder og dermed
Side 105
værdifuld for virksomheden.
Virksomheden etablerer og udnytter effekten i et netværk
af produkter og kunde-til-kunde relationer ("C2C").
Anvendelse overfor enkeltkunder eller
grupper
Information om og
fra flere kunder kan rettes
mod en enkelt kunde.
Informationen
om en enkelt kunde vil også typisk
kunne
anvendes overfor samme kunde, men
denne
enkeltstående opmærksomhed er en
registrering og
ikke resultatet af data
mining. Begge
anvendelsesformer vil falde
ind under CRM ("Customer
Relationship
Management") og personalisering.
Resultaterne af data mining
vil ofte være information opnået fra og om grupper og
anvendt på grupper. Ovenfor er nævnt et eksempel med
masseudsendelse af postal reklame, hvor omkostningerne
minimeres mens de bedst egnede grupper udvælges.
Evaluering - igen
Når data mining
modellen anvendes på et
nyt materiale (fx et tilkøbt
kunderegister)
foretager modellen en scoring af
hvert kundeemne,
hvorefter de ønskede udvælges.
Uanset hvilken model der benyttes ved
data
mining, bør resultatet (målet), efter at
aktion er
taget, nøje registreres. For det
første for at kunne
foretage en evaluering
af selve data mining
projektet. For det
andet vil den efterfølgende
registrering
danne grundlaget for gennem yderligere
dirigeret data mining at kunne opnå sikrere
viden gennem anvendelse af et nyere og
større
læringsdatasæt.
Processer for data varehouse
og data mining er således for virksomheden kilder til en
stadig udbygning af virksomhedens vidensgrundlag i data
varehuset og den gennem data mining opnåede viden.
Anvendt kundeviden
Data mining baserer sig på
store mængder af data. Selvom der skjuler sig
enkeltpersoner og familier i materialerne, tager data
mining metoder ikke højde herfor. Polemisk
udtrykt kan data
mining betragtes som
"anvendte fordomme" ved
anvendelse af
gennemsnit og grupperinger. Men denne
tilgang kan opblødes gennem virsomhedens
intense
anvendelse af personalisering.
Det forventes, at
virksomheder, der forstår
at kombinere deres
generelle viden med
den personlige viden om den
enkelte
kunde, vil opnå store konkurrencefordele
overfor virksomheder, der reagerer efter
ufleksible regler. Har man været bankens
kunde i
30 år, og ens kontokort inddrages i
en VISA automat
på Sicilien ved et overtræk
på 500 kr. - ja, så skal
banken ikke forvente
at beholde den kunde. Og det
vidste
banken vel egentlig godt!
Summary
Data mining deals
with new methods of analysing
large quantities of
data in the organisation.
This survey article
discusses some of the prevailing
methods ivithin
data mining. Special
attention is given to the
objective 0 f data
mining: organisation data created
in organisation
processes. As still more processes
produce
still more data, the organisation produces
an
increasing flow of data. The use of the Internet
in particular releases an explosion 0 f the
quantities
of data. The analysis 0 flarge quantities
0f
data demands high-level information technology.
The necessity to produce suitable data for
data
mining also involves the establishment of
a data
warehouse to ensure a reliable supply 0f
integrated
and valid data into the data mining
0 f the
organisation.
Side 106
Litteratur
Berry,
Michael J.A.; Linoff, Gordon S.: Mastering Data Mining:
The Art and Science of Customer Relationship Management,
John Wiley & Sons, New York, NY, 2000.
Berry, Michael J.A.; Linoff, Gordon: Data
Mining
Techniques: For Marketing, Sales, and
Customer
Support, John Wiley & Sons, 1997.
Berthold, Michael & Hand, David J.
(eds.):
Intelligent Data Analysis. An introduction,
Springer, Berlin, 1999.
Borghoff, Uwe & Pareschi, Remo (eds.):
Information Technology for Knowledge
Management,
Springer, 1998.
Brandi, Søren & Hildebrandt, Steen
(eds.):
Kompetenceguldet, Børsens Bøger, København,
2000.
Frappaolo, Carl: Defining knowledge
management:
four basic functions, 1998,
Computerworld
(US), February 23,1998.
Glymour, Clark; Madigan, David; Pregibon,
Daryl;
Smyth, Padhraaic: Statistical Themes and
Lessons
for Data Mining, Data Mining and Knowledge
Discovery 1, 11-28 (1997), Kluwer Academic
Publisher, 1997.
Harman, Harry H.: Modern Factor Analysis
(2. ed),
University of Chicago Press, 1967.
van Heijst, Gertjan; van der Spek, Rob;
Krunzinga,
Eelco: The Lessons Learned Cycle, i
Borghoff &
Pareschi, 1998.
Inmon, W.H.: Building the Data Warehouse
(2.ed.),
John Wiley & Sons, 1996.
Kimball,
Ralph: The Data Warehouse Toolkit: Practical Techniques
for Building Dimensional Data Warehouses, John Wiley
& Sons, New York, NY, 1996.
Kimball, Ralph; Merz, Richard: The Data
Webhouse Toolkit, John Wiley & Sons, New York,
NY, 2000.
Laudon, Kenneth C. and Laudon, Jane Price:
Management Information Systems: Organization
and
Technology in the Networked Enterprise
(6.ed.),
Prentice-Hall, Upper Saddle River, NJ, 2000.
Mena, Jesus: Data Mining Your Website,
Digital
Press, Boston, MA, 1999.
Mitchell, Thomas M.: Machine Learning,
McGraw-
Hill, 1997.
Mitchell, Thomas M.: Machine Learning and
Data
Mining, Communications of the ACM 42 (11;
31-36),
Rasmussen,
Karsten Boye: Datadokumentation. Metadata for
samfundsvidenskabelige undersøgelser, Odense
Universitets Forlag, Odense, 2000.
Rasmussen, Karsten Boye; Falkø-Lorentzen,
Erik:
Statistical linkage of treatment and
diagnosis.
Report for Fyns Amt, 1999.
Rothenberg, Jeff: Ensuring the Longevity
of Digital
Documents, 1995, Scientific American
January
1995.
SAS: Enterprise Miner. Applying Data
Mining
Techniques. Course Notes, 1999a, SAS 56606,
Cary, NC, 1999.
SAS: Getting started with Enterprise Miner
Software, Version 3.0, SAS 56869, Cary, NC, 1999.
Weiss, Sholom M.; Indurkhya, Nitin:
Predictive
Data Mining: A Practical Guide, Morgan
Kaufman,
1998.
Welbrock, Peter R.: Strategic Data
Warehousing
Principles Using SAS Software, SAS
Institute Inc.,
Cary, NC, 1998.
Zizzo, Thomas: Churn, baby, churn,
Electronic
Business, July 2000.