Ledelse og Erhvervsøkonomi/Handelsvidenskabeligt Tidsskrift/Erhvervsøkonomisk Tidsskrift, Bind 41 (1977) 1

Kan datamaskiner lære?

B. Krusenstjerna-Hafstrøm *)

Side 157

Resumé

Siden datamaskinens barndom har man diskuteret, om maskiner kan indrettes
således, at de kan erstatte mennesker i beslutningssituationer. En afgørende forudsætning
herfor er, at automatisk læring er mulig.

Med udgangspunkt i en konkret model for automatisk læring på et forud defineret niveau diskuteres sådanne modellers læreniveau i relation til deres effektivitet. Man må forvente, at der altid bliver en rest af virkelig dårligt strukturerede problemer, som kun kan forventes løst af mennesker.

Selv om automatisk læring på ethvert forud defineret niveau synes mulig, ser det derfor ud til, at de væsentligste problemer knytter sig til valg af hensigtsmæssigt automatisk læreniveau og en hensigtsmæssig form for samarbejde mellem menneske og datamaskine i aktuelle beslutningssituationer.

1. Indledning

Nærværende artikel refererer resultater af et forsøg på at nå til en
bedre erkendelse af mulighederne for at sætte automater i stand til at
lære.

Traditionelle reguleringsmekanismer (se f.eks. Davies, 1970, kap. 1) fungerer passivt i den forstand, at de reagerer med samme styreimpuls, hver gang en bestemt situation opstår. Hvis en sådan mekanisme udsættes for konkurrence fra en person, vil den hæmmes af at mangle læreevner, som personen har:



*) Artiklen er resultat af et forskningsprojekt, som er udført i samarbejde med professor Erik Johnsen, Handelshøjskolen i København, under bevilling nr. 514-16 f69 fra Statens Samfundsvidenskabelige

Side 158

1) Han vil laegge maerke til, om hans styreindgreb ien bestemt situation
kan forbedres, dersom situationen gentager sig, og s©ge en
sadan forbedring.

2) Han vil laegge maerke til, om hans styreindgreb i en gentagen situation
ikke far de samme konsekvenser som for, og soge at indrette
sin styring efter de aendrede vilkar.

3) Han vil laegge mserke til, hvornar aendrede vilkar optrseder, og hvorledes forbedringen af styringen forlober, og ved hjaelp af disse iagttagelser soge at forbedre sin laering ved forudsigelse af aendringer og de tilpasninger, der behoves.

En nærmere definition af læring undgås, men læring tænkes at bestå af
et hierarki af stadig mere avancerede læreniveauer, hvoraf de tre første
er beskrevet ovenfor.

Automater har som bekendt deres naturlige styrke ved velstrukturerede, programmerbare opgaver. Dersom læring kan automatiseres, vil også de dårligere strukturerede, mindre programmerbare opgaver kunne klares af automater, som derfor kunne aflaste eller helt erstatte menneskelige beslutningstagere.

Denne problemstilling er lige så gammel som datamaskinen. Charles Babbage forsøgte at overbevise Lady Lovelace om, at hans datamaskine ville bliver lige så intelligent som et menneske. Hun var skeptisk og indvendte, at den analytiske maskine ikke ville kunne finde på noget nyt, men kun gøre det, vi kan beskrive på en sådan måde, at den kan udføre det (Bing, 1973, s. 45).

I det følgende opbygges en programmerbar model af menneskelig styring af fysiske systemer set som en søge-lære proces. Ideen til dette stammer fra professor Erik Johnsen (jfr. Johnsen, 1968, s. 464-466). Udfra arbejdet med modellen drages derefter nogle konklusioner i relation til problemstillingen.

2. Forudsætninger og begrænsninger, valg af model

Den stillede opgave tænkes løst ved hjælp af simulation af menneskeligstyring. Eiet er nødvendigt at vælge, om vi med udgangspunkt i den menneskelige styring vil søge processen eller dens resultater simuleret så godt som muligt. Simulering af processen tilstræbes ikke her, fordi

Side 159

det forudsastter en utilgaengelig viden om biologiske mekanismer. Vi
betragter mennesket som en blackbox og soger at efterligne dets resultater.

Mængden af tilgængelig information er, selv i situationer som mennesker opfatter som simple, uoverkommelig for selv meget hurtigt arbejdende perceptorer. Det viser sig imidlertid, at de fænomener, et menneske oplever i en given situation, produceres af ham selv ved hjælp af en lille del af den tilgængelige information. Dette er f.eks. eftervist eksperimentelt af A. De Groot i skaksituationer (se Simon, 1970, s. 44). Ved eksperimentet lod man dels stormestre, dels begyndere gengive dels skaksituationer fra virkelige partier, dels tilfældige opstillinger af brikker, efter at de havde haft f.eks. 5 sekunder til at opfatte dem. Begynderne klarede sig lige dårligt i begge slags situationer. Stormestrene klarede sig lige så dårligt som begynderne i de tilfældigt opstillede situationer, men langt bedre når situationen var fra et virkeligt spil. Det viser, at evnen til at strukturere informationen, som ovenfor nævnt, er tillært.

Et lignende resultat kom Harlow (4) til ved dyreforsøg, idet han iagttog en ændret holdning til læring og forbedret lærehastighed, når dyrene opdagede et nyt element i situationens struktur. Disse resultater vil her blive brugt som undskyldning for at begrænse undersøgelsen til en model med få variable og få mulige tilstande. De problemer, automatiseringen af den selektive perception giver anledning til, antages at være tilstrækkelig godt løst, bl.a. i forbindelse med udviklingen af skakprogrammer.

Som ved sædvanlig regulering deles modellen af menneskelig styring i
en model af det styrede system og en model af styringen.

Det styrede system antages at være åbent og dynamisk, d.v.s. systemet står i forbindelse med en omverden, og systemet såvel som input og output kan ændre sig som funktion af den proces, systemet gennemløber.

Det styrede system vil ofte være et fysisk system som en produktionsproces, et transportsystem eller lignende. Vi begrænser os til et sådant system, som er karakteristisk ved, at dets næste tilstand (output) er bestemt af dets nuværende tilstand (input) og af dets funktionsegenskaber. En proces med denne egenskab kaldes en Markov-proces. Funktionsegenskaberne tænkes påvirket af omverdenen på ukendt måde,

Side 160

og den ikke-trivielle del af læringen skal omfatte disse påvirkninger.

Modellen udbygges kun til de to første trin af læring (jfr. indledningen).
Derfor er der tilstrækkeligt at lade omverdenens påvirkninger
være tilfældigt bestemt og ske med tilfældige tidsmellemrum.
Vi afskærer os altså her fra en egentlig funktionssammenhæng mellem
systemændringer og den gennemløbne proces.

Ved at vælge en Markov-proces som objekt for styringen opnår man, at den kan udføres ved korrektion af den matrix, som indeholder processens funktionsegenskaber. Detaljer om søge-læremodellens opbygning findes i appendix.

Det system, vi vil opstille, er foruden at være dynamisk og åbent også diskret og stokastisk. Fordelen ved et stokastisk system frem for et determistisk er nærmest af æstetisk art. Med et deterministisk system ville der ligesom ikke være nogen undskyldning for ikke at opdage og tage korrekt højde for en systemændring omgående. I et stokastisk system er der så meget mere slør, at en heuristisk styring er mere berettiget. Systemet vælges diskret og med kun få mulige tilstande i overensstemmelse med de synspunkter, der er fremført ovenfor. Konkret vælges et system med 3 mulige tilstande, idet færre mulige tilstande ikke giver mulighed for et tilfredsstillende studium af målsætningskonflikters virkning på systemet.

Som eksempler på målsætninger, der delvis er i konflikt med hinan
den, kan nævnes:

Minimering af antallet af tilstandsændringer.

Minimering af spredningen, malt f.eks. som summen af de numeriske
afstande, systemet bevaeger sig.

Antager vi, at disse to målsætninger er relevante, vil styringen af systemet komme til at minde om porteføljevalg (se Markowitz, 1952). Den effektive front har i'dette tilfælde 2 yderpunkter: Skift mellem de to tættest beliggende tilstande og konstant den ene tilstand. Den effektive front angiver mængden af mulige optimale styringer set fra mål sæt - ningssynspunktet og afhængigt af den styrendes relative krav til opfyldelsesgraden af de nævnte målsætninger. Skift, der involverer den tredje tilstand, ligger udenfor den effektive front, som dermed bliver en ægte delmængde af udfaldsrummet.

Udvidelse af søge-lære processen med tredje trin af læringen kræver, at
egnede korrektionstransformationer bedre kan findes frem, næste

Side 161

gang en tilsvarende systemforandring opstår. Her medfører Markovegenskabenden lettelse, at processen kan antages at være den samme, dersom et passende stykke af de fortidige forløb har identiske egenskaber.Markov-processen har nemlig den interessante egenskab, at tilstandsfordelingen har en asymptote, der er uafhængig af initialtilstanden,men selvfølgelig afhænger af processen (se Bellman & Dreyfus,1962, s. 298).

I hvor høj grad styring af økonomiske systemer kan beskrives ved den valgte model er ikke klart. Procesbeskrivelsen vil byde på vanskeligheder, og afhængighed af fortidige tilstande må forventes, f.eks. hvor systemet indeholder et forventningselement.

3. Perspektiver i arbejdet med modellen

Den søge-lære model, som er opstillet i det foregående, sigter mod problemer, som er velstrukturerede og mod en vis grad af læring. Det er rimeligt at antage, at den grad af læring, vi må mobilisere for at løse et problem tilfredsstillende, vil vokse med problemets uigennemskuelighed og kompleksitet. Vi må altså forestille os den foregående model som een blandt en række af modeller med stadig højere grad af læring. Disse modeller vil kræve stadig mindre af det problem, de skal løse med hensyn til struktur og sædvanlighed.

Newell (1969, s. 374) definerer en General Problem Solver (GPS) som
en samling af stadig svagere modeller og fastslår, at den bedste GPS
simpelthen er den, som har de bedste svage modeller.

Newell mener antagelig generelle modeller, når han skriver om svage modeller. Men erfaringen viser, at automater ikke har nær den overlegenhed i effektivitet ved heuristisk problemløsning af dårligt strukturerede problemer, som de har ved aritmetiske og lignende beregninger i sammenligning med mennesker. Også i andre sammenhænge har man lagt mærke til, at en model, der generaliseres, normalt vil miste styrke (Newell, 1969, s. 371).

Den i det foregående opstillede model kan udvides til læring af højere
orden ved tilføjelse af korrektionstransformationer. Hvert nyt trin i
lærehierarkiet vil i princippet kræve en ekstra korrektionsmekanisme

Side 162

og en ekstra perceptionsmekanisme, og det er derfor klart, at ovenståendealmindelige
overvejelser må gælde for den opstillede model.
Det vil derfor nok være realistisk med Newell at forvente, at trods den
tiltagende automation af samfundets beslutningsprocesser, vil der stadigvære
en klasse af virkelig dårligt strukturerede problemer tilbage,
som kun med rimelighed kan løses af menneskelige problemløsere
(Newell, 1969, s. 371).

Ganske vist har f.eks. Clarkson forsøgt at automatisere sådanne problemløsninger ved mekanisk efterligning af beslutningstagers handlingsmønster. (Newell, 1969, s. 405), men det er i den forbindelse uvæsentligt, at automaten udfører arbejdet fejlfrit i modsætning til den menneskelige beslutningstager, som regelmæssigt laver fejl på grund af, at han vanskeligt kan overskue det handlingsmønster, han har fundet frem til. Det væsentligste er, hvad automaten ville gøre, hvis problemet ændrede karakter, og Clarksons simulation indeholder ikke noget element af læring.

Maskiner kan tilsyneladende konstrueres til enhver på forhånd given grad af læring, men begrænser vi os til dette, bør vore modeller nok kaldes adaptive og henregnes til den traditionelle reguleringsteknik (se Davies, 1970, kapitel 1).

Om man skal tage dette skridt er tvivlsomt, meri i hvert fald vil en differentieret
holdning til automatisk læring være ønskelig.

4. Konklusion

De foregående overvejelser leder naturligt til den konklusion, at diskussionen om, hvorvidt automatisk læring i det hele taget er mulig, ikke er særlig relevant. Den bør afløses af overvejelser om, hvilken grad af automatisk læring som er hensigtsmæssig i en given situation, når man tager hensyn til, at der alternativt findes menneskelige beslutningstagere til rådighed. Men det væsentligste problem i relation til vort emne er nok organisering af samarbejdet mellem automaten med dens stærke modeller og mennesket med dets svage modeller, således at det bærer mest mulig frugt i form af bedre problemløsning.

Litteratur:

1. Bellman, R. E. & Dreyfus, S. E., Applied Dynamic Programming, Princeton 1962.

2. Bing, J., Charles Babbages efterladte notater, Data 1973 No. 2-3 pp. 43-48 (marts-maj 1973).

3. Davis, W. D. T., System Identification for Self-Adaptive Control, Wiley-Interscience 1970.

4. Harlow, H. F., Learning Set and Error Factor Theory.

5. Johnsen, E., Studies in Multiobjective Decision Models, Studentlitteratur 1968.

6. Markowitz, H. M., Portfolio Selection, J. Finance Vol. VII No. 1 pp. 77-91 (marts 1952).

7. Newell, Allan, Heuristic Programming: 111-Structured Problems Progress in Operations Research
111, kapitel 10, Ed Aronofsky, j. S. Wiley 1969.

8. Simon, H. A., Sciences of the Artificial, M.I.T. Press 1970.

9. Wheeling, R. F., Heuristic Search: Structured Problems Progress in Operations Research 111,
kapitel 9, Ed. Aronofsky, J. S., Wiley 1969.

Appendix

Beskrivelse af søge-læremodellen

Med udgangspunkt i afsnittet om forudsætninger og begrænsninger
opbygges i det følgende en konkret model af menneskelig styring set
som en søge-læreproces.

Det styrede system kan antage visse på forhånd definerede tilstande. Sandsynligheden for, at hver af disse tilstande antages til tidspunktet t betegnes med en vektor x(t). Det valgte system kan beskrives ved den dynamiske relation


DIVL2559

hvor M er en matrix, der indeholder systemets funktionsgenskaber.
Styringen tænkes udført ved hjælp af en korrektionsmatrix K. Den
korrigerede proces kan beskrives ved relationen


DIVL2563

Søge-læreprocessen til styring af systemet tænkes at få nedenstående
forløb:

a) Processen startes ved, at transformation og målsætning vælges.

b) Derefter vælges en tilstandsvektor, der søges en korrektionstransformation
K, og med den korrigerede proces x(t) = K x Mx(t-l)
dannes en tilstandsfølge af tilfældigt valgt længde.

c) Korrektionens kvalitet måles på tilstands følgen. Hvis korrektionen
ikke opfylder målsætningen, returneres til b) for søgning efter
en bedre korrektionstransformation.

d) Hvis der ikke opnås tilfredsstillende læring, forlænges tilstandsfølgen, og der returneres til b). Giver søgningen efter gentagne forlængelser af tilstandsfølgen ikke resukat, fortsættes til e). Giver søgningen resultat, forkortes tilstandsfølgen, og der returneres til b). Dersom søgningen efter en forkortelse af tilstandsfølgen ikke giver resultat, fortsættes til e) med den foregående tilstandsfølge.

e) Bliver tilstandsfølgen usædvanlig lang, eller giver søgningen ikke resultat, søges graden afmålopfyldelse samket, og der returneres til b). Bliver tilstandsfølgen usædvanlig kort, søges målopfyldelsesgraden hævet, og der returneres til b). Ellers afsluttes beregningerne, og med mellemrum kontrolleres styringens grad af målopfyldelse med henblik på gentagelse af ovenstående procedure, hvis målopfyldelsesgraden falder va^sentligt.

0 Med tilfældige tidsmellemrum vælges en nyt M. Derefter observeres,
hvor hurtigt systemet opdager det, og hvor hurtigt tilfredsstillende
styring igen indtræder.

Kommentarer til modellens opbygning

Generelt

Beskrivelsen af søge-lære processen er verbalt formet, men opbygget således, at den umiddelbart kan programmeres. Adskillige steder i procesforløbet nævnes valg af systemelementer som transformation, målsætningsniveau eller længde af tilstandsfølge. Sådanne valg tænkes foretaget ved hjælp af automatisk udtrækning af tilfældige tal, således at systematisk tilsløring af visse egenskaber ved processen undgås.

Tilstandsrum, transformationsrum og målsætningsrum tænkes fastlagt
på forhånd og forandres ikke som følge af søge-lære processen.

adb)

Søgningen af stadig bedre korrektionstransformationer tænkes udformet som Hill-climbing (se Weeling, 1969, s. 343-344). Vi kan f.eks. forestille os søgningen efter ny korrektionstransformation N udført ved hjælp af formlen


DIVL2594

Hvis N er bedre end K, erstattes K med N og a fordobles. H,
som indeholder historisk information, beregnes af


DIVL2598

hvor h er en huskefaktor. Hvis N er dårligere end K halveres a

e er et støjelement, som er lille og vælges tilfældigt. Ved gentagne mislykkede forsøg på at finde en nyt K bliver a efterhånden så lille, at e vil dominere processen, d.v.s. spredningen på søgeretningen forøges. Omvendt vil gentagne gunstige forsøg medføre forstærket søgning med længere skridtlængde i retninger nær dem, der har vist sig at være gunstig. Hill-climbing er specielt godt egnet til heuristisk søgning ved velstrukturerede problemer. Metoden egner sig bedst, når målsætningen indebærer satisfiering, idet optimering ved hjælp af metoden er vanskelig på grund af manglende afslutningskriterier (se Weeling, 1969, s. 338). Hvis det problem, der skal løses, er dårligt struktureret, bør andre metoder anvendes (se Newell, 1969).

add)

Hensigten med dette punkt er at opnå god økonomi i styringen ved ikke at anvende tilstandsfølger, der er længere end nødvendigt, for at indeholde den relevante information. Med dette punkt og de følgende er systemet forberedt for videreudvikling til læreprocesser af højere orden.

ad e)

I målstyret virksomhedsledelse går man traditionelt ud fra en stiv målfastsættelse, medens Johnsen (1968, kap. 9) argumenterer for en mere fleksibel målfastsættelse under hensyn dels til konflikterne mellem delmål, dels til afvejning af søgeanstrengelserne mod det opnåede resultat. Her søger vi at følge den sidstnævnte linie. I den forbindelse er det en fordel at have valgt Hill-climbing som søgeprocedure (se ovenfor).