Ledelse og Erhvervsøkonomi/Handelsvidenskabeligt Tidsskrift/Erhvervsøkonomisk Tidsskrift, Bind 41 (1977) 1Kan datamaskiner lære?B. Krusenstjerna-Hafstrøm *) Side 157
ResuméSiden
datamaskinens barndom har man diskuteret, om maskiner
kan indrettes Med udgangspunkt i en konkret model for automatisk læring på et forud defineret niveau diskuteres sådanne modellers læreniveau i relation til deres effektivitet. Man må forvente, at der altid bliver en rest af virkelig dårligt strukturerede problemer, som kun kan forventes løst af mennesker. Selv om automatisk læring på ethvert forud defineret niveau synes mulig, ser det derfor ud til, at de væsentligste problemer knytter sig til valg af hensigtsmæssigt automatisk læreniveau og en hensigtsmæssig form for samarbejde mellem menneske og datamaskine i aktuelle beslutningssituationer. 1. IndledningNærværende
artikel refererer resultater af et forsøg på at nå til
en Traditionelle reguleringsmekanismer (se f.eks. Davies, 1970, kap. 1) fungerer passivt i den forstand, at de reagerer med samme styreimpuls, hver gang en bestemt situation opstår. Hvis en sådan mekanisme udsættes for konkurrence fra en person, vil den hæmmes af at mangle læreevner, som personen har: *) Artiklen er resultat af et forskningsprojekt, som er udført i samarbejde med professor Erik Johnsen, Handelshøjskolen i København, under bevilling nr. 514-16 f69 fra Statens Samfundsvidenskabelige Side 158
1) Han vil laegge
maerke til, om hans styreindgreb ien bestemt situation
2) Han vil laegge
maerke til, om hans styreindgreb i en gentagen situation
3) Han vil laegge mserke til, hvornar aendrede vilkar optrseder, og hvorledes forbedringen af styringen forlober, og ved hjaelp af disse iagttagelser soge at forbedre sin laering ved forudsigelse af aendringer og de tilpasninger, der behoves. En nærmere
definition af læring undgås, men læring tænkes at bestå
af Automater har som bekendt deres naturlige styrke ved velstrukturerede, programmerbare opgaver. Dersom læring kan automatiseres, vil også de dårligere strukturerede, mindre programmerbare opgaver kunne klares af automater, som derfor kunne aflaste eller helt erstatte menneskelige beslutningstagere. Denne problemstilling er lige så gammel som datamaskinen. Charles Babbage forsøgte at overbevise Lady Lovelace om, at hans datamaskine ville bliver lige så intelligent som et menneske. Hun var skeptisk og indvendte, at den analytiske maskine ikke ville kunne finde på noget nyt, men kun gøre det, vi kan beskrive på en sådan måde, at den kan udføre det (Bing, 1973, s. 45). I det følgende opbygges en programmerbar model af menneskelig styring af fysiske systemer set som en søge-lære proces. Ideen til dette stammer fra professor Erik Johnsen (jfr. Johnsen, 1968, s. 464-466). Udfra arbejdet med modellen drages derefter nogle konklusioner i relation til problemstillingen. 2. Forudsætninger og begrænsninger, valg af modelDen stillede opgave tænkes løst ved hjælp af simulation af menneskeligstyring. Eiet er nødvendigt at vælge, om vi med udgangspunkt i den menneskelige styring vil søge processen eller dens resultater simuleret så godt som muligt. Simulering af processen tilstræbes ikke her, fordi Side 159
det
forudsastter en utilgaengelig viden om biologiske
mekanismer. Vi Mængden af tilgængelig information er, selv i situationer som mennesker opfatter som simple, uoverkommelig for selv meget hurtigt arbejdende perceptorer. Det viser sig imidlertid, at de fænomener, et menneske oplever i en given situation, produceres af ham selv ved hjælp af en lille del af den tilgængelige information. Dette er f.eks. eftervist eksperimentelt af A. De Groot i skaksituationer (se Simon, 1970, s. 44). Ved eksperimentet lod man dels stormestre, dels begyndere gengive dels skaksituationer fra virkelige partier, dels tilfældige opstillinger af brikker, efter at de havde haft f.eks. 5 sekunder til at opfatte dem. Begynderne klarede sig lige dårligt i begge slags situationer. Stormestrene klarede sig lige så dårligt som begynderne i de tilfældigt opstillede situationer, men langt bedre når situationen var fra et virkeligt spil. Det viser, at evnen til at strukturere informationen, som ovenfor nævnt, er tillært. Et lignende resultat kom Harlow (4) til ved dyreforsøg, idet han iagttog en ændret holdning til læring og forbedret lærehastighed, når dyrene opdagede et nyt element i situationens struktur. Disse resultater vil her blive brugt som undskyldning for at begrænse undersøgelsen til en model med få variable og få mulige tilstande. De problemer, automatiseringen af den selektive perception giver anledning til, antages at være tilstrækkelig godt løst, bl.a. i forbindelse med udviklingen af skakprogrammer. Som ved sædvanlig
regulering deles modellen af menneskelig styring i
Det styrede system antages at være åbent og dynamisk, d.v.s. systemet står i forbindelse med en omverden, og systemet såvel som input og output kan ændre sig som funktion af den proces, systemet gennemløber. Det styrede system vil ofte være et fysisk system som en produktionsproces, et transportsystem eller lignende. Vi begrænser os til et sådant system, som er karakteristisk ved, at dets næste tilstand (output) er bestemt af dets nuværende tilstand (input) og af dets funktionsegenskaber. En proces med denne egenskab kaldes en Markov-proces. Funktionsegenskaberne tænkes påvirket af omverdenen på ukendt måde, Side 160
og den ikke-trivielle
del af læringen skal omfatte disse påvirkninger.
Modellen udbygges
kun til de to første trin af læring (jfr. indledningen).
Ved at vælge en Markov-proces som objekt for styringen opnår man, at den kan udføres ved korrektion af den matrix, som indeholder processens funktionsegenskaber. Detaljer om søge-læremodellens opbygning findes i appendix. Det system, vi vil opstille, er foruden at være dynamisk og åbent også diskret og stokastisk. Fordelen ved et stokastisk system frem for et determistisk er nærmest af æstetisk art. Med et deterministisk system ville der ligesom ikke være nogen undskyldning for ikke at opdage og tage korrekt højde for en systemændring omgående. I et stokastisk system er der så meget mere slør, at en heuristisk styring er mere berettiget. Systemet vælges diskret og med kun få mulige tilstande i overensstemmelse med de synspunkter, der er fremført ovenfor. Konkret vælges et system med 3 mulige tilstande, idet færre mulige tilstande ikke giver mulighed for et tilfredsstillende studium af målsætningskonflikters virkning på systemet. Som eksempler på
målsætninger, der delvis er i konflikt med hinan
Minimering af
antallet af tilstandsændringer. Minimering af
spredningen, malt f.eks. som summen af de numeriske
Antager vi, at disse to målsætninger er relevante, vil styringen af systemet komme til at minde om porteføljevalg (se Markowitz, 1952). Den effektive front har i'dette tilfælde 2 yderpunkter: Skift mellem de to tættest beliggende tilstande og konstant den ene tilstand. Den effektive front angiver mængden af mulige optimale styringer set fra mål sæt - ningssynspunktet og afhængigt af den styrendes relative krav til opfyldelsesgraden af de nævnte målsætninger. Skift, der involverer den tredje tilstand, ligger udenfor den effektive front, som dermed bliver en ægte delmængde af udfaldsrummet. Udvidelse af
søge-lære processen med tredje trin af læringen kræver,
at Side 161
gang en tilsvarende systemforandring opstår. Her medfører Markovegenskabenden lettelse, at processen kan antages at være den samme, dersom et passende stykke af de fortidige forløb har identiske egenskaber.Markov-processen har nemlig den interessante egenskab, at tilstandsfordelingen har en asymptote, der er uafhængig af initialtilstanden,men selvfølgelig afhænger af processen (se Bellman & Dreyfus,1962, s. 298). I hvor høj grad styring af økonomiske systemer kan beskrives ved den valgte model er ikke klart. Procesbeskrivelsen vil byde på vanskeligheder, og afhængighed af fortidige tilstande må forventes, f.eks. hvor systemet indeholder et forventningselement. 3. Perspektiver i arbejdet med modellenDen søge-lære model, som er opstillet i det foregående, sigter mod problemer, som er velstrukturerede og mod en vis grad af læring. Det er rimeligt at antage, at den grad af læring, vi må mobilisere for at løse et problem tilfredsstillende, vil vokse med problemets uigennemskuelighed og kompleksitet. Vi må altså forestille os den foregående model som een blandt en række af modeller med stadig højere grad af læring. Disse modeller vil kræve stadig mindre af det problem, de skal løse med hensyn til struktur og sædvanlighed. Newell (1969, s.
374) definerer en General Problem Solver (GPS) som
Newell mener antagelig generelle modeller, når han skriver om svage modeller. Men erfaringen viser, at automater ikke har nær den overlegenhed i effektivitet ved heuristisk problemløsning af dårligt strukturerede problemer, som de har ved aritmetiske og lignende beregninger i sammenligning med mennesker. Også i andre sammenhænge har man lagt mærke til, at en model, der generaliseres, normalt vil miste styrke (Newell, 1969, s. 371). Den i det
foregående opstillede model kan udvides til læring af
højere Side 162
og en ekstra
perceptionsmekanisme, og det er derfor klart, at
ovenståendealmindelige Ganske vist har f.eks. Clarkson forsøgt at automatisere sådanne problemløsninger ved mekanisk efterligning af beslutningstagers handlingsmønster. (Newell, 1969, s. 405), men det er i den forbindelse uvæsentligt, at automaten udfører arbejdet fejlfrit i modsætning til den menneskelige beslutningstager, som regelmæssigt laver fejl på grund af, at han vanskeligt kan overskue det handlingsmønster, han har fundet frem til. Det væsentligste er, hvad automaten ville gøre, hvis problemet ændrede karakter, og Clarksons simulation indeholder ikke noget element af læring. Maskiner kan tilsyneladende konstrueres til enhver på forhånd given grad af læring, men begrænser vi os til dette, bør vore modeller nok kaldes adaptive og henregnes til den traditionelle reguleringsteknik (se Davies, 1970, kapitel 1). Om man skal tage
dette skridt er tvivlsomt, meri i hvert fald vil en
differentieret 4. KonklusionDe foregående overvejelser leder naturligt til den konklusion, at diskussionen om, hvorvidt automatisk læring i det hele taget er mulig, ikke er særlig relevant. Den bør afløses af overvejelser om, hvilken grad af automatisk læring som er hensigtsmæssig i en given situation, når man tager hensyn til, at der alternativt findes menneskelige beslutningstagere til rådighed. Men det væsentligste problem i relation til vort emne er nok organisering af samarbejdet mellem automaten med dens stærke modeller og mennesket med dets svage modeller, således at det bærer mest mulig frugt i form af bedre problemløsning. Litteratur:1. Bellman, R. E.
& Dreyfus, S. E., Applied Dynamic Programming,
Princeton 1962. 2. Bing, J., Charles
Babbages efterladte notater, Data 1973 No. 2-3 pp. 43-48
(marts-maj 1973). 3. Davis, W. D. T.,
System Identification for Self-Adaptive Control,
Wiley-Interscience 1970. 4. Harlow, H. F.,
Learning Set and Error Factor Theory. 5. Johnsen, E.,
Studies in Multiobjective Decision Models,
Studentlitteratur 1968. 6. Markowitz, H.
M., Portfolio Selection, J. Finance Vol. VII No. 1 pp.
77-91 (marts 1952). 7. Newell, Allan,
Heuristic Programming: 111-Structured Problems Progress
in Operations Research 8. Simon, H. A.,
Sciences of the Artificial, M.I.T. Press 1970. 9. Wheeling, R.
F., Heuristic Search: Structured Problems Progress in
Operations Research 111, AppendixBeskrivelse af søge-læremodellenMed udgangspunkt
i afsnittet om forudsætninger og begrænsninger
Det styrede system kan antage visse på forhånd definerede tilstande. Sandsynligheden for, at hver af disse tilstande antages til tidspunktet t betegnes med en vektor x(t). Det valgte system kan beskrives ved den dynamiske relation hvor M er en
matrix, der indeholder systemets funktionsgenskaber.
Søge-læreprocessen til styring
af systemet tænkes at få nedenstående a) Processen startes
ved, at transformation og målsætning vælges. b) Derefter
vælges en tilstandsvektor, der søges en
korrektionstransformation c) Korrektionens
kvalitet måles på tilstands følgen. Hvis korrektionen
d) Hvis der ikke opnås tilfredsstillende læring, forlænges tilstandsfølgen, og der returneres til b). Giver søgningen efter gentagne forlængelser af tilstandsfølgen ikke resukat, fortsættes til e). Giver søgningen resultat, forkortes tilstandsfølgen, og der returneres til b). Dersom søgningen efter en forkortelse af tilstandsfølgen ikke giver resultat, fortsættes til e) med den foregående tilstandsfølge. e) Bliver tilstandsfølgen usædvanlig lang, eller giver søgningen ikke resultat, søges graden afmålopfyldelse samket, og der returneres til b). Bliver tilstandsfølgen usædvanlig kort, søges målopfyldelsesgraden hævet, og der returneres til b). Ellers afsluttes beregningerne, og med mellemrum kontrolleres styringens grad af målopfyldelse med henblik på gentagelse af ovenstående procedure, hvis målopfyldelsesgraden falder va^sentligt. 0 Med tilfældige
tidsmellemrum vælges en nyt M. Derefter observeres,
Kommentarer til modellens opbygningGenerelt
Beskrivelsen af søge-lære processen er verbalt formet, men opbygget således, at den umiddelbart kan programmeres. Adskillige steder i procesforløbet nævnes valg af systemelementer som transformation, målsætningsniveau eller længde af tilstandsfølge. Sådanne valg tænkes foretaget ved hjælp af automatisk udtrækning af tilfældige tal, således at systematisk tilsløring af visse egenskaber ved processen undgås. Tilstandsrum,
transformationsrum og målsætningsrum tænkes fastlagt
adb) Søgningen af stadig bedre korrektionstransformationer tænkes udformet som Hill-climbing (se Weeling, 1969, s. 343-344). Vi kan f.eks. forestille os søgningen efter ny korrektionstransformation N udført ved hjælp af formlen Hvis N er bedre
end K, erstattes K med N og a fordobles. H, hvor h er en
huskefaktor. Hvis N er dårligere end K halveres a
e er et støjelement, som er lille og vælges tilfældigt. Ved gentagne mislykkede forsøg på at finde en nyt K bliver a efterhånden så lille, at e vil dominere processen, d.v.s. spredningen på søgeretningen forøges. Omvendt vil gentagne gunstige forsøg medføre forstærket søgning med længere skridtlængde i retninger nær dem, der har vist sig at være gunstig. Hill-climbing er specielt godt egnet til heuristisk søgning ved velstrukturerede problemer. Metoden egner sig bedst, når målsætningen indebærer satisfiering, idet optimering ved hjælp af metoden er vanskelig på grund af manglende afslutningskriterier (se Weeling, 1969, s. 338). Hvis det problem, der skal løses, er dårligt struktureret, bør andre metoder anvendes (se Newell, 1969). add) Hensigten med dette punkt er at opnå god økonomi i styringen ved ikke at anvende tilstandsfølger, der er længere end nødvendigt, for at indeholde den relevante information. Med dette punkt og de følgende er systemet forberedt for videreudvikling til læreprocesser af højere orden. ad e) I målstyret virksomhedsledelse går man traditionelt ud fra en stiv målfastsættelse, medens Johnsen (1968, kap. 9) argumenterer for en mere fleksibel målfastsættelse under hensyn dels til konflikterne mellem delmål, dels til afvejning af søgeanstrengelserne mod det opnåede resultat. Her søger vi at følge den sidstnævnte linie. I den forbindelse er det en fordel at have valgt Hill-climbing som søgeprocedure (se ovenfor). |