Het is een dilemma zo oud als de tijd. De vrijdagavond is voorbij en je probeert een restaurant uit te kiezen voor het avondeten. Moet je je meest geliefde drinkplaats bezoeken of een nieuw etablissement proberen, in de hoop iets superieurs te ontdekken? Potentieel, maar die nieuwsgierigheid brengt een risico met zich mee: als je de nieuwe optie verkent, kan het eten erger zijn. Aan de andere kant, als je vasthoudt aan wat je weet dat goed werkt, zul je niet uit je smalle pad groeien.
Nieuwsgierigheid drijft kunstmatige intelligentie aan om de wereld te verkennen, nu in grenzeloze use-cases – autonome navigatie, robotachtige besluitvorming, het optimaliseren van gezondheidsresultaten en meer. Machines gebruiken in sommige gevallen ‘reinforcement learning’ om een doel te bereiken, waarbij een AI-agent iteratief leert door beloond te worden voor goed gedrag en gestraft te worden voor slecht gedrag. Net als het dilemma waarmee mensen worden geconfronteerd bij het selecteren van een restaurant, worstelen deze agenten ook met het balanceren van de tijd die ze besteden aan het ontdekken van betere acties (exploratie) en de tijd die ze besteden aan het ondernemen van acties die in het verleden tot hoge beloningen hebben geleid (exploitatie). Te veel nieuwsgierigheid kan de agent afleiden van het nemen van goede beslissingen, terwijl te weinig betekent dat de agent nooit goede beslissingen zal ontdekken.
In hun streven om AI-agenten te maken met precies de juiste dosis nieuwsgierigheid, hebben onderzoekers van MIT’s Improbable AI Laboratory and Computer Science and Artificial Intelligence Laboratory (CSAIL) een algoritme gemaakt dat lost het probleem op dat AI te “nieuwsgierig” is en wordt afgeleid door een bepaalde taak. Hun algoritme verhoogt automatisch de nieuwsgierigheid wanneer dat nodig is, en onderdrukt het als de agent voldoende toezicht krijgt van de omgeving om te weten wat hij moet doen.
Bij het testen op meer dan 60 videogames slaagde het algoritme erin zowel moeilijke als gemakkelijke verkenningstaken uit te voeren, waar eerdere algoritmen alleen een moeilijk of gemakkelijk domein alleen konden aanpakken. Met deze methode gebruiken AI-agenten minder gegevens om besluitvormingsregels te leren die prikkels maximaliseren.
“Als je de wisselwerking tussen exploratie en exploitatie goed onder de knie hebt, kun je sneller de juiste besluitvormingsregels leren – en voor alles wat minder is, zijn veel gegevens nodig, wat kan leiden tot suboptimale medische behandelingen, lagere winsten voor websites en robots die dat niet doen. Het is niet leren om het juiste te doen”, zegt Pulkit Agrawal, assistent-professor elektrotechniek en computerwetenschappen (EECS) aan het MIT, directeur van het Improbable AI Lab, en aan CSAIL gelieerd die het onderzoek begeleidde. “Stel je een website voor die probeert het ontwerp of de lay-out van de inhoud te achterhalen die de verkoop zal maximaliseren. Als men exploratie-exploitatie niet goed uitvoert, zal het convergeren naar het juiste website-ontwerp of de juiste website-indeling lang duren, wat winstverlies betekent. Of in een gezondheidszorgomgeving, zoals bij Covid-19, kan er een reeks beslissingen moeten worden genomen om een patiënt te behandelen, en als u besluitvormingsalgoritmen wilt gebruiken, moeten ze snel en efficiënt leren – u geen suboptimale oplossing willen bij de behandeling van een groot aantal patiënten. We hopen dat dit werk van toepassing zal zijn op dergelijke problemen in de echte wereld.
Het is moeilijk om de nuances van de psychologische onderbouwing van nieuwsgierigheid te omvatten; de onderliggende neurale correlaten van uitdagingzoekend gedrag zijn een slecht begrepen fenomeen. Pogingen om het gedrag te categoriseren hebben zich uitgebreid tot onderzoeken die diep zijn gedoken in het bestuderen van onze impulsen, ontberingsgevoeligheden en sociale en stresstoleranties.
Met Reinforcement Learning wordt dit proces emotioneel ‘gesnoeid’ en tot op het bot uitgekleed, maar het is ingewikkeld aan de technische kant. In wezen zou de agent alleen nieuwsgierig moeten zijn als er niet genoeg toezicht beschikbaar is om verschillende dingen uit te proberen, en als er toezicht is, moet hij de nieuwsgierigheid bijstellen en verlagen.
Aangezien een grote subset van gamen bestaat uit kleine agenten die door fantastische omgevingen rennen op zoek naar beloningen en een lange reeks acties uitvoeren om een bepaald doel te bereiken, leek het de logische testbank voor het algoritme van de onderzoekers. In experimenten verdeelden onderzoekers games zoals “Mario Kart” en “Montezuma’s Revenge” in twee verschillende buckets: een waarin supervisie schaars was, wat betekent dat de agent minder begeleiding had, die als “harde” verkenningsgames werden beschouwd, en een tweede waarin supervisie meer was. dicht, of de “gemakkelijke” verkenningsspellen.
Stel bijvoorbeeld dat je in ‘Mario Kart’ alleen alle beloningen verwijdert, zodat je niet weet wanneer een vijand je uitschakelt. Je krijgt geen beloning als je een munt verzamelt of over pijpen springt. De agent krijgt uiteindelijk pas te horen hoe goed hij het heeft gedaan. Dit zou een geval van schaars toezicht zijn. Algoritmen die nieuwsgierigheid stimuleren, doen het heel goed in dit scenario.
Maar stel nu dat de agent strak toezicht krijgt – een beloning voor het springen over pijpen, het verzamelen van munten en het uitschakelen van vijanden. Hier presteert een algoritme zonder nieuwsgierigheid heel goed omdat het vaak wordt beloond. Maar als je in plaats daarvan het algoritme neemt dat ook nieuwsgierigheid gebruikt, leert het langzaam. Dit komt omdat de nieuwsgierige agent op verschillende manieren kan proberen snel te rennen, rond te dansen, naar elk deel van het spelscherm te gaan – dingen die interessant zijn, maar die de agent niet helpen slagen in het spel. Het algoritme van het team presteerde echter consistent goed, ongeacht in welke omgeving het zich bevond.
Toekomstig werk zou kunnen inhouden dat we teruggaan naar de verkenning die psychologen al jaren verheugt en plaagt: een geschikte maatstaf voor nieuwsgierigheid – niemand weet echt de juiste manier om nieuwsgierigheid wiskundig te definiëren.
“Consistent goede prestaties krijgen voor een nieuw probleem is buitengewoon uitdagend – dus door verkenningsalgoritmen te verbeteren, kunnen we u de moeite besparen om een algoritme af te stemmen op uw interesseproblemen”, zegt Zhang-Wei Hong, een EECS-promovendus, aan CSAIL gelieerd en co -hoofdauteur samen met Eric Chen ’20, MEng ’21 op een nieuw artikel over het werk. “We hebben nieuwsgierigheid nodig om extreem uitdagende problemen op te lossen, maar bij sommige problemen kan het de prestaties schaden. We stellen een algoritme voor dat de last wegneemt van het afstemmen van de balans tussen exploratie en exploitatie. Waar voorheen bijvoorbeeld een week nodig was om het probleem succesvol op te lossen, kunnen we met dit nieuwe algoritme binnen een paar uur tot bevredigende resultaten komen.”
“Een van de grootste uitdagingen voor de huidige AI en cognitieve wetenschap is hoe exploratie en exploitatie in balans kunnen worden gebracht: het zoeken naar informatie versus het zoeken naar beloning. Kinderen doen dit naadloos, maar rekentechnisch is het een uitdaging’, merkt Alison Gopnik op, hoogleraar psychologie en universitair hoofddocent filosofie aan de University of California in Berkeley, die niet bij het project betrokken was. “Dit artikel maakt gebruik van indrukwekkende nieuwe technieken om dit automatisch te bereiken, door een agent te ontwerpen die nieuwsgierigheid naar de wereld en het verlangen naar beloning systematisch kan balanceren, [thus taking] weer een stap om AI-agenten (bijna) net zo slim te maken als kinderen.”
“Intrinsieke beloningen zoals nieuwsgierigheid zijn van fundamenteel belang om agenten te begeleiden bij het ontdekken van nuttig divers gedrag, maar dit mag niet ten koste gaan van het goed uitvoeren van de gegeven taak. Dit is een belangrijk probleem in AI, en de paper biedt een manier om die afweging in evenwicht te brengen”, voegt Deepak Pathak, een assistent-professor aan de Carnegie Mellon University, toe die ook niet bij het werk betrokken was. “Het zou interessant zijn om te zien hoe dergelijke methoden verder reiken dan games naar real-world robotagenten.”
Chen, Hong en Agrawal schreven de paper samen met Joni Pajarinen, assistent-professor aan de Aalto University en onderzoeksleider bij de Intelligent Autonomous Systems Group aan de TU Darmstadt. Het onderzoek werd gedeeltelijk ondersteund door het MIT-IBM Watson AI Lab, het DARPA Machine Common Sense Program, het Army Research Office door het United States Air Force Research Laboratory en de United States Air Force Artificial Intelligence Accelerator. De paper zal worden gepresenteerd op Neural Information and Processing Systems (NeurIPS) 2022.