Stel je twee teams voor op een voetbalveld. De spelers kunnen samenwerken om een doel te bereiken en het opnemen tegen andere spelers met tegenstrijdige belangen. Zo werkt het spel.
Het creëren van agenten voor kunstmatige intelligentie die net zo effectief kunnen leren concurreren en samenwerken als mensen, blijft een netelig probleem. Een belangrijke uitdaging is om AI-agenten in staat te stellen te anticiperen op toekomstig gedrag van andere agenten wanneer ze allemaal tegelijkertijd aan het leren zijn.
Vanwege de complexiteit van dit probleem zijn de huidige benaderingen kortzichtig; de agenten kunnen alleen de volgende zetten van hun teamgenoten of concurrenten raden, wat op de lange termijn tot slechte prestaties leidt.
Onderzoekers van MIT, het MIT-IBM Watson AI Lab en elders hebben een nieuwe benadering ontwikkeld die AI-agenten een vooruitziende blik geeft. Hun kader voor machinaal leren stelt coöperatieve of competitieve AI-agenten in staat om te overwegen wat andere agenten zullen doen als de tijd het oneindige nadert, niet alleen over een paar volgende stappen. De agenten passen hun gedrag daarop aan om het toekomstige gedrag van andere agenten te beïnvloeden en tot een optimale langetermijnoplossing te komen.
Dit raamwerk kan worden gebruikt door een groep autonome drones die samenwerken om een verdwaalde wandelaar in een dicht bos te vinden, of door zelfrijdende auto’s die ernaar streven passagiers veilig te houden door te anticiperen op toekomstige bewegingen van andere voertuigen die op een drukke snelweg rijden.
“Wanneer AI-agenten samenwerken of concurreren, is het belangrijkste dat hun gedrag op een bepaald moment in de toekomst samenkomt. Er zijn onderweg veel voorbijgaande gedragingen die er op de lange termijn niet veel toe doen. Het bereiken van dit geconvergeerde gedrag is waar we echt om geven, en we hebben nu een wiskundige manier om dat mogelijk te maken”, zegt Dong-Ki Kim, een afgestudeerde student in het MIT Laboratory for Information and Decision Systems (LIDS) en hoofdauteur van een paper beschrijving van dit raamwerk.
De senior auteur is Jonathan P. How, de Richard C. Maclaurin Professor of Aeronautics and Astronautics en een lid van het MIT-IBM Watson AI Lab. Co-auteurs zijn onder anderen bij het MIT-IBM Watson AI Lab, IBM Research, Mila-Quebec Artificial Intelligence Institute en Oxford University. Het onderzoek zal worden gepresenteerd op de conferentie over neurale informatieverwerkingssystemen.
In deze demovideo kan de rode robot, die is getraind met behulp van het machine-leersysteem van de onderzoekers, de groene robot verslaan door effectiever gedrag te leren dat profiteert van de constant veranderende strategie van zijn tegenstander.
Meer agenten, meer problemen
De onderzoekers concentreerden zich op een probleem dat bekend staat als multiagent-versterkingsleren. Reinforcement learning is een vorm van machine learning waarbij een AI-agent met vallen en opstaan leert. Onderzoekers geven de agent een beloning voor ‘goed’ gedrag dat hem helpt een doel te bereiken. De agent past zijn gedrag aan om die beloning te maximaliseren totdat hij uiteindelijk een expert wordt in een taak.
Maar wanneer veel coöperatieve of concurrerende agenten tegelijkertijd leren, worden de zaken steeds complexer. Naarmate agenten meer toekomstige stappen van hun collega-agenten overwegen, en hoe hun eigen gedrag anderen beïnvloedt, vereist het probleem al snel veel te veel rekenkracht om het efficiënt op te lossen. Daarom richten andere benaderingen zich alleen op de korte termijn.
“De AI’s willen echt nadenken over het einde van het spel, maar ze weten niet wanneer het spel zal eindigen. Ze moeten nadenken over hoe ze hun gedrag tot in het oneindige kunnen blijven aanpassen, zodat ze ergens ver in de toekomst kunnen winnen. Onze paper stelt in wezen een nieuwe doelstelling voor die een AI in staat stelt om na te denken over oneindigheid”, zegt Kim.
Maar aangezien het onmogelijk is om oneindigheid in een algoritme te pluggen, hebben de onderzoekers hun systeem zo ontworpen dat agenten zich concentreren op een toekomstig punt waar hun gedrag samenvalt met dat van andere agenten, ook wel evenwicht genoemd. Een evenwichtspunt bepaalt de langetermijnprestaties van agenten, en er kunnen meerdere evenwichten bestaan in een scenario met meerdere agenten. Daarom beïnvloedt een effectieve agent actief het toekomstige gedrag van andere agenten op een zodanige manier dat ze een wenselijk evenwicht bereiken vanuit het perspectief van de agent. Als alle agenten elkaar beïnvloeden, convergeren ze naar een algemeen concept dat de onderzoekers een ‘actief evenwicht’ noemen.
Het machine-learning raamwerk dat ze hebben ontwikkeld, bekend als FURTHER (wat staat voor FUlly Reinforcing Active Influence with Average Reward), stelt agenten in staat om te leren hoe ze hun gedrag kunnen aanpassen terwijl ze omgaan met andere agenten om dit actieve evenwicht te bereiken.
VERDER doet dit met behulp van twee machine-learning modules. De eerste, een inferentiemodule, stelt een agent in staat om het toekomstige gedrag van andere agenten en de leeralgoritmen die ze gebruiken te raden, uitsluitend op basis van hun eerdere acties.
Deze informatie wordt ingevoerd in de leermodule voor versterking, die de agent gebruikt om zijn gedrag aan te passen en andere agenten te beïnvloeden op een manier die zijn beloning maximaliseert.
“De uitdaging was om na te denken over oneindigheid. We moesten veel verschillende wiskundige hulpmiddelen gebruiken om dat mogelijk te maken, en enkele aannames doen om het in de praktijk te laten werken”, zegt Kim.
Winnen op de lange termijn
Ze testten hun aanpak in verschillende scenario’s tegen andere leerkaders voor versterking door meerdere agenten, waaronder een paar robots die in sumostijl vechten en een strijd waarin twee teams van 25 agenten het tegen elkaar opnemen. In beide gevallen wonnen de AI-agenten die VERDER gebruikten de spellen vaker.
Omdat hun aanpak gedecentraliseerd is, wat betekent dat de agenten leren om de spellen onafhankelijk te winnen, is het ook schaalbaarder dan andere methoden waarbij een centrale computer nodig is om de agenten aan te sturen, legt Kim uit.
De onderzoekers gebruikten games om hun aanpak te testen, maar VERDER kon worden gebruikt om elk soort multi-agent probleem aan te pakken. Het zou bijvoorbeeld kunnen worden toegepast door economen die een degelijk beleid willen ontwikkelen in situaties waarin veel op elkaar inwerkende rechthebbenden gedragingen en belangen hebben die in de loop van de tijd veranderen.
Economie is een toepassing Kim is vooral enthousiast over studeren. Hij wil ook dieper ingaan op het concept van een actief evenwicht en het VERDERE kader verder verbeteren.
Dit onderzoek wordt gedeeltelijk gefinancierd door het MIT-IBM Watson AI Lab.