Vorig jaar kondigden MIT-onderzoekers aan dat ze “vloeibare” neurale netwerken hadden gebouwd, geïnspireerd door de hersenen van kleine soorten: een klasse van flexibele, robuuste machine learning-modellen die tijdens het werk leren en zich kunnen aanpassen aan veranderende omstandigheden, voor echte veiligheid -kritieke taken, zoals autorijden en vliegen. De flexibiliteit van deze “vloeibare” neurale netwerken betekende een boost voor de bloedlijn naar onze verbonden wereld, wat leidde tot betere besluitvorming voor veel taken met tijdreeksgegevens, zoals hersen- en hartmonitoring, weersvoorspellingen en aandelenprijzen.
Maar deze modellen worden rekenkundig duur naarmate hun aantal neuronen en synapsen toeneemt en er zijn onhandige computerprogramma’s nodig om hun onderliggende, gecompliceerde wiskunde op te lossen. En al deze wiskunde, vergelijkbaar met veel natuurkundige fenomenen, wordt moeilijker op te lossen met de grootte, wat betekent dat je veel kleine stappen moet berekenen om tot een oplossing te komen.
Nu heeft hetzelfde team van wetenschappers een manier ontdekt om dit knelpunt te verlichten door de differentiaalvergelijking achter de interactie van twee neuronen via synapsen op te lossen om een nieuw type snelle en efficiënte algoritmen voor kunstmatige intelligentie te ontsluiten. Deze modi hebben dezelfde kenmerken van vloeibare neurale netwerken – flexibel, causaal, robuust en verklaarbaar – maar zijn veel sneller en schaalbaar. Dit type neuraal net kan daarom worden gebruikt voor elke taak waarbij in de loop van de tijd inzicht moet worden verkregen in gegevens, aangezien ze compact en aanpasbaar zijn, zelfs na training – terwijl veel traditionele modellen vastliggen. Er is geen oplossing bekend sinds 1907 – het jaar waarin de differentiaalvergelijking van het neuronenmodel werd geïntroduceerd.
De modellen, een “closed-form continuous-time” (CfC) neuraal netwerk genoemd, presteerden beter dan state-of-the-art tegenhangers bij een hele reeks taken, met aanzienlijk hogere versnellingen en prestaties bij het herkennen van menselijke activiteiten van bewegingssensoren, het modelleren van fysieke dynamiek van een gesimuleerde looprobot en op gebeurtenissen gebaseerde sequentiële beeldverwerking. Bij een medische voorspellingstaak waren de nieuwe modellen bijvoorbeeld 220 keer sneller bij een steekproef van 8.000 patiënten.
Een nieuwe papier op het werk wordt vandaag gepubliceerd in Intelligentie van de natuurmachine.
“De nieuwe modellen voor machinaal leren die we ‘CfC’s’ noemen, vervangen de differentiaalvergelijking die de berekening van het neuron definieert door een benadering in gesloten vorm, waarbij de prachtige eigenschappen van vloeibare netwerken behouden blijven zonder de noodzaak van numerieke integratie”, zegt MIT-professor Daniela Rus, directeur van het Computer Science and Artificial Intelligence Laboratory (CSAIL) en senior auteur van het nieuwe artikel. “CfC-modellen zijn causaal, compact, verklaarbaar en efficiënt om te trainen en te voorspellen. Ze openen de weg naar betrouwbare machine learning voor veiligheidskritische toepassingen.”
Dingen vloeibaar houden
Differentiaalvergelijkingen stellen ons in staat om de toestand van de wereld of een fenomeen te berekenen terwijl het zich ontwikkelt, maar niet helemaal door de tijd heen – alleen stap voor stap. Om natuurlijke fenomenen door de tijd heen te modelleren en eerder en toekomstig gedrag te begrijpen, zoals het herkennen van menselijke activiteit of het pad van een robot, reikte het team in een zak met wiskundige trucs om precies het juiste kaartje te vinden: een ‘gesloten vorm’-oplossing die de volledige beschrijving van een heel systeem, in een enkele rekenstap.
Met hun modellen kan men deze vergelijking op elk moment in de toekomst en op elk moment in het verleden berekenen. Niet alleen dat, maar de snelheid van de berekening is veel hoger omdat u de differentiaalvergelijking niet stap voor stap hoeft op te lossen.
Stel je een end-to-end neuraal netwerk voor dat input ontvangt van een camera die op een auto is gemonteerd. Het netwerk is getraind om output te genereren, zoals de stuurhoek van de auto. In 2020 loste het team dit op door gebruik te maken van vloeibare neurale netwerken met 19 knooppunten, zodat 19 neuronen plus een kleine waarnemingsmodule een auto konden besturen. Een differentiaalvergelijking beschrijft elk knooppunt van dat systeem. Met de oplossing in gesloten vorm, als je het binnen dit netwerk vervangt, zou het je het exacte gedrag geven, aangezien het een goede benadering is van de werkelijke dynamiek van het systeem. Ze kunnen het probleem dus oplossen met een nog lager aantal neuronen, wat betekent dat het sneller en minder rekenkundig duur zou zijn.
Deze modellen kunnen invoer ontvangen als tijdreeksen (gebeurtenissen die in de tijd hebben plaatsgevonden), die kunnen worden gebruikt voor classificatie, het besturen van een auto, het verplaatsen van een mensachtige robot of het voorspellen van financiële en medische gebeurtenissen. Met al deze verschillende modi kan het ook de nauwkeurigheid, robuustheid en prestaties verhogen, en, belangrijker nog, de rekensnelheid – wat soms een afweging is.
Het oplossen van deze vergelijking heeft verreikende implicaties voor het bevorderen van onderzoek in zowel natuurlijke als kunstmatige intelligentiesystemen. “Als we een gesloten beschrijving hebben van de communicatie tussen neuronen en synapsen, kunnen we computermodellen bouwen van hersenen met miljarden cellen, een mogelijkheid die tegenwoordig niet mogelijk is vanwege de hoge rekenkundige complexiteit van neurowetenschappelijke modellen. De vergelijking in gesloten vorm zou dergelijke simulaties op groot niveau kunnen vergemakkelijken en opent daarom nieuwe onderzoekswegen voor ons om intelligentie te begrijpen, “zegt MIT CSAIL Research Affiliate Ramin Hasani, eerste auteur van het nieuwe artikel.
Draagbaar leren
Bovendien is er vroeg bewijs van Liquid CfC-modellen bij het leren van taken in de ene omgeving op basis van visuele invoer en het overbrengen van hun aangeleerde vaardigheden naar een geheel nieuwe omgeving zonder aanvullende training. Dit wordt out-of-distribution-generalisatie genoemd, wat een van de meest fundamentele open uitdagingen van onderzoek naar kunstmatige intelligentie is.
“Neurale netwerksystemen op basis van differentiaalvergelijkingen zijn moeilijk op te lossen en te schalen naar bijvoorbeeld miljoenen en miljarden parameters. Door die beschrijving te krijgen van hoe neuronen met elkaar omgaan, niet alleen de drempel, maar het oplossen van de fysieke dynamiek tussen cellen, kunnen we grootschaligere neurale netwerken opbouwen”, zegt Hasani. “Dit raamwerk kan helpen bij het oplossen van complexere machine learning-taken – waardoor beter representatief leren mogelijk wordt – en zou de basisbouwstenen moeten zijn van elk toekomstig ingebed intelligentiesysteem.”
“Recente neurale netwerkarchitecturen, zoals neurale ODE’s en vloeibare neurale netwerken, hebben verborgen lagen die zijn samengesteld uit specifieke dynamische systemen die oneindige latente toestanden vertegenwoordigen in plaats van expliciete stapels lagen”, zegt Sildomar Monteiro, AI en Machine Learning Group-leider bij Aurora Flight Sciences, een bedrijf van Boeing, dat niet betrokken was bij dit document. “Deze impliciet gedefinieerde modellen hebben state-of-the-art prestaties geleverd terwijl ze veel minder parameters nodig hebben dan conventionele architecturen. Hun praktische acceptatie is echter beperkt vanwege de hoge rekenkosten die nodig zijn voor training en inferentie. Hij voegt eraan toe dat dit artikel “een significante verbetering laat zien in de rekenefficiëntie voor deze klasse van neurale netwerken… [and] heeft het potentieel om een breder scala aan praktische toepassingen mogelijk te maken die relevant zijn voor veiligheidskritische commerciële en defensiesystemen.”
Hasani en Mathias Lechner, een postdoc bij MIT CSAIL, schreven de paper onder supervisie van Rus, samen met MIT Alexander Amini, een CSAIL postdoc; Lucas Liebenwein SM ’18, PhD ’21; Aaron Ray, een PhD-student elektrotechniek en informatica aan het MIT en gelieerd aan CSAIL; Max Tschaikowski, universitair hoofddocent informatica aan de Universiteit van Aalborg in Denemarken; en Gerald Teschl, hoogleraar wiskunde aan de Universiteit van Wenen.