Kunstmatige intelligentie (AI) wordt algemeen erkend vanwege zijn vermogen om informatie uit een groot aantal materialen, zowel literair als visueel, te analyseren en te synthetiseren. Hoewel het creatiepotentieel ervan enorm is, heeft door AI gegenereerde inhoud mensen gefrustreerd omdat deze vaak eigenaardigheden en onnauwkeurigheden bevat (die in sommige gevallen komisch zijn). Wie heeft er niet gegrinnikt om een beeld met te veel handen of een gezicht dat vaag menselijk is, maar verontrustend verkeerd?
Nu lijkt het erop dat de voorspellende capaciteiten van AI steeds groter worden en misschien zelfs de menselijke intuïtie overtreffen, althans wat betreft het voorspellen van de uitkomsten van neurowetenschappelijk onderzoek. Dat was de conclusie van een onderzoek dat vorige week werd gepubliceerd in Natuur Menselijk gedrag waarin Ken Luo, PhD, en zijn team aan het University College London (UCL) onderzochten de voorspellende mogelijkheden van grote taalmodellen (LLM’s). Hun rapport is getiteld: “Grote taalmodellen overtreffen menselijke experts in het voorspellen van neurowetenschappelijke resultaten.”
Het UCL-team ontwikkelde een tool genaamd BrainBench om het vermogen van LLM’s om neurowetenschappelijke resultaten te voorspellen te evalueren. De auteurs presenteerden BrainBench paren neurowetenschappelijke samenvattingen met achtergrond, methoden en resultaten. In elk paar was één samenvatting reëel, terwijl de andere plausibel was–maar uiteindelijk vals–resultaten. BrainBench beoordeelde 15 LLM’s en 171 menselijke neurowetenschappers die de opdracht kregen om in elk paar de juiste samenvatting te identificeren.
“Sinds de komst van generatieve AI zoals ChatGPT heeft veel onderzoek zich gericht op de vraag-antwoordcapaciteiten van LLM’s, waarbij hun opmerkelijke vaardigheid in het samenvatten van kennis uit uitgebreide trainingsgegevens wordt aangetoond. Maar in plaats van hun achterwaarts gerichte vermogen om informatie uit het verleden terug te halen te benadrukken, onderzochten we of LLM’s kennis konden synthetiseren om toekomstige resultaten te voorspellen”, aldus Luo.
„Ons werk onderzoekt of LLM’s patronen in enorme wetenschappelijke teksten kunnen identificeren en de resultaten van experimenten kunnen voorspellen“, legt Luo uit. “Wetenschappelijke vooruitgang berust vaak op vallen en opstaan, maar elk minutieus experiment vergt tijd en middelen. Zelfs de meest ervaren onderzoekers kunnen kritische inzichten uit de literatuur over het hoofd zien.”
In de strijd tussen AI en mensen was AI de belangrijkste winnaar. LLM’s hadden een gemiddelde nauwkeurigheid van 81%, vergeleken met 63% voor menselijke experts. Toen de menselijke groep beperkt werd tot de hoogste graad van zelfgerapporteerde expertise per domein, nam de nauwkeurigheid toe tot slechts 66%. De LLM’s rapporteerden meer vertrouwen in hun beslissingen, die waarschijnlijk juister waren dan de menselijke deelnemers aan het onderzoek.
“Opmerkelijk is hoe goed LLM’s de neurowetenschappelijke literatuur kunnen voorspellen. Dit succes suggereert dat een groot deel van de wetenschap niet echt nieuw is, maar zich conformeert aan bestaande resultatenpatronen in de literatuur. We vragen ons af of wetenschappers voldoende innovatief en verkennend zijn”, aldus senior auteur van het onderzoek, Bradley Love, PhD, professor aan de UCL.
De onderzoekers hebben een versie van een open-source LLM, Mistral, op neurowetenschappelijke literatuur aangepast en getraind, genaamd BrainGPT. Toen BrainGPT dezelfde tests kreeg als BrainBench, voorspelde het correcte abstracte resultaten met een nauwkeurigheid van 86%, vergeleken met een nauwkeurigheid van 83% in de ongetrainde versie van Mistral.
De toekomst van onderzoek en, in feite, het dagelijks leven van de mensheid lijkt een integratie van AI te impliceren. Deze studie toont het nut van AI aan bij het voorspellen van studieresultaten, maar het is niet onfeilbaar en moet worden gebruikt als een hulpmiddel om onderzoekers te helpen, en niet als vervanging voor menselijke onderzoekers.
“We stellen ons een toekomst voor waarin onderzoekers hun voorgestelde experimentontwerpen en verwachte bevindingen kunnen invoeren, waarbij AI voorspellingen kan doen over de waarschijnlijkheid van verschillende uitkomsten,” zei Luo. „Dit zou een snellere iteratie en beter geïnformeerde besluitvorming bij het ontwerpen van experimenten mogelijk maken.“