Onderzoekers van de University of Washington tonen aan dat AI-systemen culturele waarden kunnen oppikken door menselijk gedrag te observeren. De resultaten zijn gepubliceerd in PLOS One. De studie bouwt voort op eerder werk dat liet zien dat opvoeding en cultuur verschillen in altruïsme kunnen veroorzaken. Voor de AI-experimenten leverden 190 volwassenen die zich als wit identificeerden en 110 die zich als Latino identificeerden de trainingsdata; voor elk van deze groepen werd een aparte agent getraind.
In plaats van traditionele reinforcement learning gebruikten de auteurs inverse reinforcement learning (IRL). Waar standaard reinforcement learning werkt met expliciete doelen en beloningen, probeert IRL de onderliggende doelen en beloningen af te leiden uit zichtbaar menselijk gedrag. De auteurs stellen dat deze methode dichter bij menselijke leerprocessen ligt, zoals ouders die algemeen wenselijk gedrag tonen in plaats van concrete taken.
De proef gebruikte een aangepaste versie van het spel Overcooked. Deelnemers maakten soep en konden uien weggeven aan een tweede speler die om hulp vroeg, zonder te weten dat die speler een bot was. Mensen uit de Latino-groep hielpen vaker, en de agent getraind op Latino-data gaf in het spel significant meer uien weg. In een vervolgtest droeg diezelfde agent ook vaker geld aan iemand in nood.
Senior auteur Rajesh Rao waarschuwt tegen het hardcoderen van één universele set waarden, omdat culturen eigen waarden hebben. Hij zegt dat de demonstraties mogelijk opschalen als ontwikkelaars meer en gevarieerdere culturespecifieke data gebruiken, waardoor fijnslijpen voor inzet mogelijk wordt. Andrew Meltzoff vraagt hoe we systemen maken die de perspectieven van anderen meewegen en burgerzin tonen. Extra coauteurs komen van UW en San Diego State University.
Moeilijke woorden
- inverse reinforcement learning — methode om doelen uit gedrag af te leidenIRL
- reinforcement learning — leerproces met expliciete doelen en beloningen
- altruïsme — handelen met aandacht voor welzijn van anderen
- agent — software die acties in een omgeving uitvoert
- hardcoderen — vast programmeren van regels in een systeem
- weggeven — iets aan iemand geven zonder betaling
- perspectief — manier waarop iemand naar iets kijktperspectieven
Tip: beweeg de muisaanwijzer over gemarkeerde woorden in het artikel, of tik erop om snelle definities te zien terwijl je leest of luistert.
Discussievragen
- Hoe zou het gebruik van culturespecifieke data AI-toepassingen in jouw omgeving kunnen beïnvloeden? Geef voorbeelden.
- Welke mogelijke voordelen en risico's zie je bij het trainen van AI met data van verschillende culturele groepen?
- Hoe zouden ontwikkelaars systemen kunnen ontwerpen die de perspectieven van anderen meenemen, zoals in de tekst besproken?
Gerelateerde artikelen
AI leert waarom koppen werken
Een studie van onderzoekers van de Yale School of Management toont dat een taalmodel betere en betrouwbaardere koppen schrijft als het leert waarom mensen op bepaalde koppen klikken. Ze testten de methode met bestaande A/B-testgegevens en menselijke beoordelingen.
Universiteit en farmaceut bedrijf starten academie voor biotechnologie
De American University in Cairo en Minapharm werken samen aan wat zij noemen de eerste Afrikaanse academie voor biotechnologie. Het doel is onderwijs en onderzoek te verbinden met de praktische behoeften van de industrie.