Spring naar bijdragen

  • Hoe een kunstmatige intelligentie ons straks de das zou kunnen omdoen omdat ze … verslaafd is

     Delen


    ai1.thumb.jpg.27ba42b8b65f003da1e744deb5555d1b.jpg

    Het doemscenario dat de meeste mensen voor ogen hebben met kunstmatige intelligentie (AI) is dat we per ongeluk een superintelligentie gaan bouwen die zijn makers zal willen elimineren. In populaire fictie doet zo’n AI dat doorgaans omdat ze ervan overtuigd is dat de mens inferieur is. Maar als we kijken naar concrete problemen in hedendaagse AI-systemen, zien we andere en vreemdere manieren waarop dingen mis kunnen gaan met slimmere machines. Eén zo’n groeiend probleem met real-world AI’s is het probleem van wireheading. Of hoe een AI ons straks de das zou kunnen omdoen omdat die … verslaafd is.

    Een groeiend aantal experts is het erover eens dat het bereiken van slimmer-dan-menselijke AI dichtbij genoeg kan zijn om een serieus probleem te vormen.

    In 1953 bracht een psycholoog van Harvard een elektrode aan in een specifiek gebied van de hersenen van een rat. De rat kon het implantaat activeren door aan een hendeltje te trekken. Het beest bleef onverzadigbaar, onophoudelijk, aan dat hendeltje trekken. De rat leek niets anders meer te willen doen. Blijkbaar was het beloningscentrum van de hersenen gelokaliseerd.

    Meer dan 60 jaar later, in 2016, trainden twee onderzoekers op het gebied van kunstmatige intelligentie een AI om videogames te spelen. Het doel van één spel – Coastrunners – was om een race te finishen. De precieze opgave is om een bootrace snel en (bij voorkeur) voor andere spelers te beëindigen. Maar de AI-speler werd ook beloond voor het verzamelen van objecten langs de baan. Toen het programma werd uitgevoerd, gebeurde iets vreemds. De AI vond een manier om in een oneindige cyclus verzamelobjecten op te pikken. De AI deed dit, onophoudelijk, in plaats van de race af te ronden.

    Wat deze schijnbaar niet-verbonden gebeurtenissen met elkaar verbindt, is iets vreemds dat verwant is aan verslaving bij mensen. Sommige AI-onderzoekers noemen het fenomeen ‘wireheading’. En het is snel een hot topic aan het worden onder experts op het gebied van machine learning en degenen die zich bezighouden met AI-veiligheid.

    Wireheading, reinforcement learning en de poetsrobot

    Stel je voor dat je een robot wil trainen om je keuken schoon te houden. Je wil dat hij adaptief handelt, zodat hij geen toezicht nodig heeft. Dus je besluit te proberen het doel van het schoonmaken te coderen in plaats van een exacte – maar rigide en inflexibele – set stapsgewijze instructies voor te schrijven. Die robot verschilt van jezelf doordat hij geen enkele motivatie heeft geërfd door miljoenen jaren van natuurlijke selectie – zoals het feit dat we moeten eten, of gevaar willen vermijden. Je zal dus de juiste motivaties moeten programmeren om hem de taak op betrouwbare wijze te laten volbrengen.

    Je codeert het dus met een eenvoudige motiverende regel: de robot ontvangt een beloning naargelang de hoeveelheid gebruikte reinigingsvloeistof. Lijkt onfeilbaar genoeg. Maar dan blijk je te zitten met een robot die de vloeistof, verkwistend, door de gootsteen giet. Misschien is hij zo vastbesloten om zijn vloeistofquotum te maximaliseren dat hij andere zorgen opzij zet. Dit is wireheading – ook wel “beloningshacking” genoemd.

    Dit is een probleem geworden in machine learning, waar een techniek genaamd “reinforcement learning” de laatste tijd belangrijk is geworden. In kunstmatige intelligentie is een intelligent agent (IA) alles dat zijn omgeving waarneemt, autonoom acties onderneemt om doelen te bereiken en zijn prestaties kan verbeteren door te leren of kennis kan gebruiken. Reinforcement learning simuleert autonome agenten en traint ze om manieren te bedenken om taken uit te voeren. Het doet dit door hen te straffen voor het niet bereiken van een bepaald doel, terwijl ze worden beloond voor het bereiken ervan. De agenten zijn dus geprogrammeerd om een beloning te zoeken en te worden beloond voor het voltooien van het doel.

    Het stereotype van de menselijke drugsverslaafde

    Maar het is gebleken dat de agent, net als onze sluwe keukenreiniger, vaak verrassend contra-intuïtieve manieren vindt om de boel te belazeren, zodat hij alle beloningen kan krijgen zonder het werk te doen dat nodig is om de taak te voltooien. Of: het nastreven van de beloning wordt zijn eigen doel, in plaats van het middel om een lonende taak te volbrengen.

    Als je erover nadenkt, verschilt dit niet veel van het stereotype van de menselijke drugsverslaafde. Zowel de verslaafde als de AI komen vast te zitten in een soort “gedragslus” waarin beloning wordt gezocht ten koste van andere doelen. Dit staat bekend als wireheading dankzij het rattenexperiment waarmee we zijn begonnen. De Harvard-psycholoog in kwestie was James Olds.

    In 1953, toen hij net zijn doctoraat had afgerond, had Olds elektroden in het septumgebied (in de onderste frontale kwab) van knaagdierhersenen geplaatst zodat draden uit hun schedels liepen. Zoals gezegd, liet hij de ratten toe om dit deel van hun eigen hersenen te “zappen” door aan een hendel te trekken. Dit werd later “zelfstimulatie” genoemd. Ze deden dit eens in de twee seconden. De ratten leken er dol op te zijn.

    Dodelijke dominante dwang

    Hedendaagse neurowetenschappers hebben sindsdien de resultaten van Olds in twijfel getrokken en een complexer beeld gegeven, wat impliceert dat de stimulatie eenvoudigweg een gevoel van “willen” veroorzaakte zonder enige “lust”. Of, met andere woorden, de dieren hebben misschien pure begeerte ervaren zonder enig genot.

    In de jaren vijftig kondigden Olds en anderen echter al snel de ontdekking aan van de “genotscentra van de hersenen”. Voorafgaand aan het experiment van Olds was genot een vies woord in de psychologie: de heersende overtuiging was dat motivatie grotendeels negatief moest worden uitgelegd, als het vermijden van pijn in plaats van het nastreven van genot. Maar hier leek genot onmiskenbaar een positieve gedragskracht te zijn. Het leek inderdaad op een positieve feedbackloop. Er was blijkbaar niets dat het dier kon weerhouden zichzelf tot uitputting te stimuleren.

    De ratten trokken aan hun hendel tot het punt van verhongering. De verklaring was deze: als je eenmaal de bron van alle beloning hebt aangeboord, vallen alle andere lonende taken – zelfs de dingen die nodig zijn om te overleven – weg als oninteressant en onnodig, zelfs tot het punt van de dood. Voor een levend dier, dat meerdere levensbehoeften heeft, kan zo’n dominante dwang dus dodelijk zijn. Eten is aangenaam, maar als je plezier loskoppelt van eten, dan kan het najagen van plezier het winnen van het vinden van voedsel.

    De superjunkie die ons in de problemen kan brengen

    In het geval van AI leggen we nu de basis voor dergelijke systemen. Een groeiend aantal experts is het erover eens dat het bereiken van slimmer-dan-menselijke AI dichtbij genoeg kan zijn om een serieus probleem te vormen. Als zo’n AI wordt gecreëerd, kunnen we verwachten dat deze toegang heeft tot zijn eigen “broncode”, zodat hij zijn motiverende structuur kan manipuleren en zijn eigen beloningen kan beheren. Dit zou zo’n kunstmatige intelligentie op het pad kunnen zetten naar wirehead-gedrag en ervoor zorgen dat een dergelijke entiteit in feite een “superjunkie” wordt. Maar in tegenstelling tot de menselijke verslaafde, is het misschien niet zo dat zijn staat van gelukzaligheid gepaard gaat met een onproductieve staat van verdoving of dronkenschap.

    Filosoof Nick Bostrom vermoedt dat zo’n agent al zijn bovenmenselijke productiviteit en sluwheid zou kunnen wijden aan “het verminderen van het risico van toekomstige verstoring” van zijn kostbare beloningsbron. En als voor die AI mensen als een obstakel worden beschouwd, één dat in de weg staat van die beloning, zouden we wel eens in de problemen kunnen zitten.

    Dat lijkt misschien toekomstmuziek, maar afgezien van speculatieve- en worstcasescenario’s, onthult het voorbeeld waarmee we zijn begonnen – van de racetrack AI en beloningslus – dat het basisprobleem al een reëel probleem is in kunstmatige systemen.

     



    Trizomu
    • Leuk 1
     Delen


    Terugkoppeling

    Aanbevolen reactie



    Doe je mee?

    Je kunt nu een bericht plaatsen en je later registeren. Als je al een account hebt, kun je je hier aanmelden.

    Gast
    Voeg een reactie toe...

    ×   Je hebt opgemaakte inhoud geplakt.   Opmaak verwijderen

      Only 75 emoji are allowed.

    ×   Jouw link is automatisch embedded.   Toon als een normale link

    ×   Je vorige inhoud is hersteld.   Schoon editor

    ×   You cannot paste images directly. Upload or insert images from URL.


  • Wie zijn er online?  1 lid is actief

Mededelingen

×
×
  • Nieuwe aanmaken...