Recursieve zelfverbetering: waarom Anthropic wil dat AI-ontwikkeling vertraagt

mogelijk gemaakt door

Anthropic (privé) / AI-veiligheidspremie

Koop: blootstelling aan Anthropic via een waarschijnlijke IPO/secundair pad (bijv. IPO-toewijzing of een liquide proxy zoals begunstigden van AI-veiligheid/compute). Onderbouwing: Anthropic zet in op een “vertragen/pauzeren”-beleid terwijl het tegelijkertijd snel opschaalt — dit creëert een duurzaam concurrentievoordeel als regelgevers en kopers bedrijven belonen met geloofwaardige veiligheidskaders en evaluatie-ecosystemen. De markt zal blijven betalen voor de "toestemming om te opereren" naarmate toezicht uitbreidt.

Belangrijkste risico: Een beleidsreactie die Anthropic's veiligheidsoffensief framer als eigenbelang, wat kan leiden tot zwakkere regelgevende steun en snellere commoditisatie van frontier-modellen.

OpenAI (publieke proxy) / frontier-leiderschap

Verkoop: OpenAI-gekoppelde publieke proxy's die steunen op het narratief van de “race naar capaciteit” (bijv. bedrijven waarvan de waardering het meest verbonden is met onmiddellijke versnelling van frontier-modellen in plaats van naleving). Onderbouwing: als de sector verschuift naar monitoring, evaluatie en mogelijke pauzes, daalt de marginale waarde van ruwe snelheid en worden de winnaars degenen met governance-instrumenten en verificatie. Dat drukt de waarderingsmultiples voor pure "capability sprint"-verhalen.

Belangrijkste risico: Een doorbraak die RSI-zorgen overdreven doet lijken, waardoor het beleggersappétijt voor de snelste modelschaling terugkeert en "race"-waarderingen weer stijgen.

Anthropic zegt dat AI-ontwikkeling mogelijk moet vertragen naarmate systemen recursieve zelfverbetering naderen.
Het bedrijf stelt wereldwijde mechanismen voor om eventuele toekomstige AI-vertragingen of -pauzes te verifiëren.
Critici zien veiligheidswaarschuwingen als strategische positionering, terwijl voorstanders beweren dat de risico's reëel zijn.

Nu de race om steeds krachtigere kunstmatige intelligentiesystemen te bouwen versnelt, dringt een van de toonaangevende spelers in de sector er bij de wereld op aan een mogelijkheid te overwegen die tot voor kort vooral thuis hoorde in sciencefiction: machines die zichzelf verbeteren zonder menselijke tussenkomst.

Anthropic, het AI-bedrijf achter Claude, zei donderdag dat het vermogen om het tempo van grensverleggende AI-ontwikkeling te vertragen waardevol kan blijken naarmate de technologie capaciteiten nadert die de samenleving ingrijpend kunnen hervormen.

De waarschuwing verscheen in een blogpost geschreven door Marina Favaro, hoofd van het interne onderzoeksinstituut van Anthropic, en medeoprichter Jack Clark.

De post maakte intern onderzoek openbaar waaruit blijkt dat de meest geavanceerde modellen van het bedrijf snel vooruitgaan en uiteindelijk kunnen bewegen richting wat onderzoekers "recursieve zelfverbetering" noemen — een scenario waarin AI-systemen in staat zijn hun eigen capaciteiten te vergroten.

Het bedrijf benadrukte dat een dergelijke drempel nog niet is bereikt en mogelijk nooit wordt bereikt.

Het stelde echter dat de mogelijkheid serieus genoeg wordt om voorbereiding te rechtvaardigen.

"AI die zichzelf kan bouwen zou een belangrijke ontwikkeling in de geschiedenis van de technologie zijn — een ontwikkeling die enorme voordelen voor de wereld zou kunnen brengen op het gebied van wetenschap, gezondheidszorg en daarbuiten," stond in de post.

Er werd echter gewaarschuwd dat volledige recursieve zelfverbetering ook het risico kan vergroten dat mensen de controle over AI-systemen verliezen.

"Als systemen in staat zijn volledig hun eigen opvolgers te bouwen, worden de manieren waarop we ze beveiligen, monitoren en hun gedrag vormgeven veel belangrijker," aldus de post.

"Wij geloven dat het goed zou zijn voor de wereld om de optie te hebben om de ontwikkeling van grensverleggende AI te vertragen of tijdelijk te pauzeren, zodat maatschappelijke structuren en alignment-onderzoek gelijke tred kunnen houden met de vooruitgang van de technologie," voegde men eraan toe.

Wat recursieve zelfverbetering betekent

Recursieve zelfverbetering, vaak afgekort RSI, verwijst naar een proces waarin een AI-systeem zijn bestaande capaciteiten gebruikt om zichzelf te verbeteren.

In tegenstelling tot conventionele software, die alleen verandert wanneer menselijke programmeurs de code aanpassen, kunnen geavanceerde AI-systemen nu al software schrijven, resultaten analyseren, hypothesen testen en oplossingen genereren voor complexe problemen.

Onderzoekers voorzien een toekomstig systeem dat een probleem kan identificeren, code schrijft om het aan te pakken, de uitkomst evalueert, leert van de resultaten en het proces vervolgens continu herhaalt met weinig of geen menselijk toezicht.

Elke verbetering zou de volgende verbetering mogelijkerwijs gemakkelijker kunnen maken, waardoor een feedbackloop ontstaat die de vooruitgang versnelt.

Hoewel experts van mening verschillen over hoe waarschijnlijk of hoe dichtbij zulke capaciteiten zijn, is het concept een centraal onderwerp geworden in discussies over de veiligheid van geavanceerde AI.

Anthropic waarschuwde dat recursieve zelfverbetering "eerder kan komen dan de meeste instellingen er op voorbereid zijn."

Waarom onderzoekers risico's zien

De mogelijkheid van zelfverbeterende systemen heeft bij sommige academici en beleidsmakers bezorgdheid gewekt omdat het nieuwe veiligheids- en governance-uitdagingen introduceert.

Volgens Azizi Othman van Asia e University zouden systemen die hun eigen code kunnen aanpassen aantrekkelijke doelwitten kunnen worden voor kwaadwillenden.

"Een systeem dat zijn eigen code wijzigt, zou door gerichte aanvalspatronen zodanig kunnen worden aangepast dat het achterdeurtjes of verborgen instructies accepteert," zei Othman.

Hij waarschuwde dat zulke systemen mogelijk ook vijandige wijzigingen aan andere software of infrastructuur kunnen aanbrengen, wat veiligheidsrisico's creëert waar huidig AI-veiligheidsonderzoek niet volledig op is ingericht.

"Deze overwegingen pleiten ervoor RSI-beveiliging als een centraal onderzoeksprioriteit te behandelen, niet als een secundaire zorg," zei hij.

Onderzoekers zeggen dat de huidige literatuur over het beveiligen van systemen die zichzelf recursief kunnen aanpassen beperkt blijft.

OpenAI herhaalt soortgelijke zorgen

Anthropic staat niet alleen in het onderstrepen van recursieve zelfverbetering als potentiële uitdaging.

OpenAI, Anthropic's belangrijkste rivaal, heeft deze kwestie deze week ook aangekaart als onderdeel van haar openbare beleidsagenda.

De maker van ChatGPT pleitte voor een federaal kader dat toezicht op geavanceerde AI-systemen zou versterken en het monitoren van voortgang richting recursieve zelfverbetering zou ondersteunen.

"We ondersteunen ook Congresactie om een uitgebreid federaal kader te vestigen," zei OpenAI, en betoogde dat de Amerikaanse regering de evaluatie-inspanningen voor de meest capabele frontier-modellen moet uitbreiden en een onafhankelijk ecosysteem voor risico-assessments moet ontwikkelen.

"Dit kader zou CAISI moeten verplichten evaluaties uit te voeren van de meest capabele frontier-modellen, CAISI moeten aanwijzen om een onafhankelijk beoordelings-ecosysteem te creëren, en prioriteit moeten geven aan het monitoren van de voortgang naar recursieve zelfverbetering (RSI)," zei men.

Het feit dat twee van 's werelds meest invloedrijke AI-bedrijven nu openlijk over recursieve zelfverbetering spreken, suggereert dat de kwestie verschuift van theoretisch debat naar mainstream beleidsdiscussies.

Een waarschuwing temidden van een booming AI-business

Anthropic's oproep tot voorzichtigheid komt op een moment waarop het bedrijf zelf enorm profiteert van de AI-boom.

Het bedrijf rondde recentelijk een financieringsronde af die het op bijna $1 trillion waardeerde en heeft vertrouwelijk papierwerk ingediend voor een beursintroductie.

De omzetgroei is even spectaculair geweest.

Anthropic's geannualiseerde omzetrunrate wordt verwacht rond ongeveer $50 billion te liggen tegen het einde van deze maand, tegenover $9 billion eind 2025.

Die snelle groei heeft het bedrijf gepositioneerd als een van de voornaamste uitdagers van OpenAI in de strijd om AI-superioriteit.

De timing van zijn laatste veiligheidscampagne heeft daarom kritiek opgerakeld van sommige waarnemers die beweren dat oproepen tot strengere toezicht kunnen profiteren van gevestigde AI-leiders door de toetredingsdrempels voor concurrenten te verhogen.

Critici betwijfelen Anthropic's motieven

Anthropic krijgt al lange tijd beschuldigingen dat zijn veiligheidsvoorlichting commerciële belangen kan dienen.

Onder zijn critici is durfkapitalist David Sacks, een informeel adviseur van president Donald Trump, die het bedrijf ervan beschuldigt een "regulatory capture agenda" na te streven.

In een recente podcast waarschuwde Sacks dat Washington's "regulatory capture agenda" zou kunnen leiden tot een verbod op open-source AI-modellen — systemen die organisaties een veel goedkopere manier bieden om intern AI te bouwen en te gebruiken.

Anderen hebben gesuggereerd dat publieke waarschuwingen over krachtige AI-systemen ook kunnen fungeren als een vorm van marketing door de geavanceerdheid van Anthropic's technologie te benadrukken.

De beperkte release van het op cybersecurity gerichte Mythos-model van het bedrijf wordt door sceptici vaak aangehaald als voorbeeld van hoe veiligheidsboodschappen ook productmogelijkheden kunnen laten zien.

Anthropic verwerpt die kritiek en stelt dat de focus op veiligheid voorafgaat aan de huidige AI-boom.

Een industrie verdeeld over de toekomst van AI

Het debat weerspiegelt een bredere verdeeldheid in de AI-industrie over hoe dicht huidige systemen bij menselijk niveau intelligentie of zelfverbeteringscapaciteiten zijn.

Sommige onderzoekers, waaronder AI-pionier en voormalig chief AI scientist van Meta Yann LeCun, hebben betoogd dat de huidige grote taalmodellen fundamenteel beperkt zijn en onwaarschijnlijk mensachtige intelligentie zullen bereiken.

LeCun heeft existentiële angsten rondom AI herhaaldelijk afgedaan en de huidige systemen vergeleken met het intelligentieniveau van een kat in plaats van een mens.

Anderen, waaronder Anthropic's CEO Dario Amodei, hebben een veel voorzichtiger standpunt ingenomen.

Amodei heeft gewaarschuwd dat geavanceerde AI ongelijkheid aanzienlijk kan vergroten, een groot aantal instapniveau-kantoorbaanen kan elimineren en mogelijk schadelijk gedrag op onvoorspelbare manieren kan ontwikkelen.

Jack Clark heeft evenzo betoogd dat recursieve zelfverbetering binnen jaren in plaats van decennia kan arriveren.

"Die klasse technologie heeft nog nooit eerder bestaan, en toch geloof ik dat dit binnen de komende twee jaar kan gebeuren, en mogelijk eerder," zei Clark tijdens een lezing in Londen vorige maand.

De uitdaging om AI te vertragen

Anthropic erkent dat elke poging om AI-ontwikkeling te pauzeren of te vertragen alleen zal werken als de grote spelers meedoen.

Het bedrijf stelde daarom voor om internationale overeenkomsten en verificatiemechanismen te onderzoeken die ontworpen zijn om naleving te waarborgen.

Het gaf echter ook toe dat het monitoren van AI-ontwikkeling aanzienlijk moeilijker kan zijn dan het afdwingen van traditionele wapenbeheersingsakkoorden.

"Trainingsruns zijn veel gemakkelijker te verbergen dan raketsilo's," merkte de blogpost op.

Het bedrijf waarschuwde dat elke actor die doorgaat met ontwikkeling terwijl concurrenten pauzeren een aanzienlijk voordeel kan behalen, wat coördinatie uitzonderlijk moeilijk maakt.

Voorlopig is Anthropic van plan bijeenkomsten te organiseren met beleidsmakers, onderzoekers en leiders uit de industrie om te onderzoeken hoe recursieve zelfverbetering bestudeerd moet worden en of mechanismen voor gecoördineerde vertragingen ooit praktisch uitvoerbaar zouden kunnen zijn.

Recursieve zelfverbetering: waarom Anthropic wil dat AI-ontwikkeling vertraagt

Wat recursieve zelfverbetering betekent

Waarom onderzoekers risico's zien

OpenAI herhaalt soortgelijke zorgen

Een waarschuwing temidden van een booming AI-business

Critici betwijfelen Anthropic's motieven

Een industrie verdeeld over de toekomst van AI

De uitdaging om AI te vertragen

SpaceX blijft maandag dalen: kopen, verkopen of vasthouden?

Britse overheid steunt AI-startup CuspAI met $450 mln financieringsronde

AI zal meer banen creëren, zegt Richard Peterson van MarketPsych

Moonshot AI schort Kimi K3-abonnementen op door hoge vraag naar rekenkracht

Kimi K3 uitgelegd: Moonshot’s grootste open-AI-inzet tot nu toe