Recursiv självförbättring: Varför Anthropic vill bromsa AI‑utvecklingen

drivs av

Anthropic (privat) / AI‑säkerhetspremie

Buy: Exponering mot Anthropic via dess sannolika IPO/sekundära väg (t.ex. IPO‑allokering eller likvid proxy som gynnas av AI‑säkerhet eller beräkningskapacitet). Rationell motivering: Anthropic driver en "slow/pause"‑politik samtidigt som de fortfarande växer snabbt — detta skapar en hållbar vallgrav om tillsynsmyndigheter och köpare belönar företag med trovärdiga säkerhetsramverk och utvärderings‑ekosystem. Marknaden kommer fortsätta att betala för "permission to operate" i takt med att tillsynen ökar.

Nyckelrisk: Ett politiskt motdrag som ramar in Anthropics säkerhetsinitiativ som egenintresserat, vilket leder till svagare regulatoriska medvindar och snabbare commoditisering av frontier‑modeller.

OpenAI (offentlig proxy) / frontledarskap

Sell: Publika proxys kopplade till OpenAI som bygger på narrativet om en "race to capability" (t.ex. företag vars värdering är mest knuten till omedelbar acceleration av frontier‑modeller snarare än efterlevnad). Rationell motivering: Om branschen skiftar mot övervakning, utvärdering och potentiella pauser sjunker det marginella värdet av rå hastighet och vinnarna blir de med styrningsverktyg och verifieringskapacitet. Det pressar multiplarna för rena "capability sprint"‑case.

Nyckelrisk: Ett genombrott som får RSI‑farhågorna att framstå som överdrivna, återupplivar investerarnas aptit för snabbaste modellskalning och lyfter värderingarna i ”race”‑scenarier.

Anthropic säger att AI‑utvecklingen kan behöva bromsas i takt med att system närmar sig recursiv självförbättring.
Företaget föreslår globala mekanismer för att verifiera eventuella framtida nedtrappningar eller pauser i AI‑utvecklingen.
Kritiker ser säkerhetsvarningar som strategisk positionering, medan förespråkare menar att riskerna är reella.

När kapplöpningen för att bygga allt kraftfullare artificiella intelligenssystem accelererar uppmanar en av branschens ledande aktörer världen att överväga en möjlighet som tills nyligen mest hörde hemma i science fiction: maskiner som förbättrar sig själva utan mänsklig inblandning.

Anthropic, AI‑företaget bakom Claude, skrev på torsdagen att förmågan att bromsa tempot i utvecklingen av gränsöverskridande AI kan bli värdefull i takt med att tekniken närmar sig kapaciteter som kan omforma samhället fundamentalt.

Varningen framställdes i ett blogginlägg författat av Marina Favaro, chef för Anthropics interna forskningsinstitut, och företagets medgrundare Jack Clark.

Inlägget offentliggjorde intern forskning som visar att företagets mest avancerade modeller utvecklas snabbt och till sist skulle kunna röra sig mot det forskare kallar "recursiv självförbättring" — ett scenario där AI‑system blir kapabla att förbättra sina egna förmågor.

Företaget betonade att en sådan tröskel ännu inte har nåtts och kanske aldrig uppnås.

Det hävdade dock att möjligheten blir tillräckligt seriös för att motivera förberedelser.

"AI som kan bygga sig självt skulle vara en stor milstolpe i teknikens historia — en som skulle kunna medföra enorm nytta för världen inom vetenskap, sjukvård och bortom," skrev inlägget.

Det varnade samtidigt för att fullständig recursiv självförbättring också kan öka riskerna för att människor förlorar kontrollen över AI‑system.

"Om system kan bygga sina egna efterträdare fullt ut blir det allt viktigare hur vi säkrar dem, övervakar dem och formar deras beteende," stod det i inlägget.

"Vi anser att det vore bra för världen att ha möjlighet att sakta ner eller tillfälligt pausa utvecklingen på AI‑fronten för att ge samhällsstrukturer och alignmentsforskning tid att hinna ikapp teknikens framsteg," tillade man.

Vad recursiv självförbättring innebär

Recursiv självförbättring, ofta förkortat RSI, avser en process där ett AI‑system använder sina befintliga förmågor för att göra sig själv bättre.

Till skillnad från konventionell mjukvara, som bara ändras när mänskliga programmerare ändrar dess kod, kan avancerade AI‑system redan skriva mjukvara, analysera resultat, testa hypoteser och generera lösningar på komplexa problem.

Forskare föreställer sig ett framtida system som kan identifiera ett problem, skriva kod för att åtgärda det, utvärdera utfallet, lära sig av resultaten och sedan upprepa processen kontinuerligt med liten eller ingen mänsklig övervakning.

Varje förbättring skulle potentiellt kunna göra nästa förbättring enklare, vilket skapar en återkopplingsslinga som accelererar framsteg.

Medan experter är oense om hur sannolikt eller hur nära sådana förmågor är, har konceptet blivit ett centralt ämne i diskussioner om säkerhet för avancerad AI.

Anthropic varnade för att recursiv självförbättring "kan komma tidigare än vad de flesta institutioner är förberedda för."

Varför forskare ser risker

Möjligheten till självförbättrande system har väckt oro bland vissa akademiker och beslutsfattare eftersom den inför nya säkerhets‑ och styrningsutmaningar.

Enligt Azizi Othman vid Asia e University kan system som kan modifiera sin egen kod bli attraktiva mål för illvilliga aktörer.

"Ett system som ändrar sin egen kod kan göras mottagligt för bakdörrar eller dolda instruktioner genom noggrant utformade attacksekvenser," sade Othman.

Han varnade för att sådana system också potentiellt kan ägna sig åt adversarial modifiering av annan mjukvara eller infrastruktur, vilket skapar säkerhetsrisker som dagens AI‑säkerhetsforskning inte är fullt rustad att hantera.

"Dessa överväganden talar för att behandla RSI‑säkerhet som en central forskningsprioritet, inte en sekundär fråga," sade han.

Nuvarande litteratur om att säkra system som kan recursivt ändra sig själva är fortfarande begränsad, säger forskare.

OpenAI ger uttryck för liknande farhågor

Anthropic är inte ensam om att lyfta recursiv självförbättring som en potentiell utmaning.

OpenAI, Anthropics främsta konkurrent, tog också upp frågan den här veckan som en del av sin offentliga policyriktlinje.

Skaparen av ChatGPT uppmanade till ett federalt ramverk som skulle stärka tillsynen av avancerade AI‑system och stödja övervakning av utvecklingen mot recursiv självförbättring.

"Vi stöder också kongressåtgärder för att etablera ett omfattande federalt ramverk," sade OpenAI och menade att den amerikanska regeringen bör utöka utvärderingsinsatserna för de mest kapabla frontier‑modellerna och utveckla ett oberoende ekosystem för bedömning av säkerhetsrisker.

"Detta ramverk bör kräva att CAISI genomför utvärderingar av de mest kapabla frontier‑modellerna, instruera CAISI att skapa ett oberoende bedömnings‑ekosystem, och prioritera övervakning av framsteg mot recursiv självförbättring (RSI)," stod det.

Att två av världens mest inflytelserika AI‑företag nu offentligt diskuterar recursiv självförbättring tyder på att frågan går från teoretisk debatt till mainstream‑policydiskussioner.

En varning mitt i en blomstrande AI‑bransch

Anthropics uppmaning till försiktighet kommer i ett ögonblick då företaget självt tjänar stort på AI‑boomen.

Företaget fullbordade nyligen en kapitalrunda som värderade det till nära $1 trillion och har konfidentiellt lämnat in papper för en börsintroduktion.

Deras intäktstillväxt har varit lika dramatisk.

Anthropics årstakt för intäkter förväntas nå cirka $50 billion vid slutet av denna månad, upp från $9 billion i slutet av 2025.

Den snabba tillväxten har bidragit till att positionera företaget som en av de ledande utmanarna till OpenAI i kampen om AI‑överhöghet.

Tidpunkten för deras senaste säkerhetssatsning har därför väckt ny kritik från vissa observatörer som menar att krav på striktare tillsyn kan gynna etablerade AI‑ledare genom att höja trösklarna för konkurrens.

Kritiker ifrågasätter Anthropics motiv

Anthropic har länge mött anklagelser om att deras säkerhetsarbete skulle kunna tjäna kommersiella intressen.

Bland kritikerna finns riskkapitalisten David Sacks, en informell rådgivare till president Donald Trump, som anklagat företaget för att driva en "regulatory capture agenda."

I en nylig podd varnade Sacks för att Washingtons "regulatory capture agenda" skulle kunna leda till ett förbud mot öppen källkod för AI‑modeller — system som erbjuder organisationer ett mycket billigare sätt att bygga och använda AI internt.

Andra har föreslagit att offentliga varningar om kraftfulla AI‑system kan fungera som en form av marknadsföring genom att framhäva Anthropics teknologiska sofistikering.

Företagets begränsade lansering av sin cybersäkerhetsfokuserade Mythos‑modell har ofta citerats av skeptiker som ett exempel på att säkerhetsbudskap även kan visa upp produktkapaciteter.

Anthropic avvisar dessa kritiker och hävdar att deras fokus på säkerhet föregår den nuvarande AI‑boomen.

En bransch delad om AI:s framtid

Debatten speglar en bredare splittring inom AI‑branschen om hur nära dagens system är att uppnå människolik intelligens eller förmågor för självförbättring.

Vissa forskare, inklusive AI‑pionjären och tidigare Metas chefsvetenskapsman Yann LeCun, har hävdat att dagens stora språkmodeller är fundamentalt begränsade och osannolika att uppnå människolik intelligens.

LeCun har upprepade gånger förkastat existentiella farhågor kring AI och jämfört dagens system med intelligensnivån hos en katt snarare än en människa.

Andra, inklusive Anthropics vd Dario Amodei, har intagit en mycket mer försiktig syn.

Amodei har varnat för att avancerad AI kan öka ojämlikheten avsevärt, eliminera stora antal nybörjarjobb inom vitkrageyrken och potentiellt utveckla skadligt beteende på oförutsägbara sätt.

Jack Clark har på liknande sätt hävdat att recursiv självförbättring skulle kunna anlända inom år snarare än decennier.

"Denna klass av teknik har aldrig existerat förut, och ändå tror jag att detta kan hända inom de nästa två åren, och möjligen tidigare," sade Clark under en föreläsning i London förra månaden.

Utmaningen att bromsa AI

Anthropic erkänner att varje ansträngning att pausa eller sakta ner AI‑utvecklingen bara skulle fungera om stora aktörer deltar.

Företaget föreslog därför att man bör undersöka internationella avtal och verifieringsmekanismer utformade för att säkerställa efterlevnad.

Det medgav dock också att övervakning av AI‑utveckling kan vara avsevärt svårare än att verkställa traditionella nedrustningsavtal.

"Träningskörningar är mycket lättare att dölja än missiliser," noterade blogginlägget.

Företaget varnade för att en aktör som fortsätter utvecklingen medan konkurrenter pausar kan få en betydande fördel, vilket gör koordinering exceptionellt svår.

För närvarande planerar Anthropic att organisera diskussioner med beslutsfattare, forskare och branschledare för att granska hur recursiv självförbättring bör studeras och om mekanismer för koordinerade nedtrappningar någonsin kan vara praktiska.

Recursiv självförbättring: Varför Anthropic vill bromsa AI‑utvecklingen

Vad recursiv självförbättring innebär

Varför forskare ser risker

OpenAI ger uttryck för liknande farhågor

En varning mitt i en blomstrande AI‑bransch

Kritiker ifrågasätter Anthropics motiv

En bransch delad om AI:s framtid

Utmaningen att bromsa AI

SpaceX fortsätter falla på måndagen: köp, sälj eller behåll?

Brittiska staten stöder AI-startupen CuspAI med $450 miljoner

AI kommer skapa fler jobb, säger Dr Richard Peterson, MarketPsych-grundare

Moonshot AI pausar Kimi K3-prenumerationer när efterfrågan pressar beräkningskapaciteten

Kimi K3 förklarad: Inuti Moonshots största öppna AI-satsning hittills