Rekurzivní samovylepšování: proč Anthropic chce zpomalit vývoj AI

poháněno technologií

Anthropic (soukromá) / prémiová sazba za bezpečnost AI

Koupit: expozice vůči Anthropic přes pravděpodobnou IPO/sekundární cestu (např. alokace při IPO nebo likvidní proxy jako příjemci výhod z AI‑bezpečnosti/počtového výkonu). Odůvodnění: Anthropic prosazuje politiku „zpomalit/pozastavit“, přitom však rychle škáluje — to vytváří trvalou příkopovou výhodu, pokud regulátoři a kupující odmění firmy s důvěryhodnými bezpečnostními rámci a hodnotícími ekosystémy. Trh bude i nadále platit za „povolení k provozu“, jak se dohled rozšiřuje.

Klíčové riziko: Politická reakce, která vykreslí bezpečnostní iniciativu Anthropic jako vlastně prospěchářskou, což povede ke slabším regulačním příznivým podmínkám a rychlejší komoditizaci nejmodernějších modelů.

OpenAI (veřejný proxy) / vedení na hranici schopností

Prodat: veřejné proxy spojené s OpenAI, které se spoléhají na narativ „závodu o schopnosti“ (např. společnosti, jejichž ocenění je silně navázáno na okamžité urychlování modelů na hranici místo na soulad s předpisy). Odůvodnění: Pokud se odvětví posune směrem k monitorování, hodnocení a případným pozastavením, marginální hodnota surové rychlosti klesá a vítězi se stanou ti s nástroji řízení a ověřování. To stlačí násobky pro čisté „sprinty za schopnostmi“.

Klíčové riziko: Průlom, který ukáže, že obavy z RSI byly přehnané, obnoví apetít investorů pro nejrychlejší škálování modelů a zvýší ocenění „závodních“ příběhů.

Anthropic tvrdí, že vývoj AI může vyžadovat zpomalení, jak se systémy blíží rekurzivnímu samovylepšování.
Společnost navrhuje globální mechanismy pro ověřování případného budoucího zpomalení nebo pozastavení vývoje AI.
Kritici vidí bezpečnostní varování jako strategické zajištění, zatímco zastánci tvrdí, že rizika jsou reálná.

Jak závod o vytváření stále výkonnějších systémů umělé inteligence zrychluje, jeden z vedoucích hráčů v odvětví vyzývá svět, aby zvážil možnost, která donedávna patřila spíše do sci‑fi: stroje, které se vylepšují bez zásahu člověka.

Anthropic, společnost vyvíjející Claudea, uvedla ve čtvrtek, že schopnost zpomalit tempo vývoje špičkové AI může být cenná, jakmile technologie dosáhne schopností, které by mohly zásadně přetvořit společnost.

Varování zaznělo v blogovém příspěvku, který napsali Marina Favaro, vedoucí interního výzkumného institutu Anthropic, a spoluzakladatel společnosti Jack Clark.

Příspěvek zveřejnil interní výzkum ukazující, že nejpokročilejší modely firmy rychle postupují a nakonec by se mohly přiblížit tomu, čemu vědci říkají „rekurzivní samovylepšování“ — scénář, v němž se systémy AI stanou schopnými zlepšovat vlastní schopnosti.

Společnost zdůraznila, že takový práh dosud nebyl dosažen a možná nikdy nebude.

Argumentovala však, že tato možnost se stává natolik závažnou, že vyžaduje přípravu.

„AI, která by se dokázala sama vytvořit, by byla zásadním mezníkem v historii technologií — krokem, který by mohl přinést obrovské přínosy pro svět ve vědě, zdravotnictví a dalších oborech,“ uvádí příspěvek.

Současně však varuje, že plné rekurzivní samovylepšování by mohlo zvýšit riziko, že lidé ztratí kontrolu nad systémy AI.

„Pokud jsou systémy schopné plně postavit své vlastní nástupce, způsoby, jak je zabezpečit, monitorovat a ovlivňovat jejich chování, získávají na významu,“ stojí v příspěvku.

„Domníváme se, že by bylo pro svět užitečné mít možnost zpomalit nebo dočasně pozastavit vývoj špičkové AI, aby společenské struktury a výzkum zaměřený na sladění (alignment) držely krok s postupem technologie,“ dodali autoři.

Co znamená rekurzivní samovylepšování

Rekurzivní samovylepšování, často zkracované jako RSI, označuje proces, při němž systém AI využívá své stávající schopnosti k tomu, aby sám sebe zlepšoval.

Naproti konvenčnímu softwaru, který se mění pouze tehdy, když jeho kód upraví lidští programátoři, pokročilé systémy AI už nyní dokážou psát software, analyzovat výsledky, testovat hypotézy a generovat řešení složitých problémů.

Výzkumníci si představují budoucí systém schopný identifikovat problém, napsat kód na jeho řešení, vyhodnotit výsledek, poučit se z něj a pak proces opakovat kontinuálně s minimálním nebo žádným dohledem člověka.

Každé vylepšení by potenciálně mohlo usnadnit následující zlepšení, čímž vznikne zpětná vazba urychlující pokrok.

Zatímco odborníci se neshodují v tom, jak pravděpodobné nebo jak blízké takové schopnosti mohou být, koncept se stal ústředním tématem diskusí o bezpečnosti pokročilé AI.

Anthropic varoval, že rekurzivní samovylepšování „může přijít dříve, než je většina institucí připravena.“

Proč výzkumníci vidí rizika

Možnost systémů, které se samy zlepšují, vyvolala u některých akademiků a tvůrců politik obavy, protože přináší nové výzvy v oblasti bezpečnosti a řízení.

Podle Azizi Othmana z Asia e University by se systémy schopné upravovat vlastní kód mohly stát atraktivním cílem pro zlovolné aktéry.

„Systém, který upravuje svůj vlastní kód, by mohl být přiměn přijmout zadní vrátka nebo skryté instrukce prostřednictvím pečlivě navržených útoků,“ řekl Othman.

Varoval, že takové systémy by mohly také potenciálně provádět adversariální úpravy jiného softwaru nebo infrastruktury, což vytváří bezpečnostní rizika, na která současný výzkum AI bezpečnosti není plně připraven.

„Tyto úvahy argumentují pro to, aby byla bezpečnost RSI považována za centrální prioritní oblast výzkumu, nikoli za sekundární záležitost,“ dodal.

Současná literatura o zabezpečení systémů schopných rekurzivní samomodifikace zůstává podle výzkumníků omezená.

OpenAI sdílí podobné obavy

Anthropic není v upozorňování na rekurzivní samovylepšování osamocen.

OpenAI, hlavní konkurent Anthropic, také tento týden toto téma zmínil jako součást své veřejné politické agendy.

Tvůrce ChatGPT vyzval k federálnímu rámci, který by posílil dohled nad pokročilými systémy AI a podpořil sledování pokroku směrem k rekurzivnímu samovylepšování.

„Také podporujeme kroky Kongresu k vytvoření komplexního federálního rámce,“ uvedla OpenAI a argumentovala, že vláda USA by měla rozšířit evaluační úsilí pro nejvýkonnější modely na špici a vybudovat nezávislý ekosystém pro posuzování rizik bezpečnosti.

„Tento rámec by měl vyžadovat, aby CAISI prováděla hodnocení nejvýkonnějších modelů na hranici, nařídit CAISI vytvořit nezávislý hodnotící ekosystém a upřednostnit monitorování pokroku směrem k rekurzivnímu samovylepšování (RSI),“ uvádí se v dokumentu.

Skutečnost, že dvě z nejvlivnějších světových firem v oblasti AI veřejně diskutují o rekurzivním samovylepšování, naznačuje, že téma se posouvá z teoretické debaty do hlavního proudu politických diskuzí.

Varování uprostřed boomu byznysu s AI

Výzva Anthropic k opatrnosti přichází v okamžiku, kdy společnost sama významně profitujze z boomu AI.

Společnost nedávno dokončila kolo financování, které ji ocenilo na téměř $1 trillion a důvěrně podala dokumenty pro první veřejnou nabídku akcií (IPO).

Její růst tržeb byl stejně výrazný.

Odhaduje se, že anualizovaná rychlost tržeb Anthropic dosáhne přibližně $50 billion ke konci tohoto měsíce, oproti $9 billion na konci roku 2025.

Tento rychlý růst pomohl zařadit společnost mezi hlavní výzvy OpenAI v boji o nadvládu v AI.

Načasování jejího posledního bezpečnostního tažení proto znovu vyvolalo kritiku některých pozorovatelů, kteří tvrdí, že výzvy k přísnějšímu dohledu mohou prospět zavedeným lídrům tím, že zvýší překážky vstupu konkurence.

Kritici zpochybňují motivy Anthropic

Anthropic dlouhodobě čelí obviněním, že jeho obhajoba bezpečnosti může sloužit komerčním zájmům.

Mezi jeho kritiky je venture kapitalista David Sacks, neformální poradce prezidenta Donalda Trumpa, který obvinil společnost, že sleduje „agendu regulačního zachycení“.

Na nedávném podcastu Sacks varoval, že washingtonská „agenda regulačního zachycení“ by mohla vést k zákazu open‑source modelů AI — systémů, které organizacím nabízejí mnohem levnější způsob, jak interně budovat a používat AI.

Někteří také naznačili, že veřejná varování před výkonnými systémy AI mohou fungovat jako forma marketingu tím, že zdůrazňují sofistikovanost technologie Anthropic.

Jako příklad skeptici často uvádějí omezené uvolnění modelu Mythos, zaměřeného na kyberbezpečnost, a domnívají se, že bezpečnostní sdělení může zároveň předvést schopnosti produktu.

Anthropic tato obvinění odmítá a trvá na tom, že jeho zaměření na bezpečnost předchází současnému boomu v AI.

Průmysl rozdělený ohledně budoucnosti AI

Debata odráží širší rozdělení v odvětví AI o tom, jak blízko jsou současné systémy k dosažení úrovně inteligence srovnatelné s člověkem nebo schopností samovylepšování.

Někteří výzkumníci, včetně průkopníka AI a bývalého šéfa AI ve společnosti Meta, Yanna LeCuna, tvrdí, že dnešní velké jazykové modely jsou zásadně omezené a s největší pravděpodobností nedosáhnou lidské inteligence.

LeCun opakovaně zlehčoval existenční obavy kolem AI a přirovnával úroveň inteligence současných systémů spíše ke kočce než k člověku.

Jiní, včetně generálního ředitele Anthropic Daria Amodeiho, zaujali mnohem opatrnější postoj.

Amodei varoval, že pokročilá AI by mohla výrazně zvýšit nerovnost, zlikvidovat velké množství pracovních míst na vstupní úrovni v bílé límečkové sféře a potenciálně se vyvinout k škodlivému chování nepředvídatelnými způsoby.

Jack Clark podobně tvrdí, že rekurzivní samovylepšování může dorazit v řádu let spíše než desetiletí.

„Tato třída technologií nikdy dříve neexistovala, a přesto věřím, že se to může stát během příštích dvou let, a možná i dříve,“ řekl Clark při přednášce v Londýně minulý měsíc.

Výzva zpomalit AI

Anthropic připouští, že jakýkoli pokus pozastavit nebo zpomalit vývoj AI by fungoval jen tehdy, pokud by se zapojili hlavní hráči.

Společnost proto navrhla prozkoumat mezinárodní dohody a ověřovací mechanismy určené k zajištění dodržování.

Přiznala však také, že monitorování vývoje AI by mohlo být výrazně obtížnější než prosazování tradičních smluv o kontrole zbrojení.

„Trénovací běhy se mnohem snáze skryjí než raketové silosy,“ poznamenal blogový příspěvek.

Společnost varovala, že jakýkoli aktér pokračující ve vývoji, zatímco konkurenti pozastaví, by mohl získat významnou výhodu, což koordinaci činí mimořádně obtížnou.

Prozatím Anthropic plánuje organizovat diskuse s tvůrci politik, výzkumníky a lídry průmyslu, aby zkoumal, jak by se mělo rekurzivní samovylepšování studovat a zda by mechanismy pro koordinované zpomalení kdy mohly být praktické.

Rekurzivní samovylepšování: proč Anthropic chce zpomalit vývoj AI

Co znamená rekurzivní samovylepšování

Proč výzkumníci vidí rizika

OpenAI sdílí podobné obavy

Varování uprostřed boomu byznysu s AI

Kritici zpochybňují motivy Anthropic

Průmysl rozdělený ohledně budoucnosti AI

Výzva zpomalit AI

Proč akcie SpaceX dnes klesly o další 2 %

Proč akcie Nvidia ve čtvrtek klesly přibližně o 2,5 %

Dozorčí rada Meta varuje před politickou zaujatostí v předních modelech AI

Akcie SpaceX klesají pod cenu IPO: je čas prodávat?

Proč akcie SpaceX v pondělí klesají o více než 4 %