Auto-miglioramento ricorsivo: perché Anthropic vuole rallentare lo sviluppo dell'IA

offerto da

Anthropic (privata) / premio per la sicurezza dell'IA

Buy: Esposizione ad Anthropic tramite la probabile via IPO/secondaria (es. allocazione IPO o proxy liquido come beneficiari della sicurezza dell'IA/compute). Rationale: Anthropic sta spingendo per politiche di “slow/pause” pur continuando a scalare rapidamente — questo crea un fossato durevole se regolatori e acquirenti ricompensano le società con framework di sicurezza credibili e ecosistemi di valutazione. Il mercato continuerà a pagare per la “permission to operate” man mano che la supervisione si amplia.

Rischio chiave: Una reazione politica che inquadri la spinta per la sicurezza di Anthropic come interesse personale, portando a venti normativi più deboli e a una più rapida commoditizzazione dei modelli di frontiera.

OpenAI (proxy pubblico) / leadership di frontiera

Sell: Proxy pubblici legati a OpenAI che si basano sulla narrativa della “corsa alla capacità” (es. società il cui valore è più legato all'accelerazione immediata dei modelli di frontiera piuttosto che alla conformità). Rationale: Se il settore si sposta verso monitoraggio, valutazione e possibile pause, il valore marginale della pura velocità diminuisce e i vincitori saranno quelli con strumenti di governance e verifica. Ciò comprime i multipli per le storie basate solo sulla “corsa alle capacità”.

Rischio chiave: Una scoperta che renda le preoccupazioni RSI esagerate, ripristinando l'appetito degli investitori per la scalabilità più rapida dei modelli e facendo risalire le valutazioni legate alla “corsa”.

Anthropic afferma che potrebbe essere necessario rallentare lo sviluppo dell'IA man mano che i sistemi si avvicinano all'auto-miglioramento ricorsivo.
La società propone meccanismi globali per verificare qualsiasi futuro rallentamento o sospensione dell'IA.
I critici vedono gli avvertimenti sulla sicurezza come posizionamento strategico, mentre i sostenitori ritengono che i rischi siano reali.

Con l'accelerazione della corsa a costruire sistemi di intelligenza artificiale sempre più potenti, uno dei principali attori del settore invita il mondo a considerare una possibilità che fino a poco tempo fa apparteneva soprattutto alla fantascienza: macchine in grado di migliorarsi senza intervento umano.

Anthropic, la società di IA dietro Claude, ha dichiarato giovedì che la possibilità di rallentare il ritmo dello sviluppo dell'IA di frontiera potrebbe rivelarsi preziosa man mano che la tecnologia si avvicina a capacità in grado di rimodellare radicalmente la società.

L'avvertimento è arrivato in un post sul blog a firma di Marina Favaro, responsabile dell'istituto di ricerca interno di Anthropic, e del cofondatore dell'azienda Jack Clark.

Il post ha rivelato ricerche interne che mostrano come i modelli più avanzati dell'azienda stiano progredendo rapidamente e possano eventualmente avvicinarsi a ciò che i ricercatori definiscono "auto-miglioramento ricorsivo" — uno scenario in cui i sistemi di IA diventano in grado di potenziare le proprie capacità.

L'azienda ha sottolineato che tale soglia non è ancora stata raggiunta e potrebbe non essere mai raggiunta.

Tuttavia, ha sostenuto che la possibilità sta diventando sufficientemente seria da richiedere preparazione.

"Un'IA in grado di costruire se stessa sarebbe un progresso significativo nella storia della tecnologia — uno che potrebbe portare enormi benefici al mondo nella scienza, nella sanità e oltre," si legge nel post.

Detto questo, il post mette in guardia sul fatto che l'auto-miglioramento ricorsivo completo potrebbe anche aumentare i rischi di perdita di controllo da parte degli esseri umani sui sistemi di IA.

"Se i sistemi sono in grado di costruire pienamente i propri successori, il modo in cui li mettiamo in sicurezza, li monitoriamo e modelliamo il loro comportamento diventa molto più importante," afferma il post.

"Riteniamo che sarebbe positivo per il mondo avere l'opzione di rallentare o sospendere temporaneamente lo sviluppo dell'IA di frontiera per permettere alle strutture sociali e alla ricerca sull'allineamento di tenere il passo con l'avanzamento della tecnologia," aggiunge il post.

Cosa significa auto-miglioramento ricorsivo

L'auto-miglioramento ricorsivo, spesso abbreviato in RSI, indica un processo in cui un sistema di IA utilizza le proprie capacità esistenti per migliorare sé stesso.

A differenza del software convenzionale, che cambia solo quando programmatori umani modificano il codice, i sistemi di IA avanzati possono già scrivere software, analizzare risultati, testare ipotesi e generare soluzioni a problemi complessi.

I ricercatori immaginano un sistema futuro capace di identificare un problema, scrivere codice per risolverlo, valutarne l'esito, apprendere dai risultati e poi ripetere il processo in modo continuo con poca o nessuna supervisione umana.

Ogni miglioramento potrebbe potenzialmente rendere più agevole il miglioramento successivo, creando un circuito di retroazione che accelera il progresso.

Pur con opinioni divergenti su quanto probabili o vicine possano essere tali capacità, il concetto è diventato un tema centrale nelle discussioni sulla sicurezza delle IA avanzate.

Anthropic ha avvertito che l'auto-miglioramento ricorsivo "potrebbe arrivare prima di quanto la maggior parte delle istituzioni sia preparata ad affrontare."

Perché i ricercatori vedono dei rischi

La possibilità di sistemi auto-miglioranti ha sollevato preoccupazioni tra alcuni accademici e responsabili politici perché introduce nuove sfide di sicurezza e di governance.

Secondo Azizi Othman di Asia e University, i sistemi in grado di modificare il proprio codice potrebbero diventare bersagli appetibili per attori malintenzionati.

"Un sistema che modifica il proprio codice potrebbe essere indotto ad accettare backdoor o istruzioni nascoste tramite sequenze di attacco ben studiate," ha detto Othman.

Ha avvertito che tali sistemi potrebbero anche intraprendere modifiche adversariali di altri software o infrastrutture, creando rischi per la sicurezza che l'attuale ricerca sulla sicurezza delle IA non è pienamente attrezzata ad affrontare.

"Queste considerazioni sostengono il trattamento della sicurezza RSI come una priorità centrale della ricerca, non come una preoccupazione secondaria," ha affermato.

La letteratura attuale sulla messa in sicurezza di sistemi capaci di auto-modifica ricorsiva rimane, secondo i ricercatori, limitata.

OpenAI condivide preoccupazioni simili

Anthropic non è sola nell'evidenziare l'auto-miglioramento ricorsivo come potenziale sfida.

OpenAI, principale rivale di Anthropic, ha anch'essa sollevato la questione questa settimana come parte della propria agenda di politica pubblica.

Il creatore di ChatGPT ha chiesto un quadro federale che rafforzi la supervisione dei sistemi di IA avanzati e sostenga il monitoraggio dei progressi verso l'auto-miglioramento ricorsivo.

"Sosteniamo inoltre l'azione del Congresso per istituire un quadro federale comprensivo," ha affermato OpenAI, sostenendo che il governo statunitense dovrebbe ampliare gli sforzi di valutazione per i modelli di frontiera più capaci e sviluppare un ecosistema indipendente per valutare i rischi di sicurezza.

"Questo quadro dovrebbe richiedere a CAISI di condurre valutazioni sui modelli di frontiera più capaci, incaricare CAISI di creare un ecosistema di valutazione indipendente e dare priorità al monitoraggio dei progressi verso l'auto-miglioramento ricorsivo (RSI)," si legge nel comunicato.

Il fatto che due delle aziende di IA più influenti al mondo stiano ora discutendo pubblicamente dell'auto-miglioramento ricorsivo suggerisce che la questione sta passando dal dibattito teorico alle discussioni politiche di ampia portata.

Un avvertimento in un settore in piena espansione

La chiamata alla prudenza di Anthropic arriva in un momento in cui la stessa azienda sta beneficiando enormemente del boom dell'IA.

L'azienda ha recentemente completato un round di finanziamento che la valuta quasi 1.000 miliardi di dollari e ha depositato riservatamente documenti per un'offerta pubblica iniziale.

La sua crescita dei ricavi è stata altrettanto impressionante.

Il tasso di ricavi annualizzato di Anthropic dovrebbe raggiungere circa 50 miliardi di dollari entro la fine di questo mese, rispetto ai 9 miliardi alla fine del 2025.

Questa rapida crescita ha contribuito a posizionare l'azienda come uno dei principali sfidanti di OpenAI nella battaglia per la supremazia nell'IA.

Il tempismo della sua ultima spinta sulla sicurezza ha quindi rinnovato le critiche di alcuni osservatori che sostengono che le richieste di una maggiore supervisione potrebbero avvantaggiare gli attuali leader del settore innalzando le barriere all'ingresso per i concorrenti.

I critici mettono in dubbio le motivazioni di Anthropic

Anthropic ha a lungo affrontato accuse secondo cui la sua difesa della sicurezza potrebbe servire interessi commerciali.

Tra i suoi critici c'è il venture capitalist David Sacks, consigliere informale del presidente Donald Trump, che ha accusato l'azienda di perseguire un "programma di cattura normativa".

In un recente podcast, Sacks ha avvertito che il "programma di cattura normativa" di Washington potrebbe portare a un divieto sui modelli di IA open source — sistemi che offrono alle organizzazioni un modo molto più economico per costruire e utilizzare l'IA internamente.

Altri hanno suggerito che gli avvisi pubblici su sistemi di IA potenti possano funzionare come una forma di marketing, mettendo in evidenza la sofisticazione della tecnologia di Anthropic.

Il rilascio limitato del modello Mythos, focalizzato sulla cybersecurity, è stato spesso citato dagli scettici come esempio di come i messaggi sulla sicurezza possano anche mettere in mostra le capacità del prodotto.

Anthropic respinge tali critiche e sostiene che il suo focus sulla sicurezza precede l'attuale boom dell'IA.

Un settore diviso sul futuro dell'IA

Il dibattito riflette una divisione più ampia all'interno dell'industria dell'IA su quanto i sistemi attuali siano vicini a raggiungere l'intelligenza a livello umano o capacità di auto-miglioramento.

Alcuni ricercatori, incluso il pioniere dell'IA e ex chief AI scientist di Meta Yann LeCun, hanno sostenuto che i modelli di linguaggio di grandi dimensioni odierni sono fondamentalmente limitati e improbabili a raggiungere un'intelligenza simile a quella umana.

LeCun ha ripetutamente respinto le paure esistenziali legate all'IA e ha paragonato i sistemi attuali al livello di intelligenza di un gatto piuttosto che a quello di un essere umano.

Altri, incluso l'amministratore delegato di Anthropic Dario Amodei, hanno invece adottato un punto di vista molto più prudente.

Amodei ha avvertito che un'IA avanzata potrebbe aumentare significativamente le disuguaglianze, eliminare un gran numero di lavori impiegatizi di livello iniziale e potenzialmente sviluppare comportamenti dannosi in modi imprevedibili.

Jack Clark ha sostenuto in modo analogo che l'auto-miglioramento ricorsivo potrebbe arrivare entro anni piuttosto che decenni.

"Quella classe di tecnologia non è mai esistita prima, eppure credo che questo potrebbe accadere entro i prossimi due anni, e possibilmente anche prima," ha detto Clark durante una conferenza a Londra il mese scorso.

La sfida di rallentare l'IA

Anthropic riconosce che qualsiasi sforzo per mettere in pausa o rallentare lo sviluppo dell'IA funzionerebbe solo se i principali attori partecipassero.

L'azienda propone quindi di esplorare accordi internazionali e meccanismi di verifica progettati per garantire il rispetto degli impegni.

Tuttavia, ammette anche che monitorare lo sviluppo dell'IA potrebbe essere notevolmente più difficile che far rispettare i tradizionali accordi di controllo degli armamenti.

"Le sessioni di addestramento sono molto più facili da nascondere rispetto ai silos di missili," osserva il post sul blog.

L'azienda ha avvertito che qualsiasi attore che continuasse lo sviluppo mentre i concorrenti si fermano potrebbe ottenere un vantaggio significativo, rendendo la coordinazione eccezionalmente difficile.

Per ora, Anthropic intende organizzare discussioni con responsabili politici, ricercatori e leader di settore per esaminare come dovrebbe essere studiato l'auto-miglioramento ricorsivo e se meccanismi per rallentamenti coordinati potrebbero mai essere praticabili.

Auto-miglioramento ricorsivo: perché Anthropic vuole rallentare lo sviluppo dell'IA

Cosa significa auto-miglioramento ricorsivo

Perché i ricercatori vedono dei rischi

OpenAI condivide preoccupazioni simili

Un avvertimento in un settore in piena espansione

I critici mettono in dubbio le motivazioni di Anthropic

Un settore diviso sul futuro dell'IA

La sfida di rallentare l'IA

SpaceX prosegue il calo lunedì: comprare, vendere o tenere?

Il governo britannico sostiene la startup AI CuspAI con 450 milioni di dollari

L'IA creerà più posti di lavoro, dice il dott. Richard Peterson, fondatore di MarketPsych

Moonshot AI sospende le iscrizioni a Kimi K3 per pressione sulla capacità di calcolo

Kimi K3 spiegato: la più grande scommessa open AI di Moonshot