Auto-amélioration récursive : pourquoi Anthropic veut ralentir le développement de l'IA

propulsé par

Anthropic (privée) / prime pour la sécurité de l'IA

Acheter : exposition à Anthropic via son probable chemin IPO/secondaire (par ex., allocation d'IPO ou proxy liquide comme les bénéficiaires de la sécurité IA/du calcul). Argumentaire : Anthropic pousse une politique de « ralentissement/suspension » tout en continuant à croître rapidement — cela crée une barrière concurrentielle durable si les régulateurs et les acheteurs récompensent les entreprises disposant de cadres de sécurité crédibles et d'écosystèmes d'évaluation. Le marché continuera de payer pour la « permission d'opérer » à mesure que la supervision s'élargira.

Risque clé : Un retour de bâton politique présentant l'initiative de sécurité d'Anthropic comme intéressée, conduisant à des vents contraires réglementaires plus faibles et à une commoditisation plus rapide des modèles de pointe.

OpenAI (proxy public) / leadership sur les modèles de pointe

Vendre : proxies publics liés à OpenAI qui reposent sur le récit de la « course aux capacités » (par ex., sociétés dont la valorisation dépend surtout de l'accélération immédiate des modèles de pointe plutôt que de la conformité). Argumentaire : si l'industrie s'oriente vers la surveillance, l'évaluation et d'éventuelles pauses, la valeur marginale de la vitesse brute diminue et les gagnants seront ceux disposant d'outils de gouvernance et de mécanismes de vérification. Cela comprime les multiples des histoires purement axées sur la « course aux capacités ».

Risque clé : Une percée qui ferait paraître les inquiétudes liées à l'RSI exagérées, restaurant l'appétit des investisseurs pour la montée en puissance la plus rapide des modèles et remontant les valorisations fondées sur la « course ».

Anthropic affirme que le développement de l'IA pourrait devoir ralentir à mesure que les systèmes se rapprochent de l'auto‑amélioration récursive.
L'entreprise propose des mécanismes mondiaux pour vérifier tout futur ralentissement ou suspension du développement de l'IA.
Les détracteurs perçoivent les avertissements sur la sécurité comme un positionnement stratégique, tandis que les partisans estiment que les risques sont réels.

Alors que la course pour concevoir des systèmes d'intelligence artificielle toujours plus puissants s'accélère, l'un des acteurs majeurs du secteur exhorte le monde à envisager une possibilité qui, jusqu'à récemment, relevait en grande partie de la science-fiction : des machines qui s'améliorent sans intervention humaine.

Anthropic, la société d'IA derrière Claude, a déclaré jeudi que la capacité à ralentir le rythme du développement des IA de pointe pourrait s'avérer précieuse à mesure que la technologie se rapproche de capacités susceptibles de remodeler fondamentalement la société.

L'avertissement figurait dans un billet de blog signé Marina Favaro, responsable de l'institut de recherche interne d'Anthropic, et par le cofondateur de l'entreprise, Jack Clark.

Le billet révélait des recherches internes montrant que les modèles les plus avancés de l'entreprise progressent rapidement et pourraient finir par tendre vers ce que les chercheurs qualifient d'« auto-amélioration récursive » — un scénario dans lequel des systèmes d'IA seraient capables d'améliorer leurs propres capacités.

La société a souligné qu'un tel seuil n'a pas encore été atteint et pourrait ne jamais l'être.

Cependant, elle a estimé que la possibilité devenait suffisamment sérieuse pour nécessiter des préparatifs.

"AI that can build itself would be a major development in the history of technology—one that could bring enormous good for the world in science, healthcare, and beyond," the post said.

Cependant, il a mis en garde que l'auto-amélioration récursive complète pourrait également accroître les risques de perte de contrôle des humains sur les systèmes d'IA.

"If systems are capable of fully building their own successors, the ways we secure them, monitor them, and shape their behavior all grow much more important," the post said.

"We believe it would be good for the world to have the option to slow or temporarily pause frontier AI development to enable societal structures and alignment research to keep up with the advance of the technology," it added.

Ce que signifie l'auto-amélioration récursive

L'auto-amélioration récursive, souvent abrégée en RSI, désigne un processus par lequel un système d'IA utilise ses capacités existantes pour s'améliorer lui-même.

Contrairement aux logiciels conventionnels, qui ne changent que lorsque des programmeurs humains modifient leur code, les systèmes d'IA avancés peuvent déjà écrire des logiciels, analyser des résultats, tester des hypothèses et générer des solutions à des problèmes complexes.

Les chercheurs envisagent un futur système capable d'identifier un problème, d'écrire du code pour y répondre, d'évaluer le résultat, d'apprendre des résultats, puis de répéter le processus de manière continue avec peu ou pas de supervision humaine.

Chaque amélioration pourrait potentiellement faciliter la suivante, créant une boucle de rétroaction qui accélère le progrès.

Si les experts ne s'accordent pas sur la probabilité ou la proximité temporelle de telles capacités, le concept est devenu un sujet central dans les discussions sur la sécurité des IA avancées.

Anthropic a averti que l'auto-amélioration récursive "pourrait arriver plus tôt que la plupart des institutions ne s'y préparent."

Pourquoi les chercheurs y voient des risques

La possibilité de systèmes auto-améliorants a suscité des inquiétudes chez certains universitaires et décideurs politiques, car elle introduit de nouveaux défis en matière de sécurité et de gouvernance.

Selon Azizi Othman de Asia e University, les systèmes capables de modifier leur propre code pourraient devenir des cibles attrayantes pour des acteurs malveillants.

"A system that modifies its own code might be made to accept backdoors or hidden instructions through careful attack sequences," Othman said.

Il a averti que de tels systèmes pourraient aussi potentiellement se livrer à des modifications adversariales d'autres logiciels ou infrastructures, créant des risques de sécurité que la recherche actuelle sur la sécurité des IA n'est pas entièrement équipée pour traiter.

"These considerations argue for treating RSI security as a central research priority, not a secondary concern," he said.

La littérature actuelle sur la sécurisation des systèmes capables d'auto-modification récursive reste limitée, selon les chercheurs.

OpenAI partage des inquiétudes similaires

Anthropic n'est pas seul à souligner l'auto-amélioration récursive comme un défi potentiel.

OpenAI, principal rival d'Anthropic, a également soulevé la question cette semaine dans le cadre de son programme de politique publique.

Le créateur de ChatGPT a appelé à un cadre fédéral qui renforcerait la supervision des systèmes d'IA avancés et soutiendrait le suivi des progrès vers l'auto-amélioration récursive.

"We also support Congressional action to establish a comprehensive federal framework," OpenAI said, arguing that the US government should expand evaluation efforts for the most capable frontier models and develop an independent ecosystem for assessing safety risks.

"This framework should require CAISI to conduct evaluations of the most capable frontier models, direct CAISI to create an independent assessment ecosystem, and prioritize monitoring progress towards recursive self improvement (RSI)," it said.

Le fait que deux des entreprises d'IA les plus influentes au monde discutent désormais publiquement de l'auto-amélioration récursive suggère que la question passe du débat théorique aux discussions politiques grand public.

Un avertissement au milieu d'un boom commercial de l'IA

L'appel à la prudence d'Anthropic intervient à un moment où l'entreprise elle-même profite énormément de l'essor de l'IA.

La société a récemment finalisé une levée de fonds la valorisant à près de $1 trillion et a déposé confidentiellement des documents en vue d'une introduction en bourse.

Sa croissance du chiffre d'affaires a été tout aussi spectaculaire.

Le taux de revenus annualisés d'Anthropic devrait atteindre environ $50 billion d'ici la fin de ce mois, contre $9 billion à la fin de 2025.

Cette croissance rapide a contribué à positionner l'entreprise comme l'un des principaux challengers d'OpenAI dans la bataille pour la suprématie en IA.

Le calendrier de sa dernière initiative en matière de sécurité a donc renouvelé les critiques de certains observateurs qui estiment que les appels à un contrôle plus strict peuvent profiter aux leaders établis de l'IA en élevant les barrières à l'entrée pour la concurrence.

Les critiques s'interrogent sur les motifs d'Anthropic

Anthropic fait depuis longtemps face à des accusations selon lesquelles son plaidoyer pour la sécurité pourrait servir des intérêts commerciaux.

Parmi ses détracteurs figure le capital-risqueur David Sacks, conseiller informel du président Donald Trump, qui accuse l'entreprise de poursuivre un "regulatory capture agenda."

Lors d'un récent podcast, Sacks a averti que l'"agenda de capture réglementaire" de Washington pourrait aboutir à une interdiction des modèles d'IA open source — des systèmes qui offrent aux organisations une manière beaucoup moins coûteuse de construire et d'utiliser l'IA en interne.

D'autres ont suggéré que les avertissements publics sur des systèmes d'IA puissants peuvent fonctionner comme une forme de marketing en mettant en avant la sophistication de la technologie d'Anthropic.

La diffusion limitée par l'entreprise de son modèle Mythos, axé sur la cybersécurité, est fréquemment citée par les sceptiques qui estiment que le discours sur la sécurité peut aussi mettre en valeur les capacités produits.

Anthropic rejette ces critiques et affirme que son attention portée à la sécurité précède le boom actuel de l'IA.

Une industrie divisée sur l'avenir de l'IA

Le débat reflète une division plus large au sein de l'industrie de l'IA sur la proximité des systèmes actuels par rapport à l'atteinte d'une intelligence de niveau humain ou de capacités d'auto-amélioration.

Certaines personnalités du domaine, dont le pionnier de l'IA et ancien responsable scientifique de l'IA chez Meta Yann LeCun, ont soutenu que les grands modèles de langage actuels sont fondamentalement limités et peu susceptibles d'atteindre une intelligence de type humain.

LeCun a à plusieurs reprises minimisé les peurs existentielles entourant l'IA et comparé les systèmes actuels au niveau d'intelligence d'un chat plutôt que d'un humain.

D'autres, dont le directeur général d'Anthropic Dario Amodei, ont adopté une position beaucoup plus prudente.

Amodei a averti que l'IA avancée pourrait accroître significativement les inégalités, supprimer de nombreux emplois de bureau de niveau d'entrée et potentiellement développer des comportements nuisibles de manière imprévisible.

Jack Clark a de même soutenu que l'auto-amélioration récursive pourrait survenir d'ici quelques années plutôt que des décennies.

"That class of technology has never existed before, and yet I believe this could happen within the next two years, and possibly sooner," Clark said during a lecture in London last month.

Le défi de ralentir l'IA

Anthropic reconnaît que toute tentative de suspendre ou de ralentir le développement de l'IA ne fonctionnerait que si les principaux acteurs y participaient.

L'entreprise a donc proposé d'explorer des accords internationaux et des mécanismes de vérification conçus pour assurer la conformité.

Cependant, elle a aussi admis que le suivi du développement de l'IA pourrait être considérablement plus difficile que l'application des accords traditionnels de contrôle des armements.

"Training runs are far easier to conceal than missile silos," the blog post noted.

L'entreprise a averti que tout acteur poursuivant le développement pendant que ses concurrents faisaient pause pourrait obtenir un avantage significatif, rendant la coordination exceptionnellement difficile.

Pour l'heure, Anthropic prévoit d'organiser des discussions avec des responsables politiques, des chercheurs et des dirigeants de l'industrie afin d'examiner comment l'auto-amélioration récursive devrait être étudiée et si des mécanismes de ralentissement coordonné pourraient un jour être pratiques.

Auto-amélioration récursive : pourquoi Anthropic veut ralentir le développement de l'IA

Ce que signifie l'auto-amélioration récursive

Pourquoi les chercheurs y voient des risques

OpenAI partage des inquiétudes similaires

Un avertissement au milieu d'un boom commercial de l'IA

Les critiques s'interrogent sur les motifs d'Anthropic

Une industrie divisée sur l'avenir de l'IA

Le défi de ralentir l'IA

Pourquoi l'action SpaceX recule encore de 2 % aujourd'hui

Pourquoi l'action Nvidia recule d'environ 2.5% jeudi

Le conseil de surveillance de Meta alerte sur des risques de biais politiques dans les modèles d'IA

Le cours de SpaceX tombe sous le prix d'introduction : faut-il vendre ?

Pourquoi l'action SpaceX recule de plus de 4 % lundi