Cloudflare ferme la porte aux robots d’exploration de l’IA et donne le contrôle aux éditeurs

  • Le nouveau modèle de « pay per crawl » permet aux éditeurs de monétiser l’accès aux données.
  • OpenAI a refusé de prendre en charge le blocage par défaut, invoquant des problèmes d’intermédiaires.
  • Ce changement fait suite à un outil de septembre 2023 permettant les blocs en un seul clic.

Cloudflare a déployé une mise à jour radicale de sa plate-forme qui empêchera par défaut les robots d’intelligence artificielle d’accéder au contenu des sites Web utilisant son réseau.

La décision, annoncée mardi, intervient dans un contexte d’inquiétude croissante parmi les éditeurs selon laquelle les modèles d’IA sont formés sur leur contenu sans autorisation ni compensation.

Avec environ 16 % du trafic Internet mondial passant par Cloudflare, ce changement pourrait réduire considérablement les pipelines de données qui alimentent les grands modèles de langage (LLM).

Cette mise à jour signifie que chaque nouveau site Web s’inscrivant auprès de Cloudflare sera désormais invité à choisir d’accepter ou de refuser l’accès au robot d’indexation de l’IA.

À moins que les propriétaires de sites Web n’accordent explicitement l’autorisation, l’accès sera refusé par défaut.

Cette décision s’appuie sur un outil introduit par Cloudflare en septembre 2023, qui permettait aux clients de bloquer les robots d’exploration de l’IA en un seul clic.

Aujourd’hui, l’entreprise est en train d’élever cette capacité vers une valeur par défaut à l’échelle du système.

Paywalls et autorisations pour les bots d’IA

La dernière offre de Cloudflare introduit également un nouveau modèle de monétisation qui permet aux éditeurs Web de facturer les développeurs d’IA pour l’accès aux données.

Cette fonctionnalité de « paiement par crawl » vise à créer un cadre financier pour l’utilisation du contenu, similaire à la façon dont les services de streaming paient des redevances pour les licences de musique et de films.

Alors que les robots d’exploration de l’IA ont historiquement récupéré en masse le contenu Web pour alimenter les modèles d’entreprises comme OpenAI et Google, cette pratique a souvent contourné les sites Web qui hébergent le matériel original.

En donnant aux propriétaires de sites Web le contrôle sur l’opportunité et la manière dont leur contenu est récupéré – et en introduisant des sources de revenus potentielles – cette décision pourrait aider à rééquilibrer l’échange de valeur entre les éditeurs et les entreprises d’IA.

Le changement s’applique à tous les nouveaux domaines et sera progressivement étendu aux clients existants, selon Cloudflare.

Les éditeurs auront la possibilité de gérer l’accès aux robots d’exploration de l’IA à partir de leur panneau de contrôle, en définissant des paramètres ou des exigences de paiement si nécessaire.

Tensions croissantes entre les développeurs d’IA et l’infrastructure web

OpenAI a exprimé des inquiétudes quant à l’approche de Cloudflare.

Selon le laboratoire soutenu par Microsoft, le nouveau système introduit effectivement Cloudflare en tant qu'« intermédiaire », interférant avec les négociations directes entre les fournisseurs de contenu et les consommateurs de données.

OpenAI a également réitéré que ses robots d’exploration respectent les fichiers robots.txt, une norme Internet qui permet aux sites Web de refuser le grattage de données.

Néanmoins, les experts du secteur ont souligné que les robots d’IA sont souvent considérés comme plus invasifs que les bots traditionnels.

Ils sont non seulement sélectifs, mais aussi capables de submerger les serveurs Web, entraînant parfois une dégradation des performances ou des problèmes d’accès pour les utilisateurs humains.

Certains modèles ont été entraînés sur des milliards de documents, soulevant des questions sur le consentement, l’utilisation équitable et la concentration de la puissance de l’IA entre les mains de quelques grandes entreprises.

Matthew Holman, associé juridique chez Cripps au Royaume-Uni, a déclaré à CNBC que la décision de Cloudflare pourrait « entraver la capacité des chatbots d’IA à collecter des données », en particulier pour la recherche et l’entraînement des modèles.

Bien que l’impact immédiat puisse être limité aux sites Web relevant de la compétence de Cloudflare, l’effet à long terme pourrait être un ralentissement de l’avancement des modèles ou une augmentation des coûts de formation des systèmes haute performance.