Cloudflare chiude il cancello ai crawler AI, dando il controllo agli editori

Cloudflare chiude il cancello ai crawler AI, dando il controllo agli editori
Diya Poddar
01 lug 2025, 15:26 PM
  • Il nuovo modello "pay per crawl" consente agli editori di monetizzare l'accesso ai dati.
  • OpenAI ha rifiutato di supportare il blocco predefinito, citando preoccupazioni da parte degli intermediari.
  • La modifica fa seguito a uno strumento del settembre 2023 che consente i blocchi con un solo clic.

Cloudflare ha lanciato un aggiornamento radicale della sua piattaforma che impedirà ai crawler di intelligenza artificiale di accedere ai contenuti sui siti Web utilizzando la sua rete.

La decisione, annunciata martedì, arriva in mezzo alla crescente preoccupazione tra gli editori che i modelli di intelligenza artificiale vengano addestrati sui loro contenuti senza autorizzazione o compenso.

Con circa il 16% del traffico Internet mondiale che passa attraverso Cloudflare, il cambiamento potrebbe ridurre significativamente le pipeline di dati che alimentano i modelli linguistici di grandi dimensioni (LLM).

L'aggiornamento significa che a ogni nuovo sito Web che si registra con Cloudflare verrà ora richiesto di attivare o disattivare l'accesso al crawler AI.

A meno che i proprietari del sito web non concedano esplicitamente l'autorizzazione, l'accesso verrà negato per impostazione predefinita.

La mossa si basa su uno strumento introdotto da Cloudflare nel settembre 2023, che consentiva ai clienti di bloccare i crawler AI con un solo clic.

Ora, l'azienda sta trasformando tale capacità in un default a livello di sistema.

Paywall e autorizzazioni per i bot AI

L'ultima offerta di Cloudflare introduce anche un nuovo modello di monetizzazione che consente agli editori web di addebitare agli sviluppatori di intelligenza artificiale l'accesso ai dati.

Questa funzione "pay per crawl" mira a creare un quadro finanziario per l'utilizzo dei contenuti, in modo simile a come i servizi di streaming pagano le royalties per le licenze di musica e film.

Sebbene i crawler dell'intelligenza artificiale abbiano storicamente effettuato lo scraping di contenuti web in massa per alimentare modelli di aziende come OpenAI e Google, questa pratica ha spesso bypassato i siti Web che ospitano il materiale originale.

Dando ai proprietari di siti web il controllo su se e come i loro contenuti vengono raschiati e introducendo potenziali flussi di entrate, la mossa potrebbe aiutare a riequilibrare lo scambio di valore tra editori e aziende di intelligenza artificiale.

La modifica si applica a tutti i nuovi domini e sarà gradualmente estesa ai clienti esistenti, secondo Cloudflare.

Gli editori avranno la possibilità di gestire l'accesso del crawler AI dal proprio pannello di controllo, impostando parametri o requisiti di pagamento in base alle esigenze.

Crescenti tensioni tra gli sviluppatori di intelligenza artificiale e l'infrastruttura web

OpenAI ha espresso preoccupazioni sull'approccio di Cloudflare.

Secondo il laboratorio supportato da Microsoft, il nuovo sistema introduce effettivamente Cloudflare come "intermediario", interferendo con le negoziazioni dirette tra fornitori di contenuti e consumatori di dati.

OpenAI ha anche ribadito che i suoi crawler rispettano i file robots.txt, uno standard Internet che consente ai siti Web di disattivare lo scraping dei dati.

Tuttavia, gli esperti del settore hanno sottolineato che i crawler AI sono spesso visti come più invasivi dei bot tradizionali.

Non sono solo selettivi, ma sono anche in grado di sovraccaricare i server Web, a volte portando a prestazioni degradate o problemi di accesso per gli utenti umani.

Alcuni modelli sono stati addestrati su miliardi di documenti, sollevando interrogativi sul consenso, sul fair use e sulla concentrazione del potere dell'IA nelle mani di poche grandi aziende.

Matthew Holman, partner legale di Cripps nel Regno Unito, ha dichiarato alla CNBC che la mossa di Cloudflare potrebbe "ostacolare la capacità dei chatbot AI di raccogliere dati", in particolare per la ricerca e l'addestramento dei modelli.

Sebbene l'impatto immediato possa essere limitato ai siti Web di competenza di Cloudflare, l'effetto a lungo termine potrebbe essere un rallentamento dell'avanzamento del modello o un aumento dei costi per l'addestramento di sistemi ad alte prestazioni.