Cloudflare zamyka furtkę przed robotami indeksującymi AI, daje wydawcom kontrolę

Cloudflare zamyka furtkę przed robotami indeksującymi AI, daje wydawcom kontrolę
Diya Poddar
01 lip 2025, 15:26 PM
  • Nowy model "płatności za indeksowanie" umożliwia wydawcom zarabianie na dostępie do danych.
  • OpenAI odmówiło wsparcia domyślnego bloku, powołując się na obawy pośredników.
  • Zmiana jest następstwem narzędzia z września 2023 r., które umożliwia blokowanie jednym kliknięciem.

Cloudflare wprowadziło szeroko zakrojoną aktualizację swojej platformy, która domyślnie zablokuje robotom indeksującym wykorzystującą sztuczną inteligencję dostęp do treści na stronach internetowych korzystających z jego sieci.

Decyzja, ogłoszona we wtorek, pojawia się w związku z rosnącymi obawami wśród wydawców, że modele sztucznej inteligencji są szkolone na ich treściach bez pozwolenia lub wynagrodzenia.

Biorąc pod uwagę, że około 16 procent światowego ruchu internetowego przechodzi przez Cloudflare, zmiana może znacznie ograniczyć potoki danych, które zasilają duże modele językowe (LLM).

Aktualizacja oznacza, że każda nowa witryna rejestrująca się w Cloudflare będzie teraz proszona o wyrażenie zgody lub rezygnację z dostępu robota indeksującego AI.

Jeśli właściciele witryn wyraźnie nie udzielą pozwolenia, dostęp zostanie domyślnie odrzucony.

Posunięcie to opiera się na narzędziu wprowadzonym przez Cloudflare we wrześniu 2023 r., które umożliwiło klientom blokowanie robotów indeksujących AI za pomocą jednego kliknięcia.

Teraz firma eskaluje tę funkcję do domyślnej wartości dla całego systemu.

Paywalle i uprawnienia dla botów AI

Najnowsza oferta Cloudflare wprowadza również nowy model monetyzacji, który umożliwia wydawcom internetowym pobieranie opłat od programistów AI za dostęp do danych.

Ta funkcja "pay per crawl" ma na celu stworzenie ram finansowych dla korzystania z treści, podobnie jak usługi przesyłania strumieniowego płacą tantiemy za licencje na muzykę i filmy.

Podczas gdy roboty indeksujące AI w przeszłości masowo usuwały treści internetowe, aby zasilić modele firm takich jak OpenAI i Google, praktyka ta często omijała strony internetowe, które hostują oryginalny materiał.

Dając właścicielom witryn kontrolę nad tym, czy i w jaki sposób ich treści są usuwane – i wprowadzając potencjalne strumienie przychodów – posunięcie to może pomóc w zrównoważeniu wymiany wartości między wydawcami a firmami zajmującymi się sztuczną inteligencją.

Zmiana dotyczy wszystkich nowych domen i będzie stopniowo rozszerzana na obecnych klientów, zgodnie z Cloudflare.

Wydawcy będą mieli możliwość zarządzania dostępem robotów AI z poziomu panelu sterowania, ustawiając parametry lub wymagania dotyczące płatności w zależności od potrzeb.

Rosnące napięcia między programistami AI a infrastrukturą internetową

OpenAI wyraziło obawy dotyczące podejścia Cloudflare.

Według laboratorium wspieranego przez Microsoft, nowy system skutecznie wprowadza Cloudflare jako "pośrednika", zakłócając bezpośrednie negocjacje między dostawcami treści a konsumentami danych.

OpenAI powtórzyło również, że jego roboty szanują pliki robots.txt – standard internetowy, który pozwala stronom internetowym zrezygnować ze skrobania danych.

Niemniej jednak eksperci branżowi zwrócili uwagę, że roboty indeksujące AI są często postrzegane jako bardziej inwazyjne niż tradycyjne boty.

Są one nie tylko selektywne, ale także zdolne do przeciążania serwerów internetowych, co czasami prowadzi do obniżenia wydajności lub problemów z dostępem dla użytkowników.

Niektóre modele zostały przeszkolone na miliardach dokumentów, co rodzi pytania o zgodę, dozwolony użytek i koncentrację władzy sztucznej inteligencji w rękach kilku dużych firm.

Matthew Holman, partner prawny w Cripps w Wielkiej Brytanii, powiedział CNBC, że posunięcie Cloudflare może "utrudnić chatbotom AI zbieranie danych", zwłaszcza w celu wyszukiwania i trenowania modeli.

Chociaż natychmiastowy wpływ może być ograniczony do stron internetowych znajdujących się pod nadzorem Cloudflare, długoterminowym efektem może być spowolnienie rozwoju modeli lub zwiększone koszty szkolenia systemów o wysokiej wydajności.