Cloudflare schließt das Tor für KI-Crawler und gibt Publishern die Kontrolle

Cloudflare schließt das Tor für KI-Crawler und gibt Publishern die Kontrolle
Diya Poddar
01. Juli 2025, 15:26 PM
  • Das neue "Pay-per-Crawl"-Modell ermöglicht es Publishern, den Datenzugriff zu monetarisieren.
  • OpenAI lehnte es ab, den Standardblock zu unterstützen, und begründete dies mit Bedenken von Mittelsmännern.
  • Die Änderung folgt auf ein Tool vom September 2023, das Ein-Klick-Blöcke ermöglicht.

Cloudflare hat ein umfassendes Update für seine Plattform eingeführt, das Crawler mit künstlicher Intelligenz standardmäßig daran hindert, über sein Netzwerk auf Inhalte über Websites zuzugreifen.

Die Entscheidung, die am Dienstag bekannt gegeben wurde, kommt inmitten wachsender Besorgnis unter den Verlagen, dass KI-Modelle ohne Erlaubnis oder Vergütung auf ihre Inhalte trainiert werden.

Da etwa 16 Prozent des weltweiten Internetverkehrs über Cloudflare abgewickelt werden, könnte die Änderung die Datenpipelines, die große Sprachmodelle (LLMs) speisen, erheblich einschränken.

Das Update bedeutet, dass jede neue Website, die sich bei Cloudflare registriert, nun aufgefordert wird, sich für den KI-Crawler-Zugriff zu aktivieren oder zu deaktivieren.

Sofern Website-Besitzer nicht ausdrücklich die Erlaubnis erteilen, wird der Zugriff standardmäßig verweigert.

Der Schritt baut auf einem von Cloudflare im September 2023 eingeführten Tool auf, das es Kunden ermöglichte, KI-Crawler mit einem einzigen Klick zu blockieren.

Jetzt weitet das Unternehmen diese Fähigkeit zu einem systemweiten Zahlungsausfall aus.

Paywalls und Berechtigungen für KI-Bots

Das neueste Angebot von Cloudflare führt auch ein neues Monetarisierungsmodell ein, das es Web-Publishern ermöglicht, KI-Entwicklern den Datenzugriff in Rechnung zu stellen.

Diese "Pay-per-Crawl"-Funktion zielt darauf ab, einen finanziellen Rahmen für die Nutzung von Inhalten zu schaffen, ähnlich wie Streaming-Dienste Lizenzgebühren für Musik- und Filmlizenzen zahlen.

Während KI-Crawler in der Vergangenheit massenhaft Webinhalte gescrapt haben, um Modelle von Unternehmen wie OpenAI und Google zu unterstützen, hat diese Praxis oft die Websites umgangen, auf denen das Originalmaterial gehostet wird.

Indem Website-Besitzern die Kontrolle darüber gegeben wird, ob und wie ihre Inhalte gescrapt werden – und potenzielle Einnahmequellen erschlossen werden – könnte dieser Schritt dazu beitragen, den Werteaustausch zwischen Publishern und KI-Unternehmen neu auszubalancieren.

Die Änderung gilt für alle neuen Domains und wird laut Cloudflare schrittweise auf bestehende Kunden ausgeweitet.

Publisher haben die Möglichkeit, den KI-Crawler-Zugriff über ihr Control Panel zu verwalten und Parameter oder Zahlungsanforderungen nach Bedarf festzulegen.

Zunehmende Spannungen zwischen KI-Entwicklern und Web-Infrastruktur

OpenAI hat Bedenken über den Ansatz von Cloudflare geäußert.

Laut dem von Microsoft unterstützten Labor führt das neue System Cloudflare effektiv als "Mittelsmann" ein und stört die direkten Verhandlungen zwischen Inhaltsanbietern und Datenkonsumenten.

OpenAI bekräftigte auch, dass seine Crawler robots.txt Dateien respektieren – einen Internetstandard, der es Websites ermöglicht, das Daten-Scraping abzulehnen.

Nichtsdestotrotz haben Branchenexperten darauf hingewiesen, dass KI-Crawler oft als invasiver angesehen werden als herkömmliche Bots.

Sie sind nicht nur selektiv, sondern auch in der Lage, Webserver zu überlasten, was manchmal zu Leistungseinbußen oder Zugriffsproblemen für menschliche Benutzer führt.

Einige Modelle wurden mit Milliarden von Dokumenten trainiert, was Fragen zur Einwilligung, zur fairen Nutzung und zur Konzentration der KI-Macht in den Händen einiger weniger großer Unternehmen aufwirft.

Matthew Holman, ein juristischer Partner bei Cripps in Großbritannien, sagte gegenüber CNBC, dass der Schritt von Cloudflare "die Fähigkeit von KI-Chatbots behindern könnte, Daten zu sammeln", insbesondere für die Suche und das Modelltraining.

Während die unmittelbaren Auswirkungen auf Websites im Zuständigkeitsbereich von Cloudflare beschränkt sein können, könnte der langfristige Effekt eine Verlangsamung der Modellweiterentwicklung oder erhöhte Kosten für das Training von Hochleistungssystemen sein.