Reddit verklagt Anthropic wegen angeblicher Verwendung von Website-Daten ohne Zustimmung

Die Social-Media-Site Reddit hat eine Klage gegen das KI-Startup Anthropic eingereicht, weil es die Website-Daten des Unternehmens ohne Vereinbarung verwendet hat.

Die Reddit-Aktien stiegen, nachdem die Nachricht von der Klage bekannt wurde.

Warum verklagt Reddit Anthropic?

In der Klage, die am Mittwoch in San Francisco eingereicht wurde, sagte das Social-Media-Unternehmen, dass Anthropic seine KI-Modelle trainiert hat, ohne eine Erlaubnis einzuholen oder eine Partnerschaft mit dem Unternehmen zu unterzeichnen.

Reddit beschuldigte Anthropic außerdem, die persönlichen Daten der Nutzer sozialer Medien zu verwenden. Das Unternehmen sei durch die unbefugte Nutzung seiner Inhalte geschädigt worden, fügte es hinzu.

Das Unternehmen wies darauf hin, dass das Verhalten von Anthropic seinen Behauptungen widerspricht, dass es sich selbst als "weißen Ritter der KI-Industrie" sieht.

In der Beschwerde sagte Reddit, dass es versucht habe, eine Einigung mit Anthropic zu erzielen, und gescheitert sei. Es fügte hinzu, dass die Bots von Anthropic immer noch versucht haben, auf seine Server zuzugreifen, nachdem sie sie blockiert hatten.

Reddit fügte hinzu, dass "andere Giganten im KI-Bereich die Regeln von Reddit respektieren" und nannte dies als Grund dafür, dass die Website Vereinbarungen mit OpenAI und Google getroffen hat, um ihre Daten zur Schulung ihrer jeweiligen KI-Agenten zu teilen.

Anthropic hat kürzlich im Mai sein neuestes KI-Modell, Claude 4, vorgestellt.

Warum KI-Unternehmen sich nach den Daten von Reddit sehnen

Der immense Wert der Daten von Reddit für das KI-Training kann nicht hoch genug eingeschätzt werden. Mit über zwei Jahrzehnten nutzergenerierter Inhalte hat Reddit ein beispielloses Archiv authentischer menschlicher Gespräche zu praktisch jedem erdenklichen Thema angehäuft.

Dieser "reale" Dialog, der oft roh und ungeschminkt ist, ist eine Goldgrube für KI-Modelle, die versuchen, nuancierte Sprache, Slang, Humor und die informelle Art und Weise, wie Menschen kommunizieren, zu verstehen.

Im Gegensatz zu kuratierten Datensätzen oder traditionellen Nachrichtenartikeln bieten die Inhalte von Reddit eine einzigartige Mischung aus verschiedenen Perspektiven, Community-gesteuerter Moderation (durch Upvotes und Downvotes) und offenen Diskussionen.

Auf diese Weise können KI-Modelle nicht nur sachliche Informationen, sondern auch Stimmung, Kontext und den dynamischen Fluss menschlicher Interaktion lernen.

Für ein LLM, das nach natürlichen, dialogorientierten Fähigkeiten strebt, sind das schiere Volumen und die Qualität der Reddit-Diskussionen von unschätzbarem Wert, um die Kohärenz, Relevanz und die Fähigkeit, auf komplexe, offene Fragen zu antworten, zu verbessern.

Darüber hinaus bietet die Struktur von Reddit, die in Tausende von Subreddits unterteilt ist, die bestimmten Themen gewidmet sind, eine gut kategorisierte und themenreiche Datenquelle.

Diese organisierte Natur macht es für KI-Entwickler einfacher, bestimmte Wissensbereiche anzusprechen und sicherzustellen, dass ihre Modelle in Nischenbereichen Fachwissen erwerben.

Im Jahr 2024 unternahm Reddit Schritte, um zu verhindern, dass KI-Modelle seine Website-Daten auskratzen. Sie hatte eine Richtlinie für öffentliche Inhalte für ihre öffentlich zugänglichen Nutzerdaten erstellt.

Vorherige Deals: Den Präzedenzfall schaffen

Reddit hat den immensen Wert seiner Daten erkannt und aktiv Lizenzvereinbarungen mit großen KI-Akteuren angestrebt.

Diese Deals sind entscheidend für die Umsatzdiversifizierung von Reddit nach der Börsennotierung des Unternehmens im Jahr 2024.

Reddit hat Vereinbarungen mit OpenAI und Google getroffen, die es diesen Unternehmen ermöglichen, die Daten der Website zu verwenden.

Das Social-Media-Unternehmen unterzeichnete im Februar 2024 einen rund 60 Millionen US-Dollar schweren Vertrag mit Google, der ihm den Zugang zu Reddit ermöglicht, um Models wie Gemini zu trainieren.

Diese Partnerschaft ermöglicht es Google, die umfangreichen Diskussionen von Reddit zu nutzen, um seine Suchfunktionen zu verbessern und seine großen Sprachmodelle (LLMs) mit aktuellen, von Menschen generierten Informationen zu trainieren.

Reddit unterzeichnete im Mai 2024 einen ähnlichen Vertrag mit OpenAI. Der Deal besagte auch, dass OpenAI ein Werbepartner für Reddit werden wird.

Der CEO von OpenAI, Sam Altman, war in der Vergangenheit Vorstandsmitglied von Reddit. Er hält immer noch einen Anteil an dem Unternehmen, und dieser Anteil wird derzeit auf über 1 Milliarde US-Dollar geschätzt.

Am Mittwoch stiegen die Reddit-Aktien um 7% auf 118,81 $.

Reddit verklagt Anthropic wegen angeblicher Verwendung von Website-Daten ohne Zustimmung

Warum verklagt Reddit Anthropic?

Warum KI-Unternehmen sich nach den Daten von Reddit sehnen

Vorherige Deals: Den Präzedenzfall schaffen

Alphabet übertrifft Gewinnschätzungen; Cloud-Wachstum übertrifft Prognosen

Dow unverändert, S&P 500 und Nasdaq rutschen vor Big‑Tech‑Ergebnissen, Öl zieht an

Warum fällt die Palantir-Aktie heute um 5 %?

Abend-Report: US-Iran-Spannungen steigen, Anthropic kauft AMD-Chips

Dell-Aktie legt 9 % zu – Dank an Super Micro Computer