Reddit poursuit Anthropic pour avoir prétendument utilisé les données du site sans consentement

  • Reddit poursuit Anthropic pour avoir utilisé illégalement les données de ses utilisateurs pour former l’IA.
  • Reddit a déjà signé des accords avec OpenAI et Google pour partager ses données utilisateur.
  • L’action Reddit a bondi de 7 % après l’annonce de Laswuit.

Le site de médias sociaux Reddit a intenté une action en justice contre la start-up d’IA Anthropic pour avoir utilisé les données du site de l’ancien sans accord.

Les actions de Reddit ont bondi après la publication de la nouvelle du procès.

Pourquoi Reddit poursuit-il Anthropic en justice ?

Dans la poursuite, qui a été déposée mercredi à San Francisco, la société de médias sociaux a déclaré qu’Anthropic avait entraîné ses modèles d’IA sans obtenir d’autorisation ni signer de partenariat avec la société.

Reddit a en outre accusé Anthropic d’utiliser les données personnelles des utilisateurs des médias sociaux. La société a été lésée par l’utilisation non autorisée de son contenu, a-t-il ajouté.

La société a souligné que la conduite d’Anthropic contredit ses affirmations selon lesquelles elle se considère comme un « chevalier blanc de l’industrie de l’IA ».

Dans la plainte, Reddit a déclaré qu’il avait essayé et échoué à conclure un accord avec Anthropic. Il a ajouté que les bots d’Anthropic ont toujours essayé d’accéder à ses serveurs après les avoir bloqués.

Reddit a ajouté que « d’autres géants de l’espace de l’IA comprennent le respect des règles de Reddit », et l’a cité comme la raison pour laquelle le site a conclu des accords avec OpenAI et Google pour partager ses données afin de former leurs agents d’IA respectifs.

Anthropic a récemment dévoilé en mai dernier son dernier modèle d’IA, Claude 4.

Pourquoi les entreprises d’IA s’enorgueillissent des données de Reddit

L’immense valeur des données de Reddit pour la formation de l’IA ne peut être surestimée. Avec plus de deux décennies de contenu généré par les utilisateurs, Reddit a amassé une archive inégalée de conversations humaines authentiques sur pratiquement tous les sujets imaginables.

Ce dialogue du « monde réel », souvent brut et sans fard, est une mine d’or pour les modèles d’IA qui cherchent à comprendre le langage nuancé, l’argot, l’humour et les façons informelles dont les humains communiquent.

Contrairement aux ensembles de données organisés ou aux articles de presse traditionnels, le contenu de Reddit offre un mélange unique de perspectives diverses, de modération axée sur la communauté (par le biais de votes positifs et négatifs) et de discussions franches.

Cela permet aux modèles d’IA d’apprendre non seulement des informations factuelles, mais aussi des sentiments, du contexte et du flux dynamique de l’interaction humaine.

Pour un LLM qui s’efforce d’obtenir des capacités naturelles et conversationnelles, le volume et la qualité des discussions de Reddit sont inestimables pour améliorer la cohérence, la pertinence et la capacité à répondre à des requêtes complexes et ouvertes.

De plus, la structure de Reddit, organisée en milliers de subreddits dédiés à des sujets spécifiques, offre une source de données bien catégorisée et riche en sujets.

Cette nature organisée permet aux développeurs d’IA de cibler plus facilement des domaines de connaissances spécifiques et de s’assurer que leurs modèles acquièrent une expertise dans des domaines de niche.

En 2024, Reddit a pris des mesures pour empêcher les modèles d’IA de récupérer les données de son site Web. Il avait créé une politique de contenu public pour ses données utilisateur accessibles au public.

Accords précédents : créer un précédent

Reconnaissant l’immense valeur de ses données, Reddit a activement recherché des accords de licence avec les principaux acteurs de l’IA.

Ces accords sont cruciaux pour la diversification des revenus de Reddit après l’introduction en bourse de la société en 2024.

Reddit a conclu des accords avec OpenAI et Google, ce qui permettra à ces entreprises d’utiliser les données du site.

La société de médias sociaux a signé un accord d’environ 60 millions de dollars avec Google en février 2024, lui permettant d’accéder à Reddit pour former les modèles comme Gemini.

Ce partenariat permet à Google de tirer parti des discussions approfondies de Reddit pour améliorer ses capacités de recherche et entraîner ses grands modèles de langage (LLM) sur des informations à jour et générées par l’homme.

Reddit a signé un accord similaire avec OpenAI en mai 2024. L’accord stipule également qu’OpenAI deviendra un partenaire publicitaire pour Reddit.

Le PDG d’OpenAI, Sam Altman, était membre du conseil d’administration de Reddit dans le passé. Il détient toujours une participation dans l’entreprise, et cette participation est actuellement évaluée à plus d’un milliard de dollars.

Mercredi, les actions de Reddit ont bondi de 7 % à 118,81 $.