Reddit processa Anthropic por supostamente usar dados do site sem consentimento

O site de mídia social Reddit entrou com uma ação contra a startup de IA Anthropic por usar os dados do site do primeiro sem um acordo.

As ações do Reddit subiram depois que a notícia do processo foi divulgada.

Por que o Reddit está processando a Anthropic?

No processo, que foi aberto em San Francisco na quarta-feira, a empresa de mídia social disse que a Anthropic está treinando seus modelos de IA sem obter permissão ou assinar uma parceria com a empresa.

O Reddit acusou ainda a Anthropic de usar os dados pessoais dos usuários das redes sociais. A empresa foi prejudicada pelo uso não autorizado de seu conteúdo, acrescentou.

A empresa apontou que a conduta da Anthropic contradiz suas alegações de como ela se vê como um "cavaleiro branco da indústria de IA".

Na reclamação, o Reddit disse que tentou e não conseguiu chegar a um acordo com a Anthropic. Ele acrescentou que os bots da Anthropic ainda tentaram acessar seus servidores depois de bloqueá-los.

O Reddit acrescentou que "outros gigantes no espaço de IA entendem que respeitam as regras do Reddit" e citou isso como o motivo para o site fazer acordos com a OpenAI e o Google para compartilhar seus dados para treinar seus respectivos agentes de IA.

A Anthropic revelou recentemente em maio seu mais recente modelo de IA, Claude 4.

Por que as empresas de IA anseiam pelos dados do Reddit

O imenso valor dos dados do Reddit para treinamento de IA não pode ser exagerado. Com mais de duas décadas de conteúdo gerado pelo usuário, o Reddit acumulou um arquivo incomparável de conversas humanas autênticas em praticamente todos os tópicos imagináveis.

Esse diálogo do "mundo real", muitas vezes cru e sem verniz, é uma mina de ouro para modelos de IA que buscam entender a linguagem diferenciada, gírias, humor e as formas informais de comunicação humana.

Ao contrário de conjuntos de dados selecionados ou artigos de notícias tradicionais, o conteúdo do Reddit oferece uma mistura única de diversas perspectivas, moderação voltada para a comunidade (por meio de votos positivos e negativos) e discussões francas.

Isso permite que os modelos de IA aprendam não apenas informações factuais, mas também sentimentos, contexto e o fluxo dinâmico da interação humana.

Para um LLM que busca recursos naturais de conversação, o grande volume e a qualidade das discussões do Reddit são inestimáveis para melhorar a coerência, a relevância e a capacidade de responder a consultas complexas e abertas.

Além disso, a estrutura do Reddit, organizada em milhares de subreddits dedicados a assuntos específicos, oferece uma fonte de dados bem categorizada e rica em tópicos.

Essa natureza organizada torna mais fácil para os desenvolvedores de IA direcionar domínios específicos do conhecimento e garantir que seus modelos ganhem experiência em áreas de nicho.

Em 2024, o Reddit tomou medidas para impedir que os modelos de IA coletassem os dados de seu site. Ele criou uma política de conteúdo público para seus dados de usuários acessíveis ao público.

Ofertas anteriores: estabelecendo o precedente

Reconhecendo o imenso valor de seus dados, o Reddit buscou ativamente acordos de licenciamento com os principais players de IA.

Esses negócios são cruciais para a diversificação da receita do Reddit após a listagem da empresa em 2024.

O Reddit fechou acordos com a OpenAI e o Google, o que permitirá que essas empresas usem os dados do site.

A empresa de mídia social assinou um contrato de cerca de US$ 60 milhões com o Google em fevereiro de 2024, permitindo acesso ao Reddit para treinar modelos como o Gemini.

Essa parceria permite que o Google aproveite as extensas discussões do Reddit para aprimorar seus recursos de pesquisa e treinar seus grandes modelos de linguagem (LLMs) em informações atualizadas geradas por humanos.

O Reddit assinou um acordo semelhante com a OpenAI em maio de 2024. O acordo também disse que a OpenAI se tornará uma parceira de publicidade do Reddit.

O CEO da OpenAI, Sam Altman, foi membro do conselho do Reddit no passado. Ele ainda detém uma participação na empresa, e essa participação está atualmente avaliada em mais de US$ 1 bilhão.

Na quarta-feira, as ações do Reddit subiram 7%, para US$ 118,81.

Reddit processa Anthropic por supostamente usar dados do site sem consentimento

Por que o Reddit está processando a Anthropic?

Por que as empresas de IA anseiam pelos dados do Reddit

Ofertas anteriores: estabelecendo o precedente

Resultados da Alphabet superam estimativas; crescimento da nuvem supera previsões

Dow está estável; S&P 500 e Nasdaq recuam antes dos resultados do Big Tech; petróleo sobe

Por que as ações da Palantir caem 5% hoje?

Resumo da Tarde: tensões EUA‑Irã aumentam; Anthropic compra chips da AMD

Ações da Dell avançam 9% e devem alta à Super Micro Computer