Reddit demanda a Anthropic por presuntamente usar los datos del sitio sin consentimiento

La red social Reddit ha presentado una demanda contra la startup de IA Anthropic por utilizar los datos del sitio de la primera sin un acuerdo.

Las acciones de Reddit subieron después de que se conociera la noticia de la demanda.

¿Por qué Reddit está demandando a Anthropic?

En la demanda, que fue presentada en San Francisco el miércoles, la compañía de redes sociales dijo que Anthropic ha estado entrenando a sus modelos de IA sin obtener permiso o firmar una asociación con la compañía.

Reddit acusó además a Anthropic de utilizar los datos personales de los usuarios de las redes sociales. La compañía se ha visto perjudicada por el uso no autorizado de su contenido, agregó.

La compañía señaló que la conducta de Anthropic contradice sus afirmaciones de cómo se ve a sí misma como un "caballero blanco de la industria de la IA".

En la denuncia, Reddit dijo que había intentado sin éxito llegar a un acuerdo con Anthropic. Agregó que los bots de Anthropic aún han intentado acceder a sus servidores después de bloquearlos.

Reddit agregó que "otros gigantes en el espacio de la IA entienden y respetan las reglas de Reddit", y lo citó como la razón por la que el sitio llegó a acuerdos con OpenAI y Google para compartir sus datos para entrenar a sus respectivos agentes de IA.

Anthropic presentó recientemente en mayo su último modelo de IA, Claude 4.

Por qué las empresas de IA anhelan los datos de Reddit

No se puede exagerar el inmenso valor de los datos de Reddit para el entrenamiento de IA. Con más de dos décadas de contenido generado por los usuarios, Reddit ha acumulado un archivo incomparable de conversaciones humanas auténticas sobre prácticamente todos los temas imaginables.

Este diálogo del "mundo real", a menudo crudo y sin adornos, es una mina de oro para los modelos de IA que buscan comprender el lenguaje matizado, la jerga, el humor y las formas informales en que los humanos se comunican.

A diferencia de los conjuntos de datos seleccionados o los artículos de noticias tradicionales, el contenido de Reddit ofrece una combinación única de perspectivas diversas, moderación impulsada por la comunidad (a través de votos positivos y negativos) y debates sinceros.

Esto permite que los modelos de IA aprendan no solo información fáctica, sino también sentimientos, contextos y el flujo dinámico de la interacción humana.

Para un LLM que se esfuerza por tener capacidades conversacionales naturales, el volumen y la calidad de las discusiones de Reddit son invaluables para mejorar la coherencia, la relevancia y la capacidad de responder a consultas complejas y abiertas.

Además, la estructura de Reddit, organizada en miles de subreddits dedicados a temas específicos, ofrece una fuente de datos bien categorizada y rica en temas temáticos.

Esta naturaleza organizada facilita que los desarrolladores de IA se dirijan a dominios específicos de conocimiento y garanticen que sus modelos adquieran experiencia en áreas de nicho.

En 2024, Reddit tomó medidas para evitar que los modelos de IA extrajeran los datos de su sitio web. Había creado una política de contenido público para los datos de sus usuarios de acceso público.

Acuerdos anteriores: sentando el precedente

Reconociendo el inmenso valor de sus datos, Reddit ha buscado activamente acuerdos de licencia con los principales actores de la IA.

Estos acuerdos son cruciales para la diversificación de los ingresos de Reddit tras la cotización de la empresa en 2024.

Reddit llegó a acuerdos con OpenAI y Google, lo que permitirá a estas empresas utilizar los datos del sitio.

La compañía de redes sociales firmó un acuerdo de aproximadamente 60 millones de dólares con Google en febrero de 2024, lo que le permite acceder a Reddit para entrenar a los modelos como Gemini.

Esta asociación permite a Google aprovechar las extensas discusiones de Reddit para mejorar sus capacidades de búsqueda y entrenar sus grandes modelos de lenguaje (LLM) con información actualizada generada por humanos.

Reddit firmó un acuerdo similar con OpenAI en mayo de 2024. El acuerdo también dice que OpenAI se convertirá en un socio publicitario de Reddit.

El CEO de OpenAI, Sam Altman, fue miembro de la junta directiva de Reddit en el pasado. Todavía tiene una participación en la empresa, y esa participación está valorada actualmente en más de 1.000 millones de dólares.

El miércoles, las acciones de Reddit subieron un 7% a 118,81 dólares.

Reddit demanda a Anthropic por presuntamente usar los datos del sitio sin consentimiento

¿Por qué Reddit está demandando a Anthropic?

Por qué las empresas de IA anhelan los datos de Reddit

Acuerdos anteriores: sentando el precedente

Alphabet supera estimaciones; crecimiento de la nube supera previsiones

Dow plano; S&P 500 y Nasdaq bajan antes de resultados de Big Tech; petróleo sube

¿Por qué cae hoy un 5% la acción de Palantir?

Resumen vespertino: aumentan tensiones EE. UU.-Irán; Anthropic comprará chips de AMD

Las acciones de Dell suben un 9% gracias a Super Micro Computer