Reddit fa causa ad Anthropic per presunto utilizzo dei dati del sito senza consenso

Il sito di social media Reddit ha intentato una causa contro la startup di intelligenza artificiale Anthropic per aver utilizzato i dati del sito del primo senza un accordo.

Le azioni di Reddit sono aumentate dopo l'uscita della notizia della causa.

Perché Reddit sta facendo causa ad Anthropic?

Nella causa, che è stata depositata mercoledì a San Francisco, la società di social media ha affermato che Anthropic ha addestrato i suoi modelli di intelligenza artificiale senza ottenere il permesso o firmare una partnership con l'azienda.

Reddit ha inoltre accusato Anthropic di utilizzare i dati personali degli utenti dei social media. La società è stata danneggiata dall'uso non autorizzato dei suoi contenuti, ha aggiunto.

La società ha sottolineato che la condotta di Anthropic contraddice le sue affermazioni su come si vede come un "cavaliere bianco dell'industria dell'intelligenza artificiale".

Nella denuncia, Reddit ha affermato di aver cercato e fallito di raggiungere un accordo con Anthropic. Ha aggiunto che i bot di Anthropic hanno ancora cercato di accedere ai suoi server dopo averli bloccati.

Reddit ha aggiunto che "altri giganti nello spazio dell'intelligenza artificiale comprendono e rispettano le regole di Reddit" e lo ha citato come motivo per cui il sito ha stretto accordi con OpenAI e Google per condividere i suoi dati per addestrare i rispettivi agenti di intelligenza artificiale.

Anthropic ha recentemente presentato a maggio il suo ultimo modello di intelligenza artificiale, Claude 4.

Perché le aziende di intelligenza artificiale bramano i dati di Reddit

L'immenso valore dei dati di Reddit per l'addestramento dell'intelligenza artificiale non può essere sopravvalutato. Con oltre due decenni di contenuti generati dagli utenti, Reddit ha accumulato un archivio senza precedenti di autentiche conversazioni umane praticamente su ogni argomento immaginabile.

Questo dialogo "reale", spesso crudo e senza fronzoli, è una miniera d'oro per i modelli di intelligenza artificiale che cercano di comprendere il linguaggio sfumato, lo slang, l'umorismo e i modi informali in cui gli esseri umani comunicano.

A differenza dei set di dati curati o degli articoli di notizie tradizionali, i contenuti di Reddit offrono una miscela unica di prospettive diverse, moderazione guidata dalla comunità (attraverso voti positivi e negativi) e discussioni sincere.

Ciò consente ai modelli di intelligenza artificiale di apprendere non solo informazioni fattuali, ma anche sentimenti, contesto e il flusso dinamico dell'interazione umana.

Per un LLM che cerca capacità naturali e conversazionali, il volume e la qualità delle discussioni di Reddit sono inestimabili per migliorare la coerenza, la pertinenza e la capacità di rispondere a query complesse e aperte.

Inoltre, la struttura di Reddit, organizzata in migliaia di subreddit dedicati a specifici argomenti, offre una fonte di dati ben categorizzata e ricca di argomenti.

Questa natura organizzata rende più facile per gli sviluppatori di IA indirizzare domini di conoscenza specifici e garantire che i loro modelli acquisiscano competenze in aree di nicchia.

Nel 2024, Reddit ha adottato misure per impedire ai modelli di intelligenza artificiale di raschiare i dati del suo sito web. Aveva creato una politica sui contenuti pubblici per i suoi dati utente accessibili pubblicamente.

Operazioni precedenti: creare un precedente

Riconoscendo l'immenso valore dei suoi dati, Reddit ha perseguito attivamente accordi di licenza con i principali attori dell'intelligenza artificiale.

Questi accordi sono fondamentali per la diversificazione delle entrate di Reddit dopo la quotazione della società nel 2024.

Reddit ha stretto accordi con OpenAI e Google, che consentiranno a queste società di utilizzare i dati del sito.

La società di social media ha firmato un accordo da circa 60 milioni di dollari con Google nel febbraio 2024, consentendole l'accesso a Reddit per l'addestramento di modelli come Gemini.

Questa partnership consente a Google di sfruttare le ampie discussioni di Reddit per migliorare le sue capacità di ricerca e addestrare i suoi modelli linguistici di grandi dimensioni (LLM) su informazioni aggiornate generate dall'uomo.

Reddit ha firmato un accordo simile con OpenAI nel maggio 2024. L'accordo afferma anche che OpenAI diventerà un partner pubblicitario per Reddit.

Il CEO di OpenAI, Sam Altman, è stato membro del consiglio di amministrazione di Reddit in passato. Detiene ancora una partecipazione nella società e tale partecipazione è attualmente valutata a oltre $ 1 miliardo.

Mercoledì, le azioni di Reddit sono aumentate del 7% a 118,81 dollari.

Reddit fa causa ad Anthropic per presunto utilizzo dei dati del sito senza consenso

Perché Reddit sta facendo causa ad Anthropic?

Perché le aziende di intelligenza artificiale bramano i dati di Reddit

Operazioni precedenti: creare un precedente

Alphabet: utili oltre le stime mentre il cloud supera le previsioni

Dow stabile, S&P 500 e Nasdaq in calo prima degli utili Big Tech; petrolio sale

Perché le azioni Palantir scendono del 5% oggi?

Rassegna serale: tensioni USA-Iran in aumento, Anthropic acquisterà chip AMD

Le azioni Dell guadagnano il 9%, grazie a Super Micro Computer