DeepSeek rivela un metodo di addestramento AI efficiente mentre la Cina cerca di superare i limiti dei chip

La startup cinese di intelligenza artificiale DeepSeek ha pubblicato una nuova ricerca che fa luce su come gli sviluppatori di IA cinesi si stiano adattando ai vincoli hardware continuando a spingere le prestazioni dei modelli.

L'articolo delinea un metodo più efficiente per addestrare sistemi di IA avanzati, evidenziando come le aziende cinesi stiano aggirando i limiti imposti dall'accesso limitato ai chip di fascia alta.

La pubblicazione arriva mentre la competizione si intensifica tra le aziende cinesi di IA e leader globali come OpenAI.

Con l'accesso ai semiconduttori più avanzati limitato, le startup cinesi si stanno rivolgendo sempre più all'innovazione architettonica e software.

L'ultimo lavoro di DeepSeek offre una finestra su come questi vincoli stiano plasmando la prossima generazione di sviluppo dell'IA.

Un approccio diverso all'efficienza dell'IA

Al centro della ricerca c'è un framework chiamato Manifold-Consttrained Hyper-Connections.

La tecnica è progettata per migliorare la scala dei modelli di IA di grandi dimensioni, riducendo al contempo sia il carico computazionale che il consumo energetico durante l'addestramento.

La ricerca affronta anche questioni come l'instabilità nell'addestramento, che spesso diventa più evidente man mano che i modelli crescono.

L'ultima scoperta aiuta i modelli linguistici a condividere più informazioni interne in modo controllato, mantenendo al contempo stabilità ed efficienza anche quando i modelli sono ingranditi.

La ricerca come segnale di ciò che verrà dopo

Gli articoli tecnici di DeepSeek sono storicamente stati indicatori precoce dei prodotti in arrivo.

Circa un anno fa, l'azienda ha attirato l'attenzione in tutto il settore con il suo modello di ragionamento R1, sviluppato a un costo significativamente inferiore rispetto a sistemi comparabili realizzati da aziende della Silicon Valley.

L'azienda aveva pubblicato ricerche di formazione fondamentali prima del lancio di R1.

Da allora, DeepSeek ha rilasciato diverse piattaforme più piccole, mantenendo un ritmo costante di sperimentazione.

L'attesa sta ora crescendo intorno al suo prossimo sistema di punta, ampiamente chiamato R2, e previsto intorno al Festival di Primavera a febbraio.

Sebbene il nuovo articolo non faccia esplicitamente riferimento a questo modello, il suo tempismo e la sua profondità hanno alimentato le aspettative che sostenga le future uscite.

Innovazione sotto vincoli esterni

I controlli sulle esportazioni statunitensi continuano a impedire alle aziende cinesi di accedere ai semiconduttori più avanzati utilizzati per addestrare e gestire l'IA all'avanguardia.

Queste restrizioni sono diventate un fattore determinante nella strategia cinese sull'IA, incoraggiando le aziende a esplorare architetture di modelli non convenzionali e progetti guidati dall'efficienza.

La ricerca di DeepSeek si inserisce perfettamente in questa tendenza.

Concentrandosi sulla scalabilità e sull'ottimizzazione dell'infrastruttura, l'azienda cerca di ridurre il divario di prestazioni con i concorrenti globali senza adeguarsi ai budget hardware.

L'articolo è stato pubblicato questa settimana sul repository di ricerca aperto arXiv e sulla piattaforma open-source Hugging Face.

Elenca 19 autori, con il fondatore Liang Wenfeng nominato per ultimo.

Liang ha costantemente guidato l'agenda di ricerca di DeepSeek, incoraggiando i team a ripensare il modo in cui vengono costruiti i sistemi di IA su larga scala.

I test descritti nell'articolo sono stati condotti su modelli che variano da 3 a 27 miliardi di parametri.

Il lavoro si basa anche su una ricerca sull'architettura dell'iperconnessione pubblicata da ByteDance nel 2024.

DeepSeek rivela un metodo di addestramento AI efficiente mentre la Cina cerca di superare i limiti dei chip

Un approccio diverso all'efficienza dell'IA

La ricerca come segnale di ciò che verrà dopo

Innovazione sotto vincoli esterni

New York sospende lo sviluppo di grandi data center con moratoria di un anno

Perché le azioni SpaceX scendono oltre il 4% lunedì

Perché Apple ha citato in giudizio OpenAI: tutto sulla causa per segreti industriali sull'AI

Azioni Netflix in caduta prima dei conti: affare o trappola?

Perché il titolo SpaceX è sceso di oltre il 2% venerdì