DeepSeek présente une méthode efficace d’entraînement en IA alors que la Chine tente de contourner les limites des puces

La startup chinoise d’intelligence artificielle DeepSeek a publié de nouvelles recherches qui éclairent la manière dont les développeurs d’IA chinois s’adaptent aux contraintes matérielles tout en continuant à faire progresser les performances des modèles.

L’article présente une méthode plus efficace pour entraîner des systèmes d’IA avancés, en soulignant comment les entreprises chinoises contournent les limites imposées par l’accès restreint aux puces de haut niveau.

Cette publication intervient alors que la concurrence s’intensifie entre les entreprises chinoises d’IA et des leaders mondiaux tels qu’OpenAI.

Avec l’accès aux semi-conducteurs les plus avancés restreint, les startups chinoises se tournent de plus en plus vers l’innovation architecturale et logicielle.

Les derniers travaux de DeepSeek offrent une fenêtre sur la manière dont ces contraintes façonnent la prochaine génération de développement de l’IA.

Une approche différente de l’efficacité de l’IA

Au centre de la recherche se trouve un cadre appelé Hyper-Connexions Contraintes de Variété.

Cette technique est conçue pour améliorer l’échelle des modèles d’IA de grande taille tout en réduisant à la fois la charge de calcul et la consommation d’énergie pendant l’entraînement.

La recherche aborde également des problèmes tels que l’instabilité de l’entraînement, qui devient souvent plus marquée à mesure que les modèles grandissent.

La dernière avancée permet aux modèles de langage de partager davantage d’informations internes de manière contrôlée tout en maintenant la stabilité et l’efficacité même lorsque les modèles sont plus grands.

La recherche comme signal de ce qui va suivre

Les articles techniques de DeepSeek ont historiquement servi de premiers indicateurs des produits à venir.

Il y a environ un an, l’entreprise a attiré l’attention dans tout le secteur grâce à son modèle de raisonnement R1, développé à un coût nettement inférieur à celui des systèmes comparables construits par des entreprises de la Silicon Valley.

L’entreprise avait publié des recherches de formation fondamentales avant le lancement de R1.

Depuis, DeepSeek a lancé plusieurs petites plateformes, maintenant un rythme constant d’expérimentation.

L’attente grandit désormais autour de son prochain système phare, largement appelé R2, et attendu autour du Festival du Printemps en février.

Bien que le nouvel article ne fasse pas explicitement référence à ce modèle, son calendrier et sa profondeur ont alimenté les attentes selon lesquelles il soutiendra les futures publications.

Innovation sous contraintes extérieures

Les contrôles à l’exportation américains continuent d’empêcher les entreprises chinoises d’accéder aux semi-conducteurs les plus avancés utilisés pour entraîner et exploiter une IA de pointe.

Ces restrictions sont devenues un facteur déterminant dans la stratégie chinoise en matière d’IA, encourageant les entreprises à explorer des architectures de modèles non conventionnelles et des conceptions axées sur l’efficacité.

Les recherches de DeepSeek s’inscrivent parfaitement dans cette tendance.

En se concentrant sur la scalabilité et l’optimisation de l’infrastructure, l’entreprise tente de réduire l’écart de performance avec ses concurrents mondiaux sans égaler leurs budgets matériels.

L’article a été publié cette semaine sur le dépôt de recherche ouvert arXiv et la plateforme open source Hugging Face.

Il répertorie 19 auteurs, dont le fondateur Liang Wenfeng est nommé en dernier.

Liang a constamment guidé l’agenda de recherche de DeepSeek, encourageant les équipes à repenser la manière dont les systèmes d’IA à grande échelle sont construits.

Les tests décrits dans l’article ont été réalisés sur des modèles allant de 3 milliards à 27 milliards de paramètres.

Le travail s’appuie également sur des recherches en architecture hyper-connexionnelle publiées par ByteDance en 2024.

DeepSeek présente une méthode efficace d’entraînement en IA alors que la Chine tente de contourner les limites des puces

Une approche différente de l’efficacité de l’IA

La recherche comme signal de ce qui va suivre

Innovation sous contraintes extérieures

New York suspend le développement de grands centres de données pour un an

Pourquoi l'action SpaceX recule de plus de 4 % lundi

Pourquoi Apple poursuit OpenAI : l'essentiel du procès pour secrets d'affaires

L'action Netflix s'effondre avant les résultats : bonne affaire ou piège de valeur ?

Pourquoi l'action SpaceX recule de plus de 2 % vendredi