DeepSeek dezvăluie o metodă eficientă de antrenament AI în timp ce China încearcă să depășească restricțiile cu cipuri

Startup-ul chinez de inteligență artificială DeepSeek a lansat o nouă cercetare care aruncă lumină asupra modului în care dezvoltatorii chinezi de AI se adaptează la constrângerile hardware, continuând în același timp să avanseze performanța modelelor.

Lucrarea prezintă o metodă mai eficientă de antrenare a sistemelor avansate de inteligență artificială, evidențiind modul în care firmele chineze ocolesc limitele impuse de accesul restricționat la cipuri de top.

Publicarea vine pe fondul concurenței intensificate între companiile chineze de IA și lideri globali precum OpenAI.

Odată cu restricționarea accesului la cele mai avansate semiconductoare, startup-urile chineze se orientează tot mai mult către inovație arhitecturală și la nivel software.

Cele mai recente lucrări ale DeepSeek oferă o perspectivă asupra modului în care aceste constrângeri modelează următoarea generație de dezvoltare AI.

O abordare diferită a eficienței AI

În centrul cercetării se află un cadru numit Manifold-Consttrained Hyper-Connections.

Tehnica este concepută pentru a îmbunătăți modul în care modelele mari de AI se scalează, reducând în același timp atât sarcina computațională, cât și consumul de energie în timpul antrenamentului.

Cercetarea abordează, de asemenea, probleme precum instabilitatea antrenamentului, care devin adesea mai pronunțate pe măsură ce modelele devin mai mari.

Cea mai recentă descoperire ajută modelele de limbaj să partajeze mai multe informații interne într-un mod controlat, menținând în același timp stabilitatea și eficiența chiar și atunci când modelele sunt scalate mai mari.

Cercetarea ca semnal al a ceea ce urmează

Documentele tehnice ale DeepSeek au servit istoric ca indicatori timpurii ai produselor viitoare.

Acum aproximativ un an, compania a atras atenția în întreaga industrie prin modelul său R1, care a fost dezvoltat la un cost semnificativ mai mic decât sistemele comparabile construite de firme din Silicon Valley.

Compania lansase cercetări fundamentale de instruire înainte de lansarea R1.

De atunci, DeepSeek a lansat mai multe platforme mai mici, menținând un ritm constant de experimentare.

Anticiparea crește acum în jurul următorului său sistem emblematic, cunoscut pe scară largă ca R2, și așteptat în jurul Festivalului Primăverii din februarie.

Deși noul articol nu face referire explicită la acest model, momentul și profunzimea sa au alimentat așteptările că acesta va susține lansările viitoare.

Inovație sub constrângeri externe

Controalele exporturilor americane continuă să împiedice companiile chineze să acceseze cele mai avansate semiconductoare folosite pentru antrenarea și operarea inteligenței artificiale de ultimă generație.

Aceste restricții au devenit un factor definitoriu în strategia de AI a Chinei, încurajând firmele să exploreze arhitecturi de modele neconvenționale și designuri orientate spre eficiență.

Cercetarea DeepSeek se încadrează perfect în această tendință.

Concentrându-se pe scalabilitate și optimizarea infrastructurii, compania încearcă să reducă decalajul de performanță față de concurenții globali fără a se potrivi bugetelor hardware.

Articolul a fost publicat săptămâna aceasta pe depozitul deschis de cercetare arXiv și pe platforma open-source Hugging Face.

Aceasta enumeră 19 autori, fondatorul Liang Wenfeng fiind numit ultimul.

Liang a ghidat constant agenda de cercetare a DeepSeek, încurajând echipele să regândească modul în care sunt construite sistemele AI la scară largă.

Testele descrise în lucrare au fost efectuate pe modele cuprinse între 3 miliarde și 27 de miliarde de parametri.

Lucrarea se bazează, de asemenea, pe cercetarea arhitecturii hiper-conexiunilor publicată de ByteDance în 2024.

DeepSeek dezvăluie o metodă eficientă de antrenament AI în timp ce China încearcă să depășească restricțiile cu cipuri

O abordare diferită a eficienței AI

Cercetarea ca semnal al a ceea ce urmează

Inovație sub constrângeri externe

New York suspendă dezvoltarea marilor centre de date printr-un moratoriu de un an

Iată de ce acțiunile Nio urcă în premarket astăzi

Futures Wall Street mixte azi: 5 lucruri înainte de deschidere

Top 2 motive pentru care prețul acțiunilor Watches of Switzerland urcă

Prețul Injective urcă 5%: poate summitul de la Washington duce INJ la 6$?