DeepSeek avslöjar effektiv AI-träningsmetod när Kina försöker slå chipbegränsningar

Den kinesiska artificiella intelligens-startupen DeepSeek har släppt ny forskning som belyser hur kinesiska AI-utvecklare anpassar sig till hårdvarubegränsningar samtidigt som de fortsätter att driva modellens prestanda framåt.

Artikeln beskriver en mer effektiv metod för att träna avancerade AI-system och lyfter fram hur kinesiska företag arbetar runt begränsningar som påtvingas av begränsad tillgång till toppchip.

Publiceringen kommer samtidigt som konkurrensen intensifieras mellan kinesiska AI-företag och globala ledare som OpenAI.

Med begränsad tillgång till de mest avancerade halvledarna vänder sig kinesiska startups i allt större utsträckning till arkitektur- och mjukvarunivåinnovation.

DeepSeeks senaste arbete ger en inblick i hur dessa begränsningar formar nästa generations AI-utveckling.

Ett annorlunda angreppssätt på AI-effektivitet

I centrum för forskningen finns ett ramverk kallat Manifold-Constrained Hyper-Connections.

Tekniken är utformad för att förbättra hur stora AI-modeller skalar samtidigt som både beräkningsbelastning och energiförbrukning under träning minskas.

Forskningen tar också upp frågor som träningsinstabilitet, som ofta blir mer uttalad när modellerna blir större.

Det senaste genombrottet hjälper språkmodeller att dela mer intern information på ett kontrollerat sätt samtidigt som stabilitet och effektivitet bibehålls även när modellerna skalas större.

Forskning som en signal om vad som kommer härnäst

DeepSeeks tekniska artiklar har historiskt fungerat som tidiga indikatorer på kommande produkter.

För ungefär ett år sedan väckte företaget uppmärksamhet i hela branschen med sin R1-resonemangsmodell, som utvecklades till en betydligt lägre kostnad än jämförbara system byggda av Silicon Valley-företag.

Företaget hade släppt grundläggande utbildningsforskning inför lanseringen av R1.

Sedan dess har DeepSeek släppt flera mindre plattformar och hållit en stadig takt av experimenterande.

Förväntan byggs nu upp kring dess nästa flaggskeppssystem, allmänt kallat R2, och förväntas inför vårfestivalen i februari.

Även om den nya artikeln inte uttryckligen refererar till denna modell, har dess tidpunkt och djup gett upphov till förväntningar på att den ligger till grund för framtida utgåvor.

Innovation under yttre begränsningar

USA:s exportkontroller fortsätter att förhindra kinesiska företag från att få tillgång till de mest avancerade halvledarna som används för att träna och driva banbrytande AI.

Dessa begränsningar har blivit en avgörande faktor i Kinas AI-strategi och uppmuntrar företag att utforska okonventionella modellarkitekturer och effektivitetsdrivna designer.

DeepSeeks forskning passar perfekt in i denna trend.

Genom att fokusera på skalbarhet och infrastrukturoptimering försöker företaget minska prestandagapet med globala konkurrenter utan att matcha sina hårdvarubudgetar.

Artikeln publicerades denna vecka på det öppna forskningsarkivet arXiv och den öppna källkodsplattformen Hugging Face.

Den listar 19 författare, med grundaren Liang Wenfeng sist.

Liang har konsekvent styrt DeepSeeks forskningsagenda och uppmuntrat team att ompröva hur storskaliga AI-system byggs.

Tester som beskrivs i artikeln genomfördes på modeller med intervaller från 3 miljarder till 27 miljarder parametrar.

Arbetet bygger också vidare på forskning om hyperanslutningsarkitektur publicerad av ByteDance 2024.

DeepSeek avslöjar effektiv AI-träningsmetod när Kina försöker slå chipbegränsningar

Ett annorlunda angreppssätt på AI-effektivitet

Forskning som en signal om vad som kommer härnäst

Innovation under yttre begränsningar

New York stoppar storskalig datacenterutveckling med ettårigt moratorium

Varför SpaceX-aktien sjunker över 4% på måndag

Varför Apple stämde OpenAI: allt om rättegången om AI-affärshemligheter

Netflix-aktien har kraschat inför rapporten: fynd eller värdefälla?

Varför SpaceX-aktien sjönk med över 2 % på fredagen