Invezz

DeepSeek afslører effektiv AI-træningsmetode, mens Kina forsøger at overvinde chip-begrænsninger

  • DeepSeek afslører en ny AI-træningsmetode, der øger ydeevnen på trods af begrænset adgang til avancerede chips.
  • Forskningen viser, hvordan kinesiske AI-virksomheder bruger software og arkitektur til at opveje hardwarebegrænsninger.
  • DeepSeeks artikel signalerer fremskridt mod den næste flagskibsmodel.

Den kinesiske kunstig intelligens-startup DeepSeek har udgivet ny forskning, der kaster lys over, hvordan kinesiske AI-udviklere tilpasser sig hardwarebegrænsninger, samtidig med at de fortsætter med at fremme modelernes ydeevne.

Artiklen skitserer en mere effektiv metode til træning af avancerede AI-systemer og fremhæver, hvordan kinesiske virksomheder arbejder uden om begrænsninger pålagt begrænset adgang til top-niveau chips.

Udgivelsen kommer, mens konkurrencen intensiveres mellem kinesiske AI-virksomheder og globale ledere som OpenAI.

Med adgangen til de mest avancerede halvledere begrænset, vender kinesiske startups sig i stigende grad mod arkitektonisk og softwarebaseret innovation.

DeepSeeks seneste arbejde giver et indblik i, hvordan disse begrænsninger former næste generation af AI-udvikling.

En anden tilgang til AI-effektivitet

I centrum for forskningen er en ramme kaldet Manifold-Constrained Hyper-Connections.

Teknikken er designet til at forbedre, hvordan store AI-modeller skalerer, samtidig med at både beregningsbelastningen og energiforbruget under træningen reduceres.

Forskningen adresserer også problemer som træningsustabilitet, som ofte bliver mere udtalt, efterhånden som modellerne vokser.

Det seneste gennembrud hjælper sprogmodeller med at dele mere intern information på en kontrolleret måde, samtidig med at stabilitet og effektivitet opretholdes, selv når modellerne skaleres større.

Forskning som et signal om, hvad der kommer næste gang

DeepSeeks tekniske papirer har historisk set fungeret som tidlige indikatorer på kommende produkter.

For omkring et år siden tiltrak virksomheden opmærksomhed i hele branchen med sin R1-ræsonnementsmodel, som blev udviklet til en væsentligt lavere pris end sammenlignelige systemer bygget af Silicon Valley-virksomheder.

Virksomheden havde offentliggjort grundlæggende træningsforskning forud for lanceringen af R1.

Siden da har DeepSeek udgivet flere mindre platforme og opretholdt et stabilt tempo af eksperimenter.

Forventningerne bygger nu op omkring det næste flagskibssystem, bredt kaldet R2, og forventes omkring forårsfestivalen i februar.

Selvom den nye artikel ikke eksplicit refererer til denne model, har dens timing og dybde givet næring til forventninger om, at den ligger til grund for fremtidige udgivelser.

Innovation under eksterne begrænsninger

Amerikanske eksportkontroller forhindrer fortsat kinesiske virksomheder i at få adgang til de mest avancerede halvledere, der bruges til at træne og køre banebrydende AI.

Disse begrænsninger er blevet en definerende faktor i Kinas AI-strategi og opfordrer virksomheder til at udforske utraditionelle modelarkitekturer og effektivitetsdrevne designs.

DeepSeeks forskning passer perfekt ind i denne tendens.

Ved at fokusere på skalerbarhed og infrastrukturoptimering forsøger virksomheden at mindske ydelsesgabet med globale konkurrenter uden at matche deres hardwarebudgetter.

Artiklen blev offentliggjort i denne uge på det åbne forskningsarkiv arXiv og open source-platformen Hugging Face.

Den oplister 19 forfattere, med grundlæggeren Liang Wenfeng som sidstnævnt.

Liang har konsekvent styret DeepSeeks forskningsagenda og opmuntret teams til at gentænke, hvordan store AI-systemer bygges.

Testene beskrevet i artiklen blev udført på modeller med størrelser fra 3 milliarder til 27 milliarder parametre.

Arbejdet bygger også videre på forskning i hyperforbindelsesarkitektur offentliggjort af ByteDance i 2024.