DeepSeek avslører effektiv AI-treningsmetode mens Kina prøver å overvinne chip-begrensninger

Den kinesiske kunstig intelligens-startupen DeepSeek har publisert ny forskning som kaster lys over hvordan kinesiske AI-utviklere tilpasser seg maskinvarebegrensninger samtidig som de fortsetter å drive modellens ytelse fremover.

Artikkelen skisserer en mer effektiv metode for å trene avanserte AI-systemer, og fremhever hvordan kinesiske selskaper omgår begrensninger som pålegges av begrenset tilgang til toppnivå-brikker.

Publikasjonen kommer samtidig som konkurransen øker mellom kinesiske AI-selskaper og globale ledere som OpenAI.

Med begrenset tilgang til de mest avanserte halvlederne vender kinesiske oppstartsbedrifter seg i økende grad mot arkitektonisk og programvarebasert innovasjon.

DeepSeeks nyeste arbeid gir et innblikk i hvordan disse begrensningene former neste generasjon AI-utvikling.

En annerledes tilnærming til AI-effektivitet

Kjernen i forskningen er et rammeverk kalt Manifold-Constrained Hyper-Connections.

Teknikken er utviklet for å forbedre hvordan store AI-modeller skalerer, samtidig som både beregningsbelastning og energiforbruk under trening reduseres.

Forskningen tar også for seg problemer som treningsustabilitet, som ofte blir mer uttalt etter hvert som modellene blir større.

Det siste gjennombruddet hjelper språkmodeller med å dele mer intern informasjon på en kontrollert måte, samtidig som stabilitet og effektivitet opprettholdes selv når modellene skaleres større.

Forskning som et signal om hva som kommer neste

DeepSeeks tekniske artikler har historisk vært tidlige indikatorer på kommende produkter.

For omtrent ett år siden tiltrakk selskapet seg oppmerksomhet i hele bransjen med sin R1-resonnementsmodell, som ble utviklet til en betydelig lavere kostnad enn sammenlignbare systemer bygget av Silicon Valley-selskaper.

Selskapet hadde publisert grunnleggende opplæringsforskning før lanseringen av R1.

Siden den gang har DeepSeek gitt ut flere mindre plattformer, og opprettholdt et jevnt tempo med eksperimentering.

Forventningene bygger seg nå opp rundt det neste flaggskipsystemet, ofte kalt R2, og forventet rundt vårfestivalen i februar.

Selv om den nye artikkelen ikke eksplisitt refererer til denne modellen, har dens timing og dybde gitt forventninger om at den ligger til grunn for fremtidige utgivelser.

Innovasjon under ytre begrensninger

Amerikanske eksportkontroller hindrer fortsatt kinesiske selskaper i å få tilgang til de mest avanserte halvlederne som brukes til å trene og kjøre banebrytende KI.

Disse restriksjonene har blitt en definerende faktor i Kinas KI-strategi, og oppmuntrer bedrifter til å utforske ukonvensjonelle modellarkitekturer og effektivitetsdrevne design.

DeepSeeks forskning passer perfekt inn i denne trenden.

Ved å fokusere på skalerbarhet og optimalisering av infrastruktur forsøker selskapet å redusere ytelsesgapet med globale konkurrenter uten å matche maskinvarebudsjettene deres.

Artikkelen ble publisert denne uken på det åpne forskningsarkivet arXiv og den åpne kildekodeplattformen Hugging Face.

Den lister opp 19 forfattere, med grunnleggeren Liang Wenfeng som sist.

Liang har konsekvent styrt DeepSeeks forskningsagenda, og oppmuntret team til å tenke nytt om hvordan storskala AI-systemer bygges.

Testene beskrevet i artikkelen ble utført på modeller med varierende parametere fra 3 milliarder til 27 milliarder.

Arbeidet bygger også på forskning på hypertilkoblingsarkitektur publisert av ByteDance i 2024.

DeepSeek avslører effektiv AI-treningsmetode mens Kina prøver å overvinne chip-begrensninger

En annerledes tilnærming til AI-effektivitet

Forskning som et signal om hva som kommer neste

Innovasjon under ytre begrensninger

New York stanser store datasenter-utbygginger med ettårig moratorium

Hvorfor SpaceX-aksjen faller over 4 % på mandag

Netflix-aksjen har falt før kvartalsrapporten: kupp eller verdifelle?

Hvorfor SpaceX-aksjen falt over 2 % fredag

SoFi-aksjen kryper tilbake: vil den stige før Q2-resultatene?