DeepSeek onthult efficiënte AI-trainingsmethode terwijl China probeert chipbeperkingen te overwinnen

De Chinese kunstmatige intelligentie-startup DeepSeek heeft nieuw onderzoek uitgebracht dat licht werpt op hoe Chinese AI-ontwikkelaars zich aanpassen aan hardwarebeperkingen terwijl ze de modelprestaties blijven verbeteren.

Het artikel schetst een efficiëntere methode voor het trainen van geavanceerde AI-systemen en benadrukt hoe Chinese bedrijven omzeilen de beperkingen die worden opgelegd door beperkte toegang tot topchips.

De publicatie verschijnt terwijl de concurrentie tussen Chinese AI-bedrijven en wereldwijde leiders zoals OpenAI toeneemt.

Met de beperkte toegang tot de meest geavanceerde halfgeleiders wenden Chinese startups zich steeds meer tot architecturale en software-niveau innovatie.

Het nieuwste werk van DeepSeek biedt een inkijkje in hoe deze beperkingen de volgende generatie AI-ontwikkeling vormgeven.

Een andere benadering van AI-efficiëntie

Centraal in het onderzoek staat een kader genaamd Manifold-Constrained Hyper-Connections.

De techniek is ontworpen om te verbeteren hoe grote AI-modellen schalen, terwijl zowel de rekenkracht als het energieverbruik tijdens training worden verminderd.

Het onderzoek behandelt ook kwesties zoals trainingsinstabiliteit, die vaak duidelijker worden naarmate modellen groter worden.

De nieuwste doorbraak helpt taalmodellen om meer interne informatie op een gecontroleerde manier te delen, terwijl de stabiliteit en efficiëntie behouden blijven, zelfs wanneer de modellen groter worden opgeschaald.

Onderzoek als signaal van wat er hierna komt

De technische artikelen van DeepSeek dienden historisch gezien als vroege indicatoren van aankomende producten.

Ongeveer een jaar geleden trok het bedrijf de aandacht in de hele industrie met zijn R1-redeneermodel, dat werd ontwikkeld tegen aanzienlijk lagere kosten dan vergelijkbare systemen van Silicon Valley-bedrijven.

Het bedrijf had fundamenteel trainingsonderzoek gepubliceerd voorafgaand aan de lancering van R1.

Sindsdien heeft DeepSeek verschillende kleinere platforms uitgebracht en een gestage experimentatiesnelheid aanhoudend.

De verwachting bouwt zich nu op rond het volgende vlaggenschipsysteem, algemeen aangeduid als R2, en verwacht rond het Lentefestival in februari.

Hoewel het nieuwe artikel dit model niet expliciet noemt, hebben de timing en diepgang de verwachtingen aangewakkerd dat het ten grondslag ligt aan toekomstige publicaties.

Innovatie onder externe beperkingen

Amerikaanse exportcontroles blijven Chinese bedrijven verhinderen toegang te krijgen tot de meest geavanceerde halfgeleiders die worden gebruikt om geavanceerde AI te trainen en te gebruiken.

Deze beperkingen zijn een bepalende factor geworden in China's AI-strategie, waardoor bedrijven worden aangemoedigd om onconventionele modelarchitecturen en efficiëntiegedreven ontwerpen te verkennen.

Het onderzoek van DeepSeek past precies in deze trend.

Door zich te richten op schaalbaarheid en infrastructuuroptimalisatie probeert het bedrijf de prestatiekloof met wereldwijde concurrenten te verkleinen zonder hun hardwarebudgetten te evenaren.

Het artikel werd deze week gepubliceerd op de open onderzoeksrepository arXiv en het open-source platform Hugging Face.

Het vermeldt 19 auteurs, met oprichter Liang Wenfeng als laatste genoemd.

Liang heeft consequent de onderzoeksagenda van DeepSeek geleid en teams aangemoedigd om te heroverwegen hoe grootschalige AI-systemen worden gebouwd.

De in het artikel beschreven tests werden uitgevoerd op modellen variërend van 3 miljard tot 27 miljard parameters.

Het werk bouwt ook voort op onderzoek naar hyper-connectiearchitectuur dat in 2024 door ByteDance is gepubliceerd.

DeepSeek onthult efficiënte AI-trainingsmethode terwijl China probeert chipbeperkingen te overwinnen

Een andere benadering van AI-efficiëntie

Onderzoek als signaal van wat er hierna komt

Innovatie onder externe beperkingen

New York legt moratorium van een jaar op ontwikkeling van grote datacenters

Waarom SpaceX-aandelen maandag meer dan 4% dalen

Waarom Apple OpenAI heeft aangeklaagd: alles over de handelsgeheimenzaak rond AI

Netflix-aandelen kelderen vóór resultaten: koopje of waardevalstrik?

Waarom SpaceX-aandelen vrijdag meer dan 2% dalen