DeepSeek esittelee tehokkaan tekoälyn koulutusmenetelmän, kun Kiina yrittää voittaa piirirajoitukset

Kiinalainen tekoälystartup DeepSeek on julkaissut uutta tutkimusta, joka valaisee, miten kiinalaiset tekoälykehittäjät sopeutuvat laitteiston rajoituksiin samalla kun mallien suorituskyky kehittyy.

Artikkeli esittelee tehokkaamman menetelmän kehittyneiden tekoälyjärjestelmien kouluttamiseen ja korostaa, kuinka kiinalaiset yritykset kiertävät rajoitettuja pääsyä huipputason piireihin.

Julkaisu julkaistaan samaan aikaan, kun kilpailu kiinalaisten tekoälyyritysten ja globaalien johtajien, kuten OpenAI:n, välillä kiristyy.

Kun pääsy edistyneimpiin puolijohteisiin on rajoittunut, kiinalaiset startupit kääntyvät yhä enemmän arkkitehtuurin ja ohjelmistotason innovaatioiden puoleen.

DeepSeekin uusin työ tarjoaa ikkunan siihen, miten nämä rajoitteet muovaavat seuraavan sukupolven tekoälykehitystä.

Erilainen lähestymistapa tekoälyn tehokkuuteen

Tutkimuksen keskiössä on viitekehys nimeltä Manifold-Constrained Hyper-Connections.

Tekniikka on suunniteltu parantamaan suurten tekoälymallien skaalautumista samalla kun se vähentää sekä laskennallista kuormitusta että energiankulutusta koulutuksen aikana.

Tutkimuksessa käsitellään myös esimerkiksi koulutuksen epävakautta, joka usein korostuu mallien kasvaessa.

Uusin läpimurto auttaa kielimalleja jakamaan enemmän sisäistä tietoa hallitusti, säilyttäen samalla vakauden ja tehokkuuden, vaikka mallit skaalautuisivat suuremmin.

Tutkimus merkkinä siitä, mitä seuraavaksi tapahtuu

DeepSeekin tekniset artikkelit ovat perinteisesti toimineet varhaisina indikaattoreina tuleville tuotteille.

Noin vuosi sitten yritys herätti alan huomion R1-päättelymallillaan, joka kehitettiin huomattavasti edullisemmin kuin Piilaakson yritysten vastaavat järjestelmät.

Yritys oli julkaissut perustavanlaatuisen koulutustutkimuksen ennen R1:n lanseerausta.

Sen jälkeen DeepSeek on julkaissut useita pienempiä alustoja ja ylläpitänyt tasaista kokeilutahtia.

Odotukset kasvavat nyt seuraavan lippulaivajärjestelmän, laajalti tunnetun nimellä R2, ympärillä, jonka odotetaan olevan helmikuun kevätjuhlan tienoilla.

Vaikka uusi artikkeli ei suoraan viittaa tähän malliin, sen ajoitus ja syvyys ovat lisänneet odotuksia siitä, että se tukee tulevia julkaisuja.

Innovaatio ulkoisten rajoitteiden alla

Yhdysvaltojen vientivalvonnat estävät edelleen kiinalaisia yrityksiä pääsemästä käsiksi edistyneimpiin puolijohteisiin, joita käytetään huippuluokan tekoälyn kouluttamiseen ja käyttöön.

Nämä rajoitukset ovat muodostuneet määrittäväksi tekijäksi Kiinan tekoälystrategiassa, kannustaen yrityksiä tutkimaan epätavanomaisia malliarkkitehtuureja ja tehokkuuteen perustuvia suunnitelmia.

DeepSeekin tutkimus sopii täydellisesti tähän trendiin.

Keskittymällä skaalautuvuuteen ja infrastruktuurin optimointiin yritys pyrkii kaventamaan suorituskykyeroa globaaleihin kilpailijoihin ilman, että se vastaa heidän laitteistobudjettejaan.

Artikkeli julkaistiin tällä viikolla avoimen tutkimuksen arkistossa arXiv:ssa ja avoimen lähdekoodin alustalla Hugging Face.

Siinä luetellaan 19 kirjoittajaa, joista perustaja Liang Wenfeng on viimeisenä.

Liang on johdonmukaisesti ohjannut DeepSeekin tutkimusohjelmaa, kannustaen tiimejä pohtimaan uudelleen, miten laajamittaiset tekoälyjärjestelmät rakennetaan.

Artikkelissa kuvatut testit tehtiin malleilla, joiden parametrit vaihtelivat 3 miljardista 27 miljardiin.

Työ rakentuu myös ByteDancen vuonna 2024 julkaisemaan hyper-yhteysarkkitehtuurin tutkimukseen.

DeepSeek esittelee tehokkaan tekoälyn koulutusmenetelmän, kun Kiina yrittää voittaa piirirajoitukset

Erilainen lähestymistapa tekoälyn tehokkuuteen

Tutkimus merkkinä siitä, mitä seuraavaksi tapahtuu

Innovaatio ulkoisten rajoitteiden alla

New York keskeyttää suurten datakeskusten rakentamisen vuoden mittaisella moratoriolla

Miksi SpaceXin osake laskee yli 4 % maanantaina

Netflixin osake romahti ennen tuloksia: löytö vai arvopyydys?

Miksi SpaceX-osake laski yli 2 % perjantaina

SoFi-osake hiipii takaisin — kiihtyykö nousu ennen Q2-tulosta?