Auto-îmbunătățire recursivă: de ce Anthropic vrea încetinirea dezvoltării AI

oferit de

Anthropic (privat) / primă pentru siguranța AI

Buy: Expunere la Anthropic prin probabilul său IPO/cale secundară (de ex., alocare IPO sau proxy lichid precum beneficiarii politicilor de siguranță AI/compute). Rațiune: Anthropic promovează politici de „încetinire/pauză” în timp ce continuă să se scaleze rapid — acest lucru creează un moft durabil dacă regulatorii și cumpărătorii recompensează firmele cu cadre credibile de siguranță și ecosisteme de evaluare. Piața va continua să plătească pentru „permisul de a opera” pe măsură ce supravegherea se extinde.

Risc cheie: O reacție politică care prezintă inițiativa de siguranță a Anthropic ca fiind de interes propriu, conducând la vânturi regulatorii mai slabe și la o commoditizare mai rapidă a modelelor de frontieră.

OpenAI (proxy public) / conducere pe frontiera tehnologică

Sell: Proxy-uri publice legate de OpenAI care se bazează pe narațiuni de „cursă către capabilitate” (de ex., companii a căror evaluare este cel mai mult legată de accelerarea imediată a modelelor de frontieră în loc de conformitate). Rațiune: Dacă industria se îndreaptă către monitorizare, evaluare și posibile pauze, valoarea marginală a vitezei brute scade, iar câștigătorii devin cei cu instrumente de guvernanță și verificare. Aceasta comprimă multiplii pentru poveștile pure de „sprint de capabilitate”.

Risc cheie: O descoperire care să facă preocupările privind RSI să pară exagerate, restabilind apetitul investitorilor pentru scalarea cea mai rapidă a modelelor și ridicând evaluările „de cursă”.

Anthropic spune că dezvoltarea AI ar putea necesita încetinire pe măsură ce sistemele se apropie de auto-îmbunătățirea recursivă.
Compania propune mecanisme globale pentru a verifica orice încetinire sau pauză viitoare a dezvoltării AI.
Criticii văd avertismentele de siguranță ca poziționare strategică, în timp ce susținătorii susțin că riscurile sunt reale.

Pe măsură ce cursa pentru a construi sisteme de inteligență artificială tot mai puternice se accelerează, unul dintre jucătorii de top din industrie îndeamnă lumea să ia în considerare o posibilitate care, până recent, aparținea în mare parte ficțiunii științifice: mașinile care se îmbunătățesc singure fără intervenție umană.

Anthropic, compania de AI din spatele Claude, a spus joi că abilitatea de a încetini ritmul dezvoltării AI de frontieră ar putea deveni valoroasă pe măsură ce tehnologia se apropie de capabilități care pot remodela fundamental societatea.

Avertismentul a fost făcut într-o postare pe blog semnată de Marina Favaro, directoarea institutului intern de cercetare al Anthropic, și de cofondatorul companiei Jack Clark.

Postarea a dezvăluit cercetări interne care arată că cele mai avansate modele ale firmei progresează rapid și ar putea, în cele din urmă, să evolueze către ceea ce cercetătorii numesc „auto-îmbunătățire recursivă” — un scenariu în care sistemele AI devin capabile să își îmbunătățească propriile capacități.

Compania a subliniat că un astfel de prag nu a fost încă atins și s-ar putea să nu fie niciodată realizat.

Totuși, a argumentat că posibilitatea devine suficient de serioasă pentru a justifica pregătirea.

„AI care se poate construi singură ar fi o dezvoltare majoră în istoria tehnologiei — una care ar putea aduce beneficii enorme lumii în știință, sănătate și dincolo de acestea,” se arată în postare.

Cu toate acestea, a avertizat că auto-îmbunătățirea recursivă completă ar putea crește, de asemenea, riscurile pierderii controlului uman asupra sistemelor AI.

„Dacă sistemele sunt capabile să își construiască pe deplin succesorii, modul în care le securizăm, le monitorizăm și le modelăm comportamentul devin mult mai importante,” se arată în postare.

„Credem că ar fi bine pentru lume să existe opțiunea de a încetini sau de a întrerupe temporar dezvoltarea AI de frontieră pentru a permite structurilor societale și cercetării în aliniere să țină pasul cu avansul tehnologiei,” adaugă textul.

Ce înseamnă auto-îmbunătățirea recursivă

Auto-îmbunătățirea recursivă, adesea prescurtată RSI, se referă la un proces în care un sistem AI își folosește capacitățile existente pentru a se îmbunătăți pe sine.

Spre deosebire de software-ul convențional, care se schimbă doar atunci când programatorii umani îi modifică codul, sistemele AI avansate pot deja scrie software, analiza rezultate, testa ipoteze și genera soluții pentru probleme complexe.

Cercetătorii își imaginează un sistem viitor capabil să identifice o problemă, să scrie cod pentru a o rezolva, să evalueze rezultatul, să învețe din rezultate și apoi să repete procesul continuu cu puțină sau fără supraveghere umană.

Fiecare îmbunătățire ar putea face potențial mai ușoară următoarea îmbunătățire, creând un cerc de feedback care accelerează progresul.

Deși experții nu sunt de acord cât de probabil sau cât de apropiate pot fi asemenea capabilități, conceptul a devenit un subiect central în discuțiile despre siguranța AI avansate.

Anthropic a avertizat că auto-îmbunătățirea recursivă „ar putea apărea mai curând decât sunt pregătite majoritatea instituțiilor.”

De ce cercetătorii văd riscuri

Posibilitatea existenței sistemelor care se auto-îmbunătățesc a ridicat îngrijorări printre unii academici și factori de decizie, deoarece introduce noi provocări de securitate și guvernanță.

Potrivit lui Azizi Othman de la Asia e University, sistemele capabile să își modifice propriul cod ar putea deveni ținte atractive pentru actori malițioși.

„Un sistem care își modifică propriul cod ar putea fi forțat să accepte backdoor-uri sau instrucțiuni ascunse prin secvențe de atac bine gândite,” a spus Othman.

El a avertizat că astfel de sisteme ar putea, de asemenea, să se angajeze în modificări adversariale ale altor software-uri sau infrastructuri, creând riscuri de securitate pe care cercetarea actuală în siguranța AI nu este pe deplin echipată să le abordeze.

„Aceste considerații pledează pentru tratarea securității RSI ca o prioritate centrală de cercetare, nu ca o preocupare secundară,” a spus el.

Literatura actuală privind securizarea sistemelor capabile de auto-modificare recursivă rămâne limitată, spun cercetătorii.

OpenAI ridică preocupări similare

Anthropic nu este singura companie care subliniază auto-îmbunătățirea recursivă ca provocare potențială.

OpenAI, principalul rival al Anthropic, a ridicat și el problema în această săptămână ca parte a agendei sale de politică publică.

Producătorul ChatGPT a cerut un cadru federal care să consolideze supravegherea sistemelor AI avansate și să susțină monitorizarea progresului către auto-îmbunătățirea recursivă.

„Susținem, de asemenea, acțiunea Congresului pentru a stabili un cadru federal cuprinzător,” a declarat OpenAI, argumentând că guvernul SUA ar trebui să extindă eforturile de evaluare pentru cele mai capabile modele de frontieră și să dezvolte un ecosistem independent pentru evaluarea riscurilor de siguranță.

„Acest cadru ar trebui să impună CAISI să efectueze evaluări ale celor mai capabile modele de frontieră, să instruiască CAISI să creeze un ecosistem independent de evaluare și să prioritizeze monitorizarea progresului către auto-îmbunătățirea recursivă (RSI),” se arată în text.

Faptul că două dintre cele mai influente companii de AI din lume discută public acum despre auto-îmbunătățirea recursivă sugerează că problema trece din dezbaterea teoretică în discuții politice de masă.

Un avertisment într-un sector AI în plină expansiune

Apelul Anthropic la prudență vine într-un moment în care compania însăși beneficiază enorm de pe urma boom-ului AI.

Compania a încheiat recent o rundă de finanțare care a evaluat-o la aproape 1.000 de miliarde de dolari și a depus în secret documente pentru o ofertă publică inițială.

Creșterea veniturilor sale a fost la fel de dramatică.

Ritmul anualizat al veniturilor Anthropic ar urma să atingă aproximativ 50 miliarde USD până la sfârșitul acestei luni, în creștere de la 9 miliarde USD la sfârșitul anului 2025.

Această creștere rapidă a contribuit la poziționarea companiei ca unul dintre principalii challengeri ai OpenAI în lupta pentru supremația AI.

Momentul inițiativei sale recente pentru siguranță a reaprins, astfel, criticile din partea unor observatori care susțin că apelurile pentru o supraveghere mai strictă ar putea favoriza liderii consacrați ai AI prin ridicarea barierelor la intrare.

Criticii pun sub semnul întrebării motivele Anthropic

Anthropic s-a confruntat mult timp cu acuzații că advocacy-ul său pentru siguranță ar putea servi intereselor comerciale.

Printre criticii săi se numără omul de afaceri în capital de risc David Sacks, un consilier informal al președintelui Donald Trump, care a acuzat compania că urmărește o „agendă de capturare regulativă.”

Într-un podcast recent, Sacks a avertizat că „agenda de capturare regulativă” a Washingtonului ar putea duce la interzicerea modelelor AI open-source — sisteme care oferă organizațiilor o cale mult mai ieftină de a construi și folosi AI intern.

Alții au sugerat că avertismentele publice despre sisteme AI puternice pot funcționa ca o formă de marketing, evidențiind sofisticarea tehnologiei Anthropic.

Lansarea limitată a modelului Mythos, axat pe securitate cibernetică, a fost invocată frecvent de sceptici ca exemplu că mesajele despre siguranță pot pune, de asemenea, în valoare capabilitățile produsului.

Anthropic respinge aceste critici și susține că atenția sa asupra siguranței precede actualul boom AI.

O industrie divizată în privința viitorului AI

Dezbaterile reflectă o divizare mai largă în industria AI despre cât de aproape sunt sistemele actuale de a atinge inteligența la nivel uman sau capabilități de auto-îmbunătățire.

Unii cercetători, inclusiv pionierul AI și fostul șef de cercetare AI la Meta, Yann LeCun, au susținut că modelele lingvistice mari din prezent sunt fundamental limitate și puțin probabil să atingă o inteligență asemănătoare celei umane.

LeCun a minimalizat în mod repetat temerile existențiale legate de AI și a comparat sistemele actuale cu nivelul de inteligență al unei pisici, nu al unui om.

Alții, inclusiv directorul executiv al Anthropic, Dario Amodei, au adoptat o poziție mult mai precaută.

Amodei a avertizat că AI avansată ar putea crește semnificativ inegalitatea, ar putea elimina un număr mare de locuri de muncă de tip white-collar la nivel de intrare și ar putea dezvolta comportamente dăunătoare în moduri imprevizibile.

Jack Clark a susținut, în mod similar, că auto-îmbunătățirea recursivă ar putea apărea în ani, nu în zeci de ani.

„Acea clasă de tehnologie nu a existat niciodată înainte, și totuși cred că acest lucru s-ar putea întâmpla în următorii doi ani, și posibil mai curând,” a declarat Clark în timpul unei prelegeri la Londra luna trecută.

Provocarea încetinirii AI

Anthropic recunoaște că orice efort de a pune pauză sau a încetini dezvoltarea AI ar funcționa doar dacă jucătorii majori ar participa.

Compania a propus, prin urmare, explorarea unor acorduri internaționale și mecanisme de verificare concepute pentru a asigura conformitatea.

Cu toate acestea, a admis și că monitorizarea dezvoltării AI ar putea fi considerabil mai dificilă decât aplicarea acordurilor tradiționale de control al armamentului.

„Rulările de antrenament sunt mult mai ușor de ascuns decât silozurile de rachete,” remarca postarea pe blog.

Compania a avertizat că orice actor care continuă dezvoltarea în timp ce concurenții fac pauză ar putea câștiga un avantaj semnificativ, făcând coordonarea excepțional de dificilă.

Pentru moment, Anthropic intenționează să organizeze discuții cu factori de decizie, cercetători și lideri din industrie pentru a examina cum ar trebui studiată auto-îmbunătățirea recursivă și dacă mecanisme pentru încetiniri coordonate ar putea fi vreodată practice.

Auto-îmbunătățire recursivă: de ce Anthropic vrea încetinirea dezvoltării AI

Ce înseamnă auto-îmbunătățirea recursivă

De ce cercetătorii văd riscuri

OpenAI ridică preocupări similare

Un avertisment într-un sector AI în plină expansiune

Criticii pun sub semnul întrebării motivele Anthropic

O industrie divizată în privința viitorului AI

Provocarea încetinirii AI

SpaceX continuă declinul luni: cumpărare, vânzare sau păstrare?

Guvernul britanic sprijină CuspAI într-o rundă de finanțare de 450 milioane USD

AI va crea mai multe locuri de muncă, spune Dr Richard Peterson, fondatorul MarketPsych

Moonshot AI oprește abonamentele Kimi K3 din cauza suprasolicitării capacității de calcul

Kimi K3 explicat: cea mai mare miză open-weight a Moonshot până acum