Rekursiivinen itseparantuminen: Miksi Anthropic haluaa hidastaa tekoälyn kehitystä

palvelun tarjoaa

Anthropic (yksityinen) / tekoälyturvallisuuspremio

Osta: Altistus Anthropiciin sen todennäköisen IPO:n tai sekundaarireitin kautta (esim. IPO-allokaatio tai likvidi proxy kuten AI-turvallisuudesta tai laskentatehosta hyötyvät toimijat). Perustelu: Anthropic ajaa "hidasta/tauko" -politiikkaa samalla kun skaalaa nopeasti—tämä luo kestävän etulyöntiaseman, jos sääntelijät ja ostajat palkitsevat yrityksiä uskottavilla turvallisuuskehyksillä ja arviointiekosysteemeillä. Markkinat tulevat edelleen maksamaan "toimintaluvasta" valvonnan laajentuessa.

Keskeinen riski: Poliittinen vastareaktio, joka leimaa Anthropicin turvallisuuskampanjan itsekkääksi etujen ajamiseksi, mikä johtaa heikompiin sääntelyä tukeviin tuuliin ja huipputason mallien nopeampaan hyödykkeistymiseen.

OpenAI (public proxy) / frontier leadership

Myy: OpenAI:hin linkittyvät julkiset proxyt, jotka nojaavat "kyvykkyyskisaan" narratiiveihin (esim. yhtiöt, joiden arvostus on eniten sidottu välittömään huippumallien kiihtymiseen ennemmin kuin vaatimustenmukaisuuteen). Perustelu: Jos toimiala siirtyy valvontaan, arviointiin ja mahdollisiin taukoihin, raakanopeuden marginaalinen arvo laskee ja voittajiksi nousevat ne, joilla on hallintotyökalut ja varmennusmekanismit. Tämä puristaa kertoimia puhtaista "kyvykkyyssprintti" -tarinoista.

Keskeinen riski: Läpimurto, joka saa RSI-huolet vaikuttamaan liioitelluilta, palauttaen sijoittajien kiinnostuksen nopeimpaan mallien skaalaamiseen ja nostaen "kilpailu"-arvostuksia.

Anthropic sanoo, että tekoälyn kehitystä saatetaan joutua hidastamaan, kun järjestelmät lähestyvät rekursiivista itseparantumista.
Yritys ehdottaa globaaleja mekanismeja varmistamaan mahdollinen tuleva tekoälyn hidastus tai tauko.
Kriitikot pitävät turvallisuusvaroituksia strategisena asemoinnina, kun taas kannattajat katsovat riskien olevan todellisia.

Kun kilpailu yhä tehokkaampien tekoälyjärjestelmien rakentamisesta kiihtyy, yksi alan johtavista toimijoista kehottaa maailmaa pohtimaan mahdollisuutta, joka vielä äskettäin kuului suurelta osin tieteisfiktion piiriin: koneet, jotka parantavat itseään ilman ihmisen väliintuloa.

Anthropic, Claudea kehittänyt tekoälyyritys, sanoi torstaina, että kyky hidastaa huipputason tekoälyn kehityksen tempoa voi osoittautua arvokkaaksi, kun teknologia lähestyy ominaisuuksia, jotka voivat perusteellisesti muuttaa yhteiskuntaa.

Varoitus esitettiin blogikirjoituksessa, jonka ovat kirjoittaneet Marina Favaro, Anthropicin sisäisen tutkimuslaitoksen johtaja, ja yhtiön perustaja Jack Clark.

Kirjoituksessa paljastettiin sisäistä tutkimusta, joka osoittaa, että yrityksen edistyneimmät mallit kehittyvät nopeasti ja voisivat lopulta liikkua kohti sitä, mitä tutkijat kutsuvat "rekursiiviseksi itseparantumiseksi" — tilannetta, jossa tekoälyjärjestelmät pystyvät parantamaan omia kykyjään.

Yritys korosti, että tällaista rajapistettä ei ole vielä saavutettu eikä sitä välttämättä koskaan saavuteta.

Kuitenkin se katsoi, että mahdollisuus on käymässä riittävän vakavaksi, jotta siihen kannattaa varautua.

"Itsensä rakentava tekoäly olisi merkittävä virstanpylväs teknologian historiassa — yksi, joka voisi tuoda maailmaan valtavia hyötyjä tieteen, terveydenhuollon ja muun saralla, " kirjoitettiin.

Samalla varoitettiin, että täysi rekursiivinen itseparantuminen saattaa myös lisätä riskiä, että ihmiset menettävät kontrollin tekoälyjärjestelmiin.

"Jos järjestelmät pystyvät täysin rakentamaan omat seuraajansa, tapojen turvata ne, valvoa niitä ja muokata niiden käyttäytymistä merkitys kasvaa paljonkin," kirjoitus totesi.

"Uskomme, että olisi hyvä maailmalle, että olisi mahdollisuus hidastaa tai väliaikaisesti pysäyttää huipputason tekoälyn kehitys, jotta yhteiskunnalliset rakenteet ja sovitus- eli alignment-tutkimus ehtivät pysyä teknologian kehityksen mukana," lisättiin.

Mitä rekursiivinen itseparantuminen tarkoittaa

Rekursiivinen itseparantuminen, usein lyhennettynä RSI, viittaa prosessiin, jossa tekoälyjärjestelmä käyttää olemassa olevia kykyjään parantaakseen itseään.

Toisin kuin perinteinen ohjelmisto, joka muuttuu vain, kun ihmiskoodaajat muokkaavat sen koodia, edistyneet tekoälyjärjestelmät osaavat jo kirjoittaa ohjelmistoa, analysoida tuloksia, testata hypoteeseja ja tuottaa ratkaisuja monimutkaisiin ongelmiin.

Tutkijat ennakoivat järjestelmää, joka kykenee tunnistamaan ongelman, kirjoittamaan koodin sen ratkaisemiseksi, arvioimaan tuloksen, oppimaan tuloksista ja toistamaan prosessin jatkuvasti vähäisellä tai olemattomalla ihmisvalvonnalla.

Jokainen parannus voi tehdä seuraavasta parannuksesta helpomman, luoden takaisinkytkentäketjun, joka kiihtyvöittää kehitystä.

Vaikka asiantuntijat ovat eri mieltä siitä, kuinka todennäköisiä tai kuinka lähellä tällaiset kyvykkyydet ovat, käsite on noussut keskeiseksi aiheen turvallisuuskeskusteluissa.

Anthropic varoitti, että rekursiivinen itseparantuminen "voisi tulla nopeammin kuin useimmat instituutiot ovat valmistautuneet."

Miksi tutkijat näkevät riskejä

Ihminen itseään parantavien järjestelmien mahdollisuus on herättänyt huolta joissain akateemisissa piireissä ja politiikassa, koska se tuo mukanaan uusia turvallisuus- ja hallintahaasteita.

Asia e Universityn Azizi Othmanin mukaan järjestelmät, jotka pystyvät muokkaamaan omaa koodiaan, voisivat olla houkuttelevia kohteita haitallisille toimijoille.

"Järjestelmä, joka muokkaa omaa koodiaan, voitaisiin saada hyväksymään takaportteja tai piilotettuja käskyjä huolellisten hyökkäyssarjojen kautta," Othman sanoi.

Hän varoitti, että tällaiset järjestelmät voisivat myös mahdollisesti ryhtyä vihamieliseen muokkaukseen muuta ohjelmistoa tai infrastruktuuria kohtaan, luoden turvallisuusriskejä, joihin nykyinen tekoälyturvallisuustutkimus ei ole täysin varautunut.

"Nämä seikat puoltavat sitä, että RSI-turvallisuutta tulisi käsitellä keskeisenä tutkimusprioriteettina, ei toissijaisena huolenaiheena," hän sanoi.

Tutkijoiden mukaan kirjallisuus järjestelmien suojaamisesta, jotka kykenevät rekursiiviseen itse-modifiointiin, on toistaiseksi rajallista.

OpenAI toistaa samankaltaiset huolet

Anthropic ei ole yksin rekursiivisen itseparantumisen nostamisessa haastavaksi kysymykseksi.

OpenAI, Anthropicin tärkein kilpailija, myös nosti asian esiin tällä viikolla osana julkista politiikkaohjelmaansa.

ChatGPT:n kehittäjä vaati liittovaltion kehystä, joka vahvistaisi edistyneiden tekoälyjärjestelmien valvontaa ja tukisi etenemisen seurantaa kohti rekursiivista itseparantumista.

"Tuemme myös kongressin toimia kattavan liittovaltion kehyksen luomiseksi," OpenAI totesi, katsoen, että Yhdysvaltain hallituksen tulisi laajentaa arviointiponnisteluja kaikkein kyvykkäimpiin huippumalleihin ja kehittää riippumaton ekosysteemi turvallisuusriskien arvioimiseksi.

"Tämän kehyksen tulisi vaatia CAISIn suorittamaan arviointeja kaikkein kyvykkäimmistä huippumalleista, ohjata CAISIa luomaan riippumaton arviointi-ekosysteemi ja priorisoida etenemisen seurantaa kohti rekursiivista itseparantumista (RSI)," se sanoi.

Se, että kaksi maailman vaikutusvaltaisinta tekoälyyritystä nyt julkisesti keskustelee rekursiivisesta itseparantumisesta, viittaa siihen, että kysymys siirtyy teoreettisesta debatista valtavirran politiikkakeskusteluihin.

Varoitus tekoälybuumin keskellä

Anthropicin varovaisuuskutsu tulee hetkellä, jolloin yhtiö itse hyötyy merkittävästi tekoälybuumista.

Yritys äskettäin päätti rahoituskierroksen, joka arvosti sen lähes $1 trillioniin, ja on luottamuksellisesti jättänyt listautumisdokumentteja.

Sen liikevaihdon kasvu on ollut yhtä dramaattista.

Anthropicin vuotuiseksi vuosittaistettavaksi liikevaihdon juoksunopeudeksi odotetaan noin $50 billionia tämän kuun loppuun mennessä, kun se oli $9 billionia vuoden 2025 lopussa.

Tuo nopea kasvu on auttanut asemoimaan yhtiön yhdeksi OpenAI:n merkittävimmistä haastajista tekoälyn herruudesta käytävässä kilpailussa.

Sen viimeisimmän turvallisuuspainotuksen ajoitus on siksi herättänyt uusia kritiikin sävyjä joidenkin tarkkailijoiden taholta, jotka väittävät, että tiukemmat valvontavaatimukset voivat hyödyttää vakiintuneita tekoälyjohtajia nostamalla kilpailun esteitä.

Kriitikot kyseenalaistavat Anthropicin motiivit

Anthropic on pitkään kohdannut syytöksiä siitä, että sen turvallisuustyö voisi palvella myös kaupallisia etuja.

Yhtenä kriitikkona on riskipääomasijoittaja David Sacks, joka on epävirallinen neuvonantaja presidentti Donald Trumpille, ja joka on syyttänyt yhtiötä "sääntelyvallan kaappaamisagendasta."

Hiljattain podcastissa Sacks varoitti, että Washingtonin "sääntelyvallan kaappaamisagenda" voisi johtaa avoimen lähdekoodin tekoälymallien kieltämiseen — järjestelmiin, jotka tarjoavat organisaatioille huomattavasti edullisemman tavan rakentaa ja käyttää tekoälyä sisäisesti.

Muut ovat ehdottaneet, että julkiset varoitukset voimakkaista tekoälyjärjestelmistä saattavat toimia myös markkinointikeinona korostaen Anthropicin teknologian kehittyneisyyttä.

Yhtiön rajoitettu julkaisu kyberturvallisuuteen keskittyvästä Mythos-mallista on usein mainittu esimerkkinä skeptikoiden keskuudessa, jotka uskovat turvallisuusviestinnän voivan samalla esitellä tuotteen kyvykkyyksiä.

Anthropic kiistää nämä kritiikit ja pitää yllä, että sen turvallisuuteen keskittyminen on edeltänyt nykyistä tekoälybuumia.

Toimiala jakautunut tekoälyn tulevaisuudesta

Keskustelu heijastaa laajempaa jakautumista tekoälyalan sisällä siitä, kuinka lähellä nykyiset järjestelmät ovat saavuttamaan ihmisen tason älykkyyden tai itseparantumiskyvykkyyksiä.

Jotkut tutkijat, mukaan lukien tekoälypioneeri ja entinen Metan päätekoälytutkija Yann LeCun, ovat väittäneet, että nykyiset suuret kielimallit ovat perustavanlaatuisesti rajallisia eivätkä todennäköisesti saavuta ihmisen kaltaista älykkyyttä.

LeCun on toistuvasti vähätellyt eksistentiaalisia pelkoja tekoälyn suhteen ja verrannut nykyisten järjestelmien älykkyyttä enemmän kissan kuin ihmisen tasoon.

Toiset, mukaan lukien Anthropicin toimitusjohtaja Dario Amodei, ovat ottaneet huomattavasti varovaisemman kannan.

Amodei on varoittanut, että edistynyt tekoäly voisi merkittävästi lisätä eriarvoisuutta, poistaa suuren määrän aloittavia valko-collar-töitä ja mahdollisesti kehittää haitallista käyttäytymistä arvaamattomilla tavoilla.

Jack Clark on samoin todennut, että rekursiivinen itseparantuminen voisi saapua vuosien, ei vuosikymmenien, kuluessa.

"Tällainen teknologialuokka ei ole koskaan aiemmin ollut olemassa, ja silti uskon, että tämä voisi tapahtua seuraavien kahden vuoden aikana, mahdollisesti jopa aikaisemmin," Clark sanoi Lontoossa pitämässään luennossa viime kuussa.

Hidastamisen haaste

Anthropic myöntää, että kaikki yritykset keskeyttää tai hidastaa tekoälyn kehitystä toimisivat vain, jos suuret toimijat osallistuvat niihin.

Siksi yhtiö ehdotti kansainvälisten sopimusten ja varmennusmekanismien tutkimista, joiden tarkoituksena on varmistaa noudattaminen.

Kuitenkin se myös myönsi, että tekoälyn kehityksen valvominen saattaa olla huomattavasti vaikeampaa kuin perinteisten asevalvontasopimusten toimeenpano.

"Koulutussuoritukset on paljon helpompi salata kuin ohjuskelat," blogikirjoituksessa todettiin.

Yritys varoitti, että toimija, joka jatkaa kehitystä kilpailijoiden tauottaessa, voisi saada merkittävän edun, mikä tekee koordinoinnista poikkeuksellisen vaikeaa.

Tällä hetkellä Anthropic suunnittelee järjestävänsä keskusteluja poliittisten päättäjien, tutkijoiden ja teollisuuden johtajien kanssa tarkastellakseen, miten rekursiivista itseparantumista tulisi tutkia ja voisivatko mekanismit koordinoituihin hidastuksiin koskaan olla käytännössä toimivia.

Rekursiivinen itseparantuminen: Miksi Anthropic haluaa hidastaa tekoälyn kehitystä

Mitä rekursiivinen itseparantuminen tarkoittaa

Miksi tutkijat näkevät riskejä

OpenAI toistaa samankaltaiset huolet

Varoitus tekoälybuumin keskellä

Kriitikot kyseenalaistavat Anthropicin motiivit

Toimiala jakautunut tekoälyn tulevaisuudesta

Hidastamisen haaste

SpaceX jatkaa laskuaan maanantaina: osta, myy vai pidä?

Britannian hallitus tukee CuspAI:tä 450 miljoonan dollarin rahoituskierroksessa

Tekoäly luo lisää työpaikkoja, sanoo MarketPsychin perustaja Dr. Richard Peterson

Moonshot AI keskeyttää Kimi K3 -tilausten myynnin, kun kysyntä ylikuormittaa laskentakapasiteetin

Kimi K3 selitetty: Moonshotin suurin avoimen tekoälyn panostus