Rekurencyjne samodoskonalenie: dlaczego Anthropic chce spowolnić rozwój AI

Wspierane przez

Anthropic (private) / premia za bezpieczeństwo AI

Buy: Ekspozycja na Anthropic przez potencjalną ścieżkę IPO/secondary (np. przydział w IPO lub płynny proxy jak beneficjenci AI-safety/compute). Uzasadnienie: Anthropic promuje politykę „spowolnienia/wstrzymania” równocześnie szybko się skalując — to tworzy trwałą przewagę konkurencyjną, jeśli regulatorzy i nabywcy będą nagradzać firmy posiadające wiarygodne ramy bezpieczeństwa i ekosystemy ewaluacji. Rynek będzie dalej płacić za „pozwolenie na działalność” wraz z rozszerzającym się nadzorem.

Kluczowe ryzyko: Reakcja polityczna przedstawiająca nacisk Anthropic na bezpieczeństwo jako działanie na własną korzyść, prowadząca do słabszych sprzyjających regulacji i szybszej komodyfikacji najbardziej zaawansowanych modeli.

OpenAI (public proxy) / przywództwo na froncie technologii

Sell: Notowane spółki będące proxy OpenAI, które opierają się na narracjach „wyścigu o możliwości” (np. firmy, których wycena jest w największym stopniu związana z natychmiastowym przyspieszaniem modeli frontier zamiast z dostosowaniem). Uzasadnienie: Jeśli branża przesunie się w stronę monitorowania, oceny i ewentualnych przerw, krańcowa wartość samej szybkości rozwoju spadnie, a zwycięzcami staną się podmioty dysponujące narzędziami zarządzania i weryfikacji. To skompresuje mnożniki dla czystych opowieści o „sprintach możliwości”.

Kluczowe ryzyko: Przełom, który sprawi, że obawy o RSI wydać się będą przesadzone, przywracając apetyt inwestorów na najszybsze skalowanie modeli i podnosząc wyceny związane z „wyścigiem”.

Anthropic twierdzi, że rozwój AI może wymagać spowolnienia w miarę zbliżania się systemów do rekurencyjnego samodoskonalenia.
Firma proponuje globalne mechanizmy weryfikujące ewentualne przyszłe spowolnienia lub wstrzymania rozwoju AI.
Krytycy postrzegają ostrzeżenia o bezpieczeństwie jako działania strategiczne, podczas gdy zwolennicy argumentują, że ryzyka są realne.

W miarę jak wyścig o tworzenie coraz potężniejszych systemów sztucznej inteligencji przyspiesza, jeden z czołowych graczy branży wzywa świat, by rozważył możliwość, która jeszcze niedawno należała głównie do science fiction: maszyny doskonalące się bez ingerencji człowieka.

Anthropic, firma tworząca Claude, stwierdziła w czwartek, że zdolność do spowolnienia tempa rozwoju przełomowej AI może okazać się cenna w miarę zbliżania się technologii do możliwości, które mogą zasadniczo przekształcić społeczeństwo.

Ostrzeżenie pojawiło się w wpisie na blogu podpisanym przez Marinę Favaro, szefową wewnętrznego instytutu badawczego Anthropic, oraz współzałożyciela firmy Jacka Clarka.

We wpisie ujawniono wewnętrzne badania pokazujące, że najbardziej zaawansowane modele firmy szybko się rozwijają i ostatecznie mogą zmierzać w kierunku tego, co badacze nazywają „rekurencyjnym samodoskonaleniem” — scenariusza, w którym systemy AI stają się zdolne do zwiększania własnych możliwości.

Firma podkreśliła, że taki próg jeszcze nie został osiągnięty i może nigdy nie zostać osiągnięty.

Jednak argumentowała, że możliwość ta staje się na tyle poważna, aby wymagać przygotowań.

„AI zdolna do samoistnej budowy byłaby znaczącym wydarzeniem w historii technologii — takim, które mogłoby przynieść ogromne korzyści światu w nauce, opiece zdrowotnej i nie tylko,” napisano we wpisie.

Jednocześnie ostrzeżono, że pełne rekurencyjne samodoskonalenie mogłoby także zwiększyć ryzyko utraty przez ludzi kontroli nad systemami AI.

„Jeśli systemy będą zdolne w pełni budować własnych następców, sposoby ich zabezpieczania, monitorowania i kształtowania ich zachowań staną się znacznie ważniejsze,” napisano.

„Uważamy, że dla świata byłoby korzystne mieć możliwość spowolnienia lub tymczasowego wstrzymania rozwoju przełomowej AI, aby struktury społeczne i badania nad dostosowaniem mogły nadążyć za postępem technologii,” dodano.

Co oznacza rekurencyjne samodoskonalenie

Rekurencyjne samodoskonalenie, często skracane do RSI, odnosi się do procesu, w którym system AI wykorzystuje swoje istniejące zdolności, by stać się lepszym.

W odróżnieniu od konwencjonalnego oprogramowania, które zmienia się tylko wtedy, gdy programiści modyfikują jego kod, zaawansowane systemy AI potrafią już pisać oprogramowanie, analizować wyniki, testować hipotezy i generować rozwiązania złożonych problemów.

Badacze wyobrażają sobie przyszły system zdolny do zidentyfikowania problemu, napisania kodu, by go rozwiązać, oceny wyniku, uczenia się na podstawie rezultatów, a następnie powtarzania tego procesu ciągle, przy niewielkim lub bez nadzoru ludzkiego.

Każda poprawa mogłaby potencjalnie ułatwić kolejną, tworząc pętlę zwrotną, która przyspiesza postęp.

Chociaż eksperci nie zgadzają się co do prawdopodobieństwa i odległości czasowej wystąpienia takich zdolności, koncepcja stała się centralnym tematem dyskusji o bezpieczeństwie zaawansowanej AI.

Anthropic ostrzegł, że rekurencyjne samodoskonalenie „może nadejść wcześniej, niż większość instytucji jest na to przygotowana.”

Dlaczego badacze widzą ryzyka

Możliwość istnienia systemów samodoskonalących się wzbudziła obawy niektórych akademików i decydentów, ponieważ wprowadza nowe wyzwania w obszarze bezpieczeństwa i zarządzania.

Zdaniem Azizi Othmana z Asia e University, systemy zdolne do modyfikowania własnego kodu mogłyby stać się atrakcyjnymi celami dla aktorów o złych zamiarach.

„System, który modyfikuje własny kod, może zostać zmuszony do akceptowania tylnego wejścia (backdoorów) lub ukrytych instrukcji poprzez starannie zaplanowane sekwencje ataków,” powiedział Othman.

Ostrzegł, że takie systemy mogłyby również potencjalnie angażować się w adwersaryjną modyfikację innego oprogramowania lub infrastruktury, tworząc ryzyka bezpieczeństwa, na które obecne badania nad bezpieczeństwem AI nie są w pełni przygotowane.

„Te rozważania przemawiają za traktowaniem bezpieczeństwa RSI jako priorytetu badawczego, a nie drugorzędnej kwestii,” dodał.

Badacze twierdzą, że obecna literatura dotycząca zabezpieczania systemów zdolnych do rekurencyjnej samomodyfikacji pozostaje ograniczona.

OpenAI powtarza podobne obawy

Anthropic nie jest jedyną firmą, która podkreśla rekurencyjne samodoskonalenie jako potencjalne wyzwanie.

OpenAI, główny rywal Anthropic, również poruszył tę kwestię w tym tygodniu w ramach swojej agendy polityki publicznej.

Producent ChatGPT wezwał do ustanowienia federalnych ram, które wzmocniłyby nadzór nad zaawansowanymi systemami AI i wspierały monitorowanie postępów w kierunku rekurencyjnego samodoskonalenia.

„Popieramy również działania Kongresu w celu ustanowienia kompleksowych ram federalnych,” stwierdził OpenAI, argumentując, że rząd USA powinien rozszerzyć wysiłki ewaluacyjne dla najzdolniejszych modeli frontier i rozwinąć niezależny ekosystem oceny ryzyka bezpieczeństwa.

„Te ramy powinny wymagać od CAISI przeprowadzania ocen najzdolniejszych modeli frontier, nakazywać CAISI stworzenie niezależnego ekosystemu oceny oraz priorytetowo traktować monitorowanie postępów w kierunku rekurencyjnego samodoskonalenia (RSI),” napisano.

Fakt, że dwie z najbardziej wpływowych firm AI na świecie publicznie dyskutują teraz o rekurencyjnym samodoskonaleniu, sugeruje, że kwestia ta przechodzi z debaty teoretycznej do głównego nurtu dyskusji politycznych.

Ostrzeżenie w czasie boomu AI

Apel Anthropic o ostrożność pojawia się w momencie, gdy sama firma czerpie ogromne korzyści z boomu AI.

Firma niedawno zakończyła rundę pozyskania kapitału wyceniającą ją na niemal $1 trillion i poufnie złożyła dokumenty w sprawie oferty publicznej.

Jej wzrost przychodów był równie dramatyczny.

Oczekuje się, że zannualizowana skala przychodów Anthropic osiągnie około $50 billion do końca tego miesiąca, w porównaniu z $9 billion pod koniec 2025 roku.

Ten szybki wzrost pomógł umocnić pozycję firmy jako jednego z głównych Challengerów OpenAI w walce o supremację w AI.

Termin jego ostatniego nacisku na bezpieczeństwo odnowił więc krytykę ze strony niektórych obserwatorów, którzy twierdzą, że wezwania do większego nadzoru mogą sprzyjać ugruntowanym liderom AI poprzez podnoszenie barier konkurencji.

Krytycy kwestionują motywy Anthropic

Anthropic od dawna spotyka się z oskarżeniami, że jego działania na rzecz bezpieczeństwa mogą służyć interesom komercyjnym.

Wśród krytyków jest venture capitalista David Sacks, nieformalny doradca prezydenta Donalda Trumpa, który oskarżył firmę o prowadzenie „agendy przechwycenia regulacyjnego” (regulatory capture).

W jednym z ostatnich podcastów Sacks ostrzegł, że „agenda przechwycenia regulacyjnego” w Waszyngtonie mogłaby doprowadzić do zakazu modeli open source — systemów, które oferują organizacjom znacznie tańszy sposób budowy i korzystania z AI wewnętrznie.

Inni sugerowali, że publiczne ostrzeżenia o potężnych systemach AI mogą pełnić funkcję marketingu, podkreślając zaawansowanie technologii Anthropic.

Ograniczone udostępnienie przez firmę modelu Mythos, ukierunkowanego na cyberbezpieczeństwo, było często przytaczane jako przykład przez sceptyków, którzy uważają, że komunikaty o bezpieczeństwie mogą także eksponować możliwości produktu.

Anthropic odrzuca te zarzuty i utrzymuje, że jego koncentracja na bezpieczeństwie poprzedza obecny boom AI.

Branża podzielona co do przyszłości AI

Dyskusja odzwierciedla szerszy podział w branży AI co do tego, jak blisko obecne systemy są do osiągnięcia inteligencji na poziomie człowieka lub zdolności samodoskonalenia.

Niektórzy badacze, w tym pionier AI i były główny naukowiec ds. AI w Meta, Yann LeCun, argumentowali, że dzisiejsze duże modele językowe mają fundamentalne ograniczenia i nie są prawdopodobne, by osiągnęły inteligencję podobną do ludzkiej.

LeCun wielokrotnie odrzucał egzystencjalne obawy związane z AI i porównywał obecne systemy do poziomu inteligencji kota, a nie człowieka.

Inni, w tym dyrektor generalny Anthropic Dario Amodei, prezentowali znacznie ostrożniejsze stanowisko.

Amodei ostrzegał, że zaawansowana AI może znacząco zwiększyć nierówności, wyeliminować dużą liczbę miejsc pracy na poziomie podstawowym w sektorze białych kołnierzy oraz potencjalnie rozwijać szkodliwe zachowania w nieprzewidywalny sposób.

Jack Clark podobnie twierdził, że rekurencyjne samodoskonalenie mogłoby nadejść w perspektywie lat, a nie dziesięcioleci.

„Taka klasa technologii nigdy wcześniej nie istniała, a mimo to uważam, że to może się zdarzyć w ciągu najbliższych dwóch lat, a być może wcześniej,” powiedział Clark podczas wykładu w Londynie w zeszłym miesiącu.

Wyzwanie spowolnienia AI

Anthropic przyznaje, że każdy wysiłek mający na celu wstrzymanie lub spowolnienie rozwoju AI zadziałałby tylko wtedy, gdy zaangażowani byliby główni gracze.

Firma zaproponowała więc rozważenie międzynarodowych porozumień i mechanizmów weryfikacyjnych mających zapewnić zgodność.

Przyznała jednak także, że monitorowanie rozwoju AI może być znacznie trudniejsze niż egzekwowanie tradycyjnych porozumień o kontroli zbrojeń.

„Sesje treningowe są znacznie łatwiejsze do ukrycia niż silosy rakietowe,” zauważono we wpisie na blogu.

Firma ostrzegła, że każdy podmiot kontynuujący rozwój podczas gdy konkurenci wstrzymują działania, mógłby uzyskać znaczącą przewagę, co czyni koordynację wyjątkowo trudną.

Na razie Anthropic planuje organizować dyskusje z decydentami, badaczami i liderami branży, by zbadać, jak powinno się badać rekurencyjne samodoskonalenie i czy mechanizmy skoordynowanych spowolnień mogłyby być kiedykolwiek praktyczne.

Rekurencyjne samodoskonalenie: dlaczego Anthropic chce spowolnić rozwój AI

Co oznacza rekurencyjne samodoskonalenie

Dlaczego badacze widzą ryzyka

OpenAI powtarza podobne obawy

Ostrzeżenie w czasie boomu AI

Krytycy kwestionują motywy Anthropic

Branża podzielona co do przyszłości AI

Wyzwanie spowolnienia AI

Akcje SpaceX nadal spadają w poniedziałek: kupować, sprzedawać czy trzymać?

Rząd Wielkiej Brytanii wspiera startup AI CuspAI w rundzie $450M

AI stworzy więcej miejsc pracy — mówi dr Richard Peterson, założyciel MarketPsych

Moonshot AI wstrzymuje subskrypcje Kimi K3 z powodu przeciążenia mocy obliczeniowej

Kimi K3: największy jak dotąd otwarty projekt AI Moonshot