Penambahbaikan kendiri berulang: Mengapa Anthropic mahu memperlahankan pembangunan AI

dikuasakan oleh

Anthropic (private) / premium keselamatan AI

Beli: Pendedahan kepada Anthropic melalui laluan IPO/sekunder yang kemungkinan (contohnya, peruntukan IPO atau proksi cecair seperti penerima manfaat keselamatan AI/komputasi). Rasional: Anthropic menggalakkan dasar “perlahan/henti” sambil masih berkembang pesat—ini mewujudkan parit yang mampan jika pengawal selia dan pembeli memberi ganjaran kepada firma yang mempunyai rangka kerja keselamatan dan ekosistem penilaian yang kredibel. Pasaran akan terus membayar untuk “kebenaran untuk beroperasi” apabila pengawasan berkembang.

Risiko utama: Tindak balas polisi yang memaparkan dorongan keselamatan Anthropic sebagai bermotifkan kepentingan sendiri, membawa kepada arus lemah sokongan peraturan dan pemermodanan model perbatasan yang lebih cepat.

OpenAI (public proxy) / kepimpinan perbatasan

Jual: Proksi awam berkaitan OpenAI yang bergantung pada naratif “perlumbaan ke kebolehan” (contohnya, syarikat yang penilaiannya paling terikat kepada pecutan model perbatasan segera daripada pematuhan). Rasional: Jika industri beralih ke arah pemantauan, penilaian, dan henti berpotensi, nilai marjinal kepantasan mentah berkurang dan pemenang menjadi mereka yang mempunyai alat tadbir urus dan pengesahan. Itu mampatkan gandaan untuk cerita “lari kebolehan” tulen.

Risiko utama: Pencapaian terobosan yang menjadikan kebimbangan RSI nampak berlebihan, mengembalikan selera pelabur terhadap penskalaan model terpantas dan menaikkan penilaian “perlumbaan.”

Anthropic berkata pembangunan AI mungkin perlu diperlahan apabila sistem menghampiri penambahbaikan kendiri berulang.
Syarikat mencadangkan mekanisme global untuk mengesahkan sebarang perlahan atau henti sementara pembangunan AI pada masa hadapan.
Pengkritik melihat amaran keselamatan sebagai penempatan strategik, manakala penyokong berhujah risikonya adalah sebenar.

Ketika perlumbaan untuk membina sistem kecerdasan buatan yang semakin berkuasa memecut, salah satu pemain utama industri menggesa dunia untuk mempertimbangkan satu kemungkinan yang sehingga baru-baru ini kebanyakannya wujud dalam fiksyen sains: mesin menambah baik diri mereka sendiri tanpa campur tangan manusia.

Anthropic, syarikat AI di sebalik Claude, menyatakan pada Khamis bahawa keupayaan untuk memperlahankan kadar pembangunan AI perbatasan mungkin menjadi berharga apabila teknologi itu menghampiri kebolehan yang boleh mengubah asas masyarakat.

Amaran itu disiarkan dalam catatan blog yang ditulis oleh Marina Favaro, ketua institut penyelidikan dalaman Anthropic, dan pengasas bersama syarikat itu, Jack Clark.

Catatan itu mendedahkan penyelidikan dalaman yang menunjukkan model paling maju syarikat berkembang pesat dan akhirnya boleh bergerak ke arah apa yang dipanggil penyelidik sebagai "penambahbaikan kendiri berulang" — satu senario di mana sistem AI menjadi mampu meningkatkan keupayaan mereka sendiri.

Syarikat itu menegaskan bahawa ambang sedemikian belum dicapai dan mungkin tidak akan pernah dicapai.

Namun, ia berhujah bahawa kemungkinan itu semakin serius sehingga memerlukan persediaan.

"AI yang mampu membina dirinya sendiri akan menjadi perkembangan utama dalam sejarah teknologi—satu yang boleh membawa kebaikan besar bagi dunia dalam sains, penjagaan kesihatan, dan bidang lain," kata catatan itu.

Namun, ia memberi amaran bahawa penambahbaikan kendiri berulang sepenuhnya juga mungkin meningkatkan risiko manusia kehilangan kawalan ke atas sistem AI.

"Jika sistem mampu sepenuhnya membina pengganti mereka sendiri, cara kita mengamankan, memantau, dan membentuk tingkah laku mereka menjadi jauh lebih penting," kata catatan itu.

"Kami percaya adalah baik untuk dunia mempunyai pilihan untuk memperlahankan atau menghentikan sementara pembangunan AI perbatasan untuk membolehkan struktur sosial dan penyelidikan penjajaran (alignment) mengejar kemajuan teknologi," tambahnya.

Apa maksud penambahbaikan kendiri berulang

Penambahbaikan kendiri berulang, sering dipendekkan sebagai RSI, merujuk kepada proses di mana sistem AI menggunakan keupayaan sedia ada untuk memperbaiki dirinya sendiri.

Berbeza dengan perisian konvensional yang hanya berubah apabila pengaturcara manusia mengubah kodnya, sistem AI maju kini sudah boleh menulis perisian, menganalisis keputusan, menguji hipotesis, dan menghasilkan penyelesaian kepada masalah kompleks.

Penyelidik membayangkan sistem masa depan yang mampu mengenal pasti satu masalah, menulis kod untuk menanganinya, menilai hasilnya, belajar daripada keputusan itu, dan kemudian mengulangi proses itu secara berterusan dengan sedikit atau tanpa pengawasan manusia.

Setiap penambahbaikan berpotensi memudahkan penambahbaikan seterusnya, mewujudkan gelung maklum balas yang mempercepat kemajuan.

Walaupun pakar berselisih faham tentang kebarangkalian atau sejauh mana kebolehan sedemikian mungkin berlaku, konsep itu telah menjadi topik utama dalam perbincangan mengenai keselamatan AI maju.

Anthropic memberi amaran bahawa penambahbaikan kendiri berulang "boleh datang lebih awal daripada yang disedari oleh kebanyakan institusi."

Mengapa penyelidik melihat risiko

Kemungkinan sistem yang menambah baik diri sendiri telah menimbulkan kebimbangan dalam kalangan sebahagian ahli akademik dan pembuat dasar kerana ia memperkenalkan cabaran keselamatan dan tadbir urus yang baru.

Menurut Azizi Othman dari Asia e University, sistem yang mampu mengubah kod mereka sendiri boleh menjadi sasaran menarik bagi pelaku berniat jahat.

"Satu sistem yang mengubah kodnya sendiri mungkin dibuat untuk menerima pintu belakang atau arahan tersembunyi melalui urutan serangan yang teliti," kata Othman.

Beliau memberi amaran bahawa sistem sedemikian juga berpotensi melakukan pengubahsuaian bermusuhan terhadap perisian atau infrastruktur lain, mewujudkan risiko keselamatan yang penyelidikan keselamatan AI semasa belum bersedia untuk menanganinya sepenuhnya.

"Pertimbangan ini berhujah untuk menganggap keselamatan RSI sebagai keutamaan penyelidikan pusat, bukan kebimbangan sekunder," kata beliau.

Sastera semasa mengenai mengamankan sistem yang mampu penyesuaian kendiri berulang masih terhad, menurut penyelidik.

OpenAI menggemakan kebimbangan serupa

Anthropic tidak bersendirian menonjolkan penambahbaikan kendiri berulang sebagai cabaran yang berpotensi.

OpenAI, pesaing utama Anthropic, juga menyuarakan isu ini minggu ini sebagai sebahagian daripada agenda dasar awamnya.

Pembuat ChatGPT itu menyeru rangka kerja persekutuan yang akan memperkukuh pengawasan terhadap sistem AI maju dan menyokong pemantauan kemajuan menuju penambahbaikan kendiri berulang.

"Kami juga menyokong tindakan Kongres untuk mewujudkan rangka kerja persekutuan yang komprehensif," kata OpenAI, berhujah bahawa kerajaan AS perlu memperluas usaha penilaian untuk model perbatasan yang paling berkemampuan dan membangunkan ekosistem bebas untuk menilai risiko keselamatan.

"Rangka kerja ini harus menghendaki CAISI melakukan penilaian terhadap model perbatasan yang paling berkemampuan, mengarahkan CAISI untuk mewujudkan ekosistem penilaian bebas, dan mengutamakan pemantauan kemajuan ke arah penambahbaikan kendiri berulang (RSI)," katanya.

Fakta bahawa dua syarikat AI paling berpengaruh di dunia kini secara terbuka membincangkan penambahbaikan kendiri berulang mencadangkan isu itu bergerak dari perdebatan teori ke perbincangan dasar arus perdana.

Amaran ketika perniagaan AI sedang berkembang pesat

Panggilan Anthropic untuk berhati-hati muncul pada masa syarikat itu sendiri mendapat manfaat besar daripada boom AI.

Syarikat itu baru-baru ini melengkapkan pusingan pengumpulan dana yang menilai ia hampir $1 trillion dan telah memfailkan dokumen secara sulit untuk penawaran awam permulaan.

Pertumbuhan hasilnya juga sama dramatik.

Kadar larian hasil tahunan Anthropic dijangka mencapai kira-kira $50 billion menjelang akhir bulan ini, naik daripada $9 billion pada akhir 2025.

Pertumbuhan pesat itu membantu meletakkan syarikat itu sebagai salah satu pencabar terkemuka kepada OpenAI dalam pertempuran untuk keunggulan AI.

Waktu bagi dorongan keselamatan terbarunya itu menyebabkan kritikan daripada beberapa pemerhati yang berhujah bahawa seruan untuk pengawasan yang lebih ketat mungkin menguntungkan pemimpin AI yang mapan dengan menaikkan halangan kepada persaingan.

Pengkritik mempersoalkan motif Anthropic

Anthropic sejak lama menghadapi tuduhan bahawa advokasi keselamatannya boleh memenuhi kepentingan komersial.

Antara pengkritiknya ialah kapitalis teroka David Sacks, penasihat tidak rasmi kepada Presiden Donald Trump, yang menuduh syarikat itu mengejar "agenda tangkapan peraturan" (regulatory capture agenda).

Dalam satu podcast baru-baru ini, Sacks memberi amaran bahawa "agenda tangkapan peraturan" Washington boleh membawa kepada larangan model AI sumber terbuka—sistem yang menawarkan cara yang jauh lebih murah kepada organisasi untuk membina dan menggunakan AI secara dalaman.

Lain-lain mencadangkan bahawa amaran awam tentang sistem AI berkuasa mungkin berfungsi sebagai bentuk pemasaran dengan menyerlahkan tahap kecanggihan teknologi Anthropic.

Keluaran terhad syarikat terhadap model Mythos yang memfokuskan kepada keselamatan siber sering disebut sebagai contoh oleh para skeptik yang percaya mesej keselamatan juga boleh mempamerkan keupayaan produk.

Anthropic menolak kritikan itu dan menegaskan bahawa fokusnya pada keselamatan mendahului boom AI semasa.

Industri yang berbelah bahagi tentang masa depan AI

Perdebatan itu mencerminkan perpecahan yang lebih luas dalam industri AI tentang sejauh mana sistem semasa hampir mencapai kecerdasan setaraf manusia atau kebolehan penambahbaikan kendiri.

Sesetengah penyelidik, termasuk perintis AI dan bekas ketua saintis AI Meta, Yann LeCun, berhujah bahawa model bahasa besar hari ini pada asasnya terhad dan tidak mungkin mencapai kecerdasan mirip manusia.

LeCun berkali-kali menolak ketakutan eksistensial berkaitan AI dan membandingkan sistem semasa dengan tahap kecerdasan seekor kucing daripada seorang manusia.

Lain-lain, termasuk Ketua Pegawai Eksekutif Anthropic Dario Amodei, mengambil pandangan yang jauh lebih berhati-hati.

Amodei memberi amaran bahawa AI maju boleh meningkatkan ketaksamaan dengan ketara, menghapuskan sejumlah besar pekerjaan kerah putih peringkat kemasukan, dan berpotensi mengembangkan tingkah laku membahayakan secara tidak boleh diramalkan.

Jack Clark turut berhujah bahawa penambahbaikan kendiri berulang boleh tiba dalam beberapa tahun, bukannya dekad.

"Kelas teknologi itu tidak pernah wujud sebelum ini, dan saya percaya ia boleh berlaku dalam dua tahun akan datang, dan mungkin lebih awal," kata Clark semasa satu kuliah di London bulan lepas.

Cabaran memperlahankan AI

Anthropic mengakui bahawa sebarang usaha untuk menghentikan sementara atau memperlahankan pembangunan AI hanya akan berkesan jika pemain utama turut serta.

Oleh itu, syarikat itu mencadangkan meneroka perjanjian antarabangsa dan mekanisme pengesahan yang direka untuk memastikan pematuhan.

Walau bagaimanapun, ia juga mengakui bahawa memantau perkembangan AI boleh menjadi jauh lebih sukar berbanding menguatkuasakan perjanjian kawalan senjata tradisional.

"Latihan latihan adalah jauh lebih mudah disembunyikan daripada silo peluru berpandu," catatan blog itu menyatakan.

Syarikat itu memberi amaran bahawa mana-mana pelaku yang meneruskan pembangunan sementara pesaing berhenti seketika boleh mendapat kelebihan ketara, menjadikan koordinasi sangat sukar.

Buət masa ini, Anthropic merancang untuk menganjurkan perbincangan dengan pembuat dasar, penyelidik, dan pemimpin industri untuk meneliti bagaimana penambahbaikan kendiri berulang harus dikaji dan sama ada mekanisme untuk perlahan terkoordinasi boleh praktikal.

Penambahbaikan kendiri berulang: Mengapa Anthropic mahu memperlahankan pembangunan AI

Apa maksud penambahbaikan kendiri berulang

Mengapa penyelidik melihat risiko

OpenAI menggemakan kebimbangan serupa

Amaran ketika perniagaan AI sedang berkembang pesat

Pengkritik mempersoalkan motif Anthropic

Industri yang berbelah bahagi tentang masa depan AI

Cabaran memperlahankan AI

SpaceX terus merosot pada Isnin: beli, jual, atau tahan?

Kerajaan UK sokong syarikat AI British CuspAI dalam pusingan pembiayaan $450 juta

Saya fikir AI akan mencipta lebih banyak pekerjaan, kata Dr Richard Peterson, pengasas MarketPsych

Moonshot AI tangguh langganan Kimi K3 kerana permintaan membebankan kapasiti

Kimi K3 dijelaskan: Di sebalik pertaruhan AI terbuka terbesar Moonshot