Invezz

DeepSeek mendedahkan kaedah latihan AI yang cekap ketika China cuba mengalahkan sekatan cip

DeepSeek mendedahkan kaedah latihan AI yang cekap ketika China cuba mengalahkan sekatan cip
Diya Poddar
02 Jan 2026, 16:13 PTG
  • DeepSeek melancarkan kaedah latihan AI baharu yang meningkatkan prestasi walaupun akses terhad kepada cip lanjutan.
  • Penyelidikan menunjukkan bagaimana firma AI China menggunakan perisian dan seni bina untuk mengimbangi kekangan perkakasan.
  • Kertas kerja DeepSeek menandakan kemajuan ke arah model perdana seterusnya.

Permulaan kecerdasan buatan China DeepSeek telah mengeluarkan penyelidikan baharu yang menjelaskan cara pembangun AI China menyesuaikan diri dengan kekangan perkakasan sambil terus mendorong prestasi model ke hadapan.

Kertas kerja itu menggariskan kaedah yang lebih cekap untuk melatih sistem AI lanjutan, menyerlahkan cara firma China bekerja di sekitar had yang dikenakan oleh akses terhad kepada cip peringkat teratas.

Penerbitan itu datang ketika persaingan semakin sengit antara syarikat AI China dan pemimpin global seperti OpenAI.

Dengan akses kepada semikonduktor paling canggih dihadkan, syarikat permulaan China semakin beralih kepada inovasi peringkat seni bina dan perisian.

Kerja terbaharu DeepSeek menawarkan tetingkap tentang cara kekangan tersebut membentuk pembangunan AI generasi akan datang.

Pendekatan yang berbeza untuk kecekapan AI

Di tengah-tengah penyelidikan ialah rangka kerja yang dipanggil Manifold-Constrained Hyper-Connections.

Teknik ini direka untuk menambah baik cara model AI besar berskala sambil mengurangkan kedua-dua beban pengiraan dan penggunaan tenaga semasa latihan.

Penyelidikan ini juga menangani isu seperti ketidakstabilan latihan, yang sering menjadi lebih ketara apabila model semakin besar.

Kejayaan terkini membantu model bahasa berkongsi lebih banyak maklumat dalaman dengan cara yang terkawal sambil mengekalkan kestabilan dan kecekapan walaupun model diskalakan lebih besar.

Penyelidikan sebagai isyarat apa yang akan berlaku seterusnya

Kertas teknikal DeepSeek secara historis berfungsi sebagai penunjuk awal produk yang akan datang.

Kira-kira setahun yang lalu, syarikat itu menarik perhatian di seluruh industri dengan model penaakulan R1nya, yang dibangunkan pada kos yang jauh lebih rendah daripada sistem setanding yang dibina oleh firma Silicon Valley.

Syarikat itu telah mengeluarkan penyelidikan latihan asas menjelang pelancaran R1.

Sejak itu, DeepSeek telah mengeluarkan beberapa platform yang lebih kecil, mengekalkan kadar percubaan yang stabil.

Jangkaan kini dibina di sekitar sistem perdana seterusnya, yang dirujuk secara meluas sebagai R2, dan dijangka sekitar Festival Musim Bunga pada bulan Februari.

Walaupun kertas kerja baharu itu tidak secara eksplisit merujuk model ini, masa dan kedalamannya telah menyemarakkan jangkaan bahawa ia menyokong keluaran masa hadapan.

Inovasi di bawah kekangan luaran

Kawalan eksport AS terus menghalang syarikat China daripada mengakses semikonduktor paling canggih yang digunakan untuk melatih dan menjalankan AI canggih.

Sekatan ini telah menjadi faktor penentu dalam strategi AI China, menggalakkan firma meneroka seni bina model yang tidak konvensional dan reka bentuk dipacu kecekapan.

Penyelidikan DeepSeek sesuai dengan trend ini.

Dengan memfokuskan pada kebolehskalaan dan pengoptimuman infrastruktur, syarikat itu cuba mengecilkan jurang prestasi dengan pesaing global tanpa memadankan belanjawan perkakasan mereka.

Kertas kerja itu diterbitkan minggu ini di repositori penyelidikan terbuka arXiv dan platform sumber terbuka Hugging Face.

Ia menyenaraikan 19 pengarang, dengan pengasas Liang Wenfeng dinamakan terakhir.

Liang secara konsisten membimbing agenda penyelidikan DeepSeek, menggalakkan pasukan untuk memikirkan semula cara sistem AI berskala besar dibina.

Ujian yang diterangkan dalam kertas itu dijalankan pada model antara 3 bilion hingga 27 bilion parameter.

Kerja ini juga dibina berdasarkan penyelidikan seni bina hiper-sambungan yang diterbitkan oleh ByteDance pada 2024.