DeepSeek ujawnia efektywną metodę szkolenia AI, podczas gdy Chiny próbują obejść ograniczenia dotyczące chipów

Chiński startup zajmujący się sztuczną inteligencją DeepSeek opublikował nowe badania, które rzucają światło na to, jak chińscy twórcy AI dostosowują się do ograniczeń sprzętowych, jednocześnie kontynuując rozwój wydajności modeli.

Artykuł przedstawia bardziej efektywną metodę szkolenia zaawansowanych systemów AI, podkreślając, jak chińskie firmy radzą sobie z ograniczeniami narzuconymi przez ograniczony dostęp do topowych układów scalonych.

Publikacja pojawia się w momencie, gdy rywalizacja między chińskimi firmami AI a światowymi liderami, takimi jak OpenAI, się zaostrza.

W związku z ograniczonym dostępem do najbardziej zaawansowanych półprzewodników, chińskie startupy coraz częściej sięgają po innowacje architektoniczne i programistyczne.

Najnowsza praca DeepSeek daje wgląd w to, jak te ograniczenia kształtują kolejną generację rozwoju AI.

Inne podejście do efektywności AI

W centrum badań znajduje się rama zwana hiperpołączeniami ograniczonymi przez rozmaitość.

Technika ta została zaprojektowana, aby poprawić skalowanie dużych modeli AI, jednocześnie zmniejszając zarówno obciążenie obliczeniowe, jak i zużycie energii podczas treningu.

Badania dotyczą także takich problemów jak niestabilność treningowa, która często staje się bardziej widoczna wraz ze wzrostem modeli do rozmiaru.

Najnowszy przełom pomaga modelom językowym dzielić się większą ilością wewnętrznych informacji w kontrolowany sposób, zachowując stabilność i efektywność nawet przy większym skalowaniu modeli.

Badania jako sygnał tego, co nastąpi dalej

Artykuły techniczne DeepSeek historycznie służyły jako wczesne wskaźniki nadchodzących produktów.

Około rok temu firma zwróciła uwagę branży swoim modelem rozumowania R1, który został opracowany przy znacznie niższych kosztach niż porównywalne systemy produkowane przez firmy z Doliny Krzemowej.

Firma opublikowała podstawowe badania szkoleniowe przed premierą R1.

Od tego czasu DeepSeek wypuściło kilka mniejszych platform, utrzymując stałe tempo eksperymentów.

Obecnie rośnie napięcie wokół kolejnego flagowego systemu, powszechnie nazywanego R2, spodziewanego około Festiwalu Wiosny w lutym.

Chociaż nowy artykuł nie odnosi się wprost do tego modelu, jego termin i szczegółowość wzbudziły oczekiwania, że będzie on podstawą przyszłych premier.

Innowacje w warunkach zewnętrznych

Amerykańskie ograniczenia eksportowe nadal uniemożliwiają chińskim firmom dostęp do najbardziej zaawansowanych półprzewodników używanych do szkolenia i obsługi nowoczesnej sztucznej inteligencji.

Te ograniczenia stały się kluczowym elementem strategii AI w Chinach, zachęcając firmy do eksplorowania niekonwencjonalnych architektur modeli i projektów nastawionych na efektywność.

Badania DeepSeek wpisują się w ten trend.

Skupiając się na skalowalności i optymalizacji infrastruktury, firma stara się zmniejszyć różnicę wydajności względem globalnych konkurentów, nie dopasowując się do ich budżetów sprzętowych.

Artykuł został opublikowany w tym tygodniu na otwartym repozytorium badań arXiv oraz na platformie otwartej Hugging Face.

Na liście wymienia 19 autorów, a założyciel Liang Wenfeng został wymieniony na końcu.

Liang konsekwentnie kierował agendą badawczą DeepSeek, zachęcając zespoły do przemyślenia sposobu budowy systemów AI na dużą skalę.

Testy opisane w artykule przeprowadzono na modelach o objętości od 3 miliardów do 27 miliardów parametrów.

Prace opierają się również na badaniach nad architekturą hiper-połączeń opublikowanych przez ByteDance w 2024 roku.

DeepSeek ujawnia efektywną metodę szkolenia AI, podczas gdy Chiny próbują obejść ograniczenia dotyczące chipów

Inne podejście do efektywności AI

Badania jako sygnał tego, co nastąpi dalej

Innowacje w warunkach zewnętrznych

Nowy Jork wstrzymuje budowę dużych centrów danych — roczne moratorium

Dlaczego akcje SpaceX spadają ponad 4% w poniedziałek

Dlaczego Apple pozwało OpenAI: wszystko o pozwie o tajemnice handlowe w AI

Akcje Netflix spadły przed wynikami: okazja czy pułapka wartości?

Dlaczego akcje SpaceX w piątek spadły o ponad 2%