DeepSeek revela método eficiente de treinamento em IA enquanto a China tenta superar as limitações de chips

A startup chinesa de inteligência artificial DeepSeek lançou uma nova pesquisa que lança luz sobre como desenvolvedores chineses de IA estão se adaptando às limitações de hardware enquanto continuam impulsionando o desempenho dos modelos.

O artigo apresenta um método mais eficiente para treinar sistemas avançados de IA, destacando como as empresas chinesas estão contornando os limites impostos pelo acesso restrito a chips de ponta.

A publicação surge em um momento em que a competição se intensifica entre empresas chinesas de IA e líderes globais como a OpenAI.

Com o acesso aos semicondutores mais avançados restringido, startups chinesas estão cada vez mais voltadas para inovação arquitetônica e de software.

O trabalho mais recente da DeepSeek oferece uma janela para como essas limitações estão moldando a próxima geração de desenvolvimento de IA.

Uma abordagem diferente para a eficiência da IA

No centro da pesquisa está um framework chamado Manifold-Constraints Hyper-Connections.

A técnica foi projetada para melhorar a escala de grandes modelos de IA, reduzindo tanto a carga computacional quanto o consumo de energia durante o treinamento.

A pesquisa também aborda questões como instabilidade no treinamento, que frequentemente se torna mais pronunciada à medida que os modelos crescem.

O avanço mais recente ajuda os modelos de linguagem a compartilhar mais informações internas de forma controlada, mantendo a estabilidade e a eficiência mesmo quando os modelos são ampliados.

Pesquisa como um sinal do que vem a seguir

Os artigos técnicos da DeepSeek historicamente serviram como indicadores iniciais dos produtos futuros.

Há cerca de um ano, a empresa chamou atenção em toda a indústria com seu modelo de raciocínio R1, desenvolvido a um custo significativamente menor do que sistemas comparáveis construídos por empresas do Vale do Silício.

A empresa havia lançado pesquisas fundamentais de treinamento antes do lançamento do R1.

Desde então, a DeepSeek lançou várias plataformas menores, mantendo um ritmo constante de experimentação.

A expectativa está crescendo em torno de seu próximo sistema principal, amplamente chamado de R2, e esperado para o Festival da Primavera em fevereiro.

Embora o novo artigo não faça referência explícita a esse modelo, seu momento e profundidade alimentaram as expectativas de que ele sustente futuros lançamentos.

Inovação sob restrições externas

Os controles de exportação dos EUA continuam impedindo empresas chinesas de acessar os semicondutores mais avançados usados para treinar e operar IA de ponta.

Essas restrições se tornaram um fator definidor na estratégia de IA da China, incentivando as empresas a explorar arquiteturas de modelos não convencionais e designs orientados para eficiência.

A pesquisa da DeepSeek se encaixa perfeitamente nessa tendência.

Ao focar na escalabilidade e otimização de infraestrutura, a empresa está tentando reduzir a diferença de desempenho com concorrentes globais sem igualar seus orçamentos de hardware.

O artigo foi publicado esta semana no repositório aberto de pesquisa arXiv e na plataforma de código aberto Hugging Face.

Lista 19 autores, sendo o fundador Liang Wenfeng o nome final.

Liang tem conduzido consistentemente a agenda de pesquisa da DeepSeek, incentivando as equipes a repensar como sistemas de IA em grande escala são construídos.

Os testes descritos no artigo foram realizados em modelos que variam de 3 bilhões a 27 bilhões de parâmetros.

O trabalho também se baseia em pesquisas de arquitetura de hiperconexão publicadas pela ByteDance em 2024.

DeepSeek revela método eficiente de treinamento em IA enquanto a China tenta superar as limitações de chips

Uma abordagem diferente para a eficiência da IA

Pesquisa como um sinal do que vem a seguir

Inovação sob restrições externas

Nova York suspende construção de grandes centros de dados por um ano

Por que as ações da SpaceX caem mais de 4% nesta segunda-feira

Por que a Apple processou a OpenAI: tudo sobre o processo por segredos comerciais de IA

Ação da Netflix despenca antes do balanço: pechincha ou armadilha de valor?

Por que as ações da SpaceX caíram mais de 2% na sexta-feira