DeepSeek revela un método eficiente de entrenamiento en IA mientras China intenta superar los límites de los chips

La startup china de inteligencia artificial DeepSeek ha publicado una nueva investigación que arroja luz sobre cómo los desarrolladores chinos de IA se están adaptando a las limitaciones del hardware mientras continúan impulsando el rendimiento de los modelos.

El documento describe un método más eficiente para entrenar sistemas avanzados de IA, destacando cómo las empresas chinas están sorteando los límites impuestos por el acceso restringido a chips de primer nivel.

La publicación llega en un momento en que la competencia se intensifica entre las empresas chinas de IA y líderes globales como OpenAI.

Con el acceso restringido a los semiconductores más avanzados, las startups chinas recurren cada vez más a la innovación arquitectónica y de software.

El último trabajo de DeepSeek ofrece una ventana a cómo esas limitaciones están moldeando la próxima generación del desarrollo de la IA.

Un enfoque diferente para la eficiencia de la IA

En el centro de la investigación hay un marco llamado Conexiones Hiper-Restringidas por Variedad.

La técnica está diseñada para mejorar cómo escalan los grandes modelos de IA, reduciendo tanto la carga computacional como el consumo de energía durante el entrenamiento.

La investigación también aborda cuestiones como la inestabilidad del entrenamiento, que a menudo se vuelve más pronunciada a medida que los modelos crecen.

El último avance ayuda a los modelos de lenguaje a compartir más información interna de forma controlada, manteniendo la estabilidad y eficiencia incluso cuando los modelos se escalan a mayor tamaño.

Investigación como señal de lo que viene después

Los documentos técnicos de DeepSeek han servido históricamente como indicadores tempranos de los próximos productos.

Hace aproximadamente un año, la empresa llamó la atención en toda la industria con su modelo de razonamiento R1, que se desarrolló a un coste significativamente inferior al de sistemas comparables fabricados por empresas de Silicon Valley.

La empresa había publicado investigaciones fundamentales de formación antes del lanzamiento de R1.

Desde entonces, DeepSeek ha lanzado varias plataformas más pequeñas, manteniendo un ritmo constante de experimentación.

La expectación está aumentando ahora en torno a su próximo sistema insignia, ampliamente conocido como R2, y que se espera alrededor del Festival de Primavera en febrero.

Aunque el nuevo artículo no hace referencia explícita a este modelo, su momento y profundidad han alimentado las expectativas de que respalde futuras publicaciones.

Innovación bajo limitaciones externas

Los controles de exportación estadounidenses siguen impidiendo que las empresas chinas accedan a los semiconductores más avanzados utilizados para entrenar y ejecutar IA de vanguardia.

Estas restricciones se han convertido en un factor definitorio en la estrategia de IA de China, animando a las empresas a explorar arquitecturas de modelos no convencionales y diseños orientados a la eficiencia.

La investigación de DeepSeek encaja perfectamente en esta tendencia.

Al centrarse en la escalabilidad y la optimización de infraestructuras, la empresa intenta reducir la brecha de rendimiento con competidores globales sin igualar sus presupuestos de hardware.

El artículo se publicó esta semana en el repositorio de investigación abierto arXiv y en la plataforma de código abierto Hugging Face.

Enumera 19 autores, siendo el fundador Liang Wenfeng el último nombre.

Liang ha guiado de forma constante la agenda de investigación de DeepSeek, animando a los equipos a replantearse cómo se construyen los sistemas de IA a gran escala.

Las pruebas descritas en el artículo se realizaron en modelos que iban desde 3.000 a 27.000 millones de parámetros.

El trabajo también se basa en una investigación de arquitectura de hiperconexión publicada por ByteDance en 2024.

DeepSeek revela un método eficiente de entrenamiento en IA mientras China intenta superar los límites de los chips

Un enfoque diferente para la eficiencia de la IA

Investigación como señal de lo que viene después

Innovación bajo limitaciones externas

Nueva York suspende el desarrollo de grandes centros de datos con moratoria de un año

Por qué las acciones de SpaceX caen más del 4% el lunes

Por qué Apple demandó a OpenAI: todo sobre la demanda por secretos comerciales de IA

Acciones de Netflix se desploman antes de resultados: ¿una ganga o una trampa de valor?

Por qué las acciones de SpaceX caen más del 2% el viernes