تكشف DeepSeek عن طريقة تدريب فعالة على الذكاء الاصطناعي بينما تحاول الصين التغلب على قيود الشرائح

أصدرت شركة ديب سيك الناشئة الصينية في مجال الذكاء الاصطناعي بحثا جديدا يكشف كيف يتكيف مطورو الذكاء الاصطناعي الصينيون مع قيود الأجهزة مع مواصلة دفع أداء النماذج إلى الأمام.

توضح الورقة طريقة أكثر كفاءة لتدريب أنظمة الذكاء الاصطناعي المتقدمة، مع تسليط الضوء على كيفية تجاوز الشركات الصينية للقيود المفروضة بسبب الوصول المحدود إلى الشرائح من الفئة العليا.

يأتي هذا المنشور في وقت تتصاعد فيه المنافسة بين شركات الذكاء الاصطناعي الصينية والقادة العالميين مثل OpenAI.

مع تقييد الوصول إلى أشباه الموصلات الأكثر تقدما، تتجه الشركات الناشئة الصينية بشكل متزايد إلى الابتكار على مستوى العمارة والبرمجيات.

يقدم أحدث أعمال DeepSeek نافذة على كيفية تشكيل هذه القيود للجيل القادم من تطوير الذكاء الاصطناعي.

نهج مختلف لكفاءة الذكاء الاصطناعي

في مركز البحث يوجد إطار يسمى الاتصالات الفائقة المقيدة بعدة أبعاد.

تم تصميم هذه التقنية لتحسين كيفية تكبير نماذج الذكاء الاصطناعي الكبيرة مع تقليل الحمل الحسابي واستهلاك الطاقة أثناء التدريب.

تتناول الأبحاث أيضا قضايا مثل عدم استقرار التدريب، والتي غالبا ما تصبح أكثر وضوحا مع نمو النماذج.

يساعد هذا الاختراق الأخير نماذج اللغة على مشاركة المزيد من المعلومات الداخلية بطريقة مضبوطة مع الحفاظ على الاستقرار والكفاءة حتى عندما تكون النماذج أكبر.

البحث كإشارة لما سيأتي بعد ذلك

لطالما كانت الأوراق الفنية لشركة DeepSeek مؤشرا مبكرة على المنتجات القادمة.

قبل حوالي عام، جذبت الشركة الانتباه في جميع أنحاء الصناعة من خلال نموذج التفكير R1، الذي تم تطويره بتكلفة أقل بكثير من الأنظمة المماثلة التي بنتها شركات وادي السيليكون.

كانت الشركة قد أصدرت أبحاث التدريب الأساسية قبل إطلاق R1.

منذ ذلك الحين، أصدرت DeepSeek عدة منصات أصغر، مع الحفاظ على وتيرة ثابتة من التجارب.

الترقب الآن يتصاعد حول نظامها الرئيسي القادم، المعروف على نطاق واسع باسم R2، ومن المتوقع وصوله في مهرجان الربيع في فبراير.

ورغم أن الورقة الجديدة لا تشير صراحة إلى هذا النموذج، إلا أن توقيته وعمقه غذيا التوقعات بأنه يدعم الإصدارات المستقبلية.

الابتكار تحت القيود الخارجية

تستمر ضوابط التصدير الأمريكية في منع الشركات الصينية من الوصول إلى أشباه الموصلات الأكثر تقدما المستخدمة في تدريب وتشغيل الذكاء الاصطناعي المتطور.

أصبحت هذه القيود عاملا حاسما في استراتيجية الذكاء الاصطناعي الصينية، مما يشجع الشركات على استكشاف هياكل نماذج غير تقليدية وتصاميم مدفوعة بالكفاءة.

تتماشى أبحاث DeepSeek تماما مع هذا الاتجاه.

من خلال التركيز على قابلية التوسع وتحسين البنية التحتية، تحاول الشركة تقليص فجوة الأداء مع المنافسين العالميين دون مطابقة ميزانيات أجهزتهم المتاحة.

نشرت الورقة هذا الأسبوع على مستودع الأبحاث المفتوح arXiv ومنصة Hugging Face مفتوحة المصدر.

يسرد 19 مؤلفا، مع تسمية المؤسس ليانغ وينفنغ في النهاية.

لطالما وجه ليانغ أجندة البحث في DeepSeek، مشجعا الفرق على إعادة التفكير في كيفية بناء أنظمة الذكاء الاصطناعي واسعة النطاق.

أجريت الاختبارات الموصوفة في الورقة على نماذج تتراوح بين 3 مليارات إلى 27 مليار معلم.

يبني العمل أيضا على أبحاث هندسة الاتصال الفائق التي نشرتها ByteDance في عام 2024.

تكشف DeepSeek عن طريقة تدريب فعالة على الذكاء الاصطناعي بينما تحاول الصين التغلب على قيود الشرائح

نهج مختلف لكفاءة الذكاء الاصطناعي

البحث كإشارة لما سيأتي بعد ذلك

الابتكار تحت القيود الخارجية

نيويورك توقف تطوير مراكز بيانات كبيرة بفرض حظر مؤقت لمدة عام

لماذا سهم Nio يرتفع في التداولات المسبقة اليوم

عقود وول ستريت الآجلة متقلبة اليوم: 5 أمور قبل فتح السوق

أهم سببيْن لصعود سهم Watches of Switzerland

قفزة سعر Injective 5%: هل تدفع قمة واشنطن INJ إلى $6؟