ملخص
تشهد النماذج الأساسية عبر مختلف المجالات نموًا سريعًا، مما يستلزم التوسع المستمر لتحسين الأداء. ومع ذلك، فإن تدريب نماذج اللغات الكبيرة (LLMs) لا يتطلب موارد كبيرة فحسب، بل يعتمد أيضًا على نظام قوي ويمكن الاعتماد عليه لضمان عملية تدريب فعالة.
يواجه مهندسو الخوارزميات العديد من التحديات عند تدريب طلاب LLM واقعيين، بما في ذلك تعطل الخادم، وفشل الأجهزة، ومشكلات توافق البرامج، وأخطاء الاتصال بالشبكة، وحالات التوقف غير المعروفة. تؤدي حالات الفشل هذه إلى فقدان مخرجات التدريب وتتطلب عمليات إعادة تشغيل متعددة، مما يستهلك وقتًا وموارد إضافية. على سبيل المثال، يتطلب إطلاق عملية التدريب لنموذج 175B في بيئة موزعة عدة ساعات، مما يشغل جزءًا كبيرًا من إجمالي مرحلة التدريب، الأمر الذي يجده العديد من الباحثين مرهقًا ماليًا.
لذلك، فإن إنشاء نظام أساسي قوي ويمكن الاعتماد عليه لدعم دورة حياة تطوير LLM بأكملها ليس أمرًا معقدًا وصعبًا فحسب، بل إنه مطلوب أيضًا بشكل عاجل.
يهدف المشروع إلى استكشاف وتطوير إطار تعلم عميق مرن، والتحقق من أساسه العلمي، لتعزيز دورة حياة تطوير LLM، مع التركيز بشكل خاص على وجهات نظر تجاوز الفشل. تم تصميم النظام لتحمل أي حادث أو فشل لأي عامل دون التأثير على تنفيذه بشكل عام. تعمل عملية تجاوز الفشل التلقائية، التي تتسم بالشفافية لمستخدمي المستوى الأعلى، على إعادة التشغيل وإعادة تهيئة العمال الفاشلين بكفاءة استنادًا إلى الحالات الناعمة أو الصلبة. ونظرًا لحداثة هذا البحث، يتم تشجيع الطلاب ودعمهم لنشر الأبحاث الرائدة في مؤتمرات رفيعة المستوى وحتى استكشاف براءات الاختراع التقنية للشركات الناشئة المحتملة.
