تستخدم NVIDIA NeMo-RL GRPO للتعلم المعزز المتقدم

robot
إنشاء الملخص قيد التقدم

بيتر زانغ

10 يوليو 2025 06:07

تقدم NVIDIA NeMo-RL، مكتبة مفتوحة المصدر لتعلم التعزيز، مما يتيح التدريب القابل للتوسع باستخدام GRPO والتكامل مع نماذج Hugging Face.

كشفت NVIDIA النقاب عن NeMo-RL، مكتبة مفتوحة المصدر متطورة مصممة لتعزيز قدرات التعلم المعزز (RL)، وفقًا لمدونة NVIDIA الرسمية. تدعم المكتبة تدريب النماذج القابلة للتوسع، بدءًا من نماذج أحادية GPU إلى نشرات ضخمة تحتوي على آلاف وحدات GPU، وتتكامل بسلاسة مع الأطر الشائعة مثل Hugging Face.

بنية وميزات NeMo-RL

NeMo-RL هو جزء من إطار عمل NVIDIA NeMo الأوسع، المعروف بتنوعه وقدراته العالية الأداء. تتضمن المكتبة تكاملًا أصليًا مع نماذج Hugging Face، وتدريبًا مُحسّنًا، وعمليات استدلال. يدعم خوارزميات التعلم المعزز الشهيرة مثل DPO و GRPO ويستخدم تنظيمًا قائمًا على Ray من أجل الكفاءة.

تم تصميم بنية NeMo-RL مع مراعاة المرونة. إنها تدعم مجموعة متنوعة من واجهات تدريب ونشر، مما يضمن أن تظل تطبيقات الخوارزمية عالية المستوى غير متعلقة بتفاصيل الواجهة الخلفية. يسمح هذا التصميم بتوسيع النماذج بسلاسة دون الحاجة إلى تعديلات على كود الخوارزمية، مما يجعله مثاليًا للنشر على نطاق صغير وكبير.

تنفيذ DeepScaleR مع GRPO

تستكشف المدونة تطبيق NeMo-RL لإعادة إنتاج وصفة DeepScaleR-1.5B باستخدام خوارزمية تحسين السياسة النسبية الجماعية (GRPO). يتضمن ذلك تدريب نماذج التفكير عالية الأداء، مثل Qwen-1.5B، للتنافس مع معيار O1 من OpenAI في تحدي الرياضيات الأكاديمية AIME24.

تتم هيكلة عملية التدريب في ثلاث خطوات، حيث يزيد كل منها من الحد الأقصى لطول التسلسل المستخدم: بدءًا من 8K، ثم 16K، وأخيرًا 24K. يساعد هذا الزيادة التدريجية في إدارة توزيع أطوال تسلسل الإطلاق، مما يُحسن عملية التدريب.

عملية التدريب والتقييم

تتضمن إعدادات التدريب استنساخ مستودع NeMo-RL وتثبيت الحزم اللازمة. يتم إجراء التدريب على مراحل، حيث يتم تقييم النموذج باستمرار لضمان تحقيق معايير الأداء. أظهرت النتائج أن NeMo-RL حقق مكافأة تدريب تبلغ 0.65 في 400 خطوة فقط.

أظهرت التقييمات على معيار AIME24 أن النموذج المدرب تفوق على OpenAI O1، مما يبرز فعالية NeMo-RL عند دمجه مع خوارزمية GRPO.

البدء مع NeMo-RL

نيمو-آر إل متاح للاستخدام مفتوح المصدر، حيث يوفر وثائق مفصلة ونماذج برمجية على مستودع GitHub الخاص به. هذه الموارد مثالية للذين يتطلعون إلى تجربة التعلم المعزز باستخدام طرق قابلة للتوسع وفعالة.

تجعل تكامل المكتبة مع Hugging Face وتصميمها المودولي منها أداة قوية للباحثين والمطورين الذين يسعون إلى الاستفادة من تقنيات التعلم المعزز المتقدمة في مشاريعهم.

مصدر الصورة: Shutterstock

شاهد النسخة الأصلية
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت