NVIDIA memperkenalkan NeMo-RL, sebuah pustaka sumber terbuka untuk pembelajaran penguatan, yang memungkinkan pelatihan yang dapat diskalakan dengan GRPO dan integrasi dengan model Hugging Face.
NVIDIA telah meluncurkan NeMo-RL, sebuah pustaka sumber terbuka mutakhir yang dirancang untuk meningkatkan kemampuan pembelajaran penguatan (RL), menurut blog resmi NVIDIA. Pustaka ini mendukung pelatihan model yang dapat diskalakan, mulai dari prototipe satu GPU hingga penyebaran ribuan GPU yang besar, dan terintegrasi dengan mulus dengan kerangka kerja populer seperti Hugging Face.
Arsitektur dan Fitur NeMo-RL
NeMo-RL adalah bagian dari NVIDIA NeMo Framework yang lebih luas, dikenal karena fleksibilitas dan kemampuan kinerja tinggi. Perpustakaan ini mencakup integrasi asli dengan model Hugging Face, pelatihan yang dioptimalkan, dan proses inferensi. Ini mendukung algoritma RL populer seperti DPO dan GRPO serta menggunakan orkestra berbasis Ray untuk efisiensi.
Arsitektur NeMo-RL dirancang dengan fleksibilitas dalam pikiran. Ini mendukung berbagai backend pelatihan dan rollout, memastikan bahwa implementasi algoritma tingkat tinggi tetap tidak terikat pada spesifikasi backend. Desain ini memungkinkan penskalaan model yang mulus tanpa perlu modifikasi kode algoritma, menjadikannya ideal untuk penerapan skala kecil maupun besar.
Mengimplementasikan DeepScaleR dengan GRPO
Post blog ini mengeksplorasi aplikasi NeMo-RL untuk mereproduksi resep DeepScaleR-1.5B menggunakan algoritma Group Relative Policy Optimization (GRPO). Ini melibatkan pelatihan model penalaran berkinerja tinggi, seperti Qwen-1.5B, untuk bersaing dengan tolok ukur O1 OpenAI pada tantangan matematika akademik AIME24.
Proses pelatihan disusun dalam tiga langkah, masing-masing meningkatkan panjang urutan maksimum yang digunakan: dimulai dari 8K, kemudian 16K, dan akhirnya 24K. Peningkatan bertahap ini membantu mengelola distribusi panjang urutan rollout, mengoptimalkan proses pelatihan.
Proses Pelatihan dan Evaluasi
Pengaturan pelatihan melibatkan pengklonan repositori NeMo-RL dan pemasangan paket-paket yang diperlukan. Pelatihan dilakukan dalam fase, dengan model dievaluasi secara terus menerus untuk memastikan tolok ukur kinerja tercapai. Hasilnya menunjukkan bahwa NeMo-RL mencapai hadiah pelatihan sebesar 0,65 hanya dalam 400 langkah.
Evaluasi pada benchmark AIME24 menunjukkan bahwa model yang dilatih melampaui OpenAI O1, menyoroti efektivitas NeMo-RL ketika digabungkan dengan algoritma GRPO.
Memulai dengan NeMo-RL
NeMo-RL tersedia untuk penggunaan sumber terbuka, menyediakan dokumentasi rinci dan skrip contoh di repositori GitHub-nya. Sumber daya ini ideal bagi mereka yang ingin bereksperimen dengan pembelajaran penguatan menggunakan metode yang dapat diskalakan dan efisien.
Integrasi perpustakaan dengan Hugging Face dan desain modularnya menjadikannya alat yang kuat bagi peneliti dan pengembang yang ingin memanfaatkan teknik RL canggih dalam proyek mereka.
Sumber gambar: Shutterstock
Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
NVIDIA NeMo-RL Memanfaatkan GRPO untuk Pembelajaran Penguatan Lanjutan
Peter Zhang
10 Jul 2025 06:07
NVIDIA memperkenalkan NeMo-RL, sebuah pustaka sumber terbuka untuk pembelajaran penguatan, yang memungkinkan pelatihan yang dapat diskalakan dengan GRPO dan integrasi dengan model Hugging Face.
NVIDIA telah meluncurkan NeMo-RL, sebuah pustaka sumber terbuka mutakhir yang dirancang untuk meningkatkan kemampuan pembelajaran penguatan (RL), menurut blog resmi NVIDIA. Pustaka ini mendukung pelatihan model yang dapat diskalakan, mulai dari prototipe satu GPU hingga penyebaran ribuan GPU yang besar, dan terintegrasi dengan mulus dengan kerangka kerja populer seperti Hugging Face.
Arsitektur dan Fitur NeMo-RL
NeMo-RL adalah bagian dari NVIDIA NeMo Framework yang lebih luas, dikenal karena fleksibilitas dan kemampuan kinerja tinggi. Perpustakaan ini mencakup integrasi asli dengan model Hugging Face, pelatihan yang dioptimalkan, dan proses inferensi. Ini mendukung algoritma RL populer seperti DPO dan GRPO serta menggunakan orkestra berbasis Ray untuk efisiensi.
Arsitektur NeMo-RL dirancang dengan fleksibilitas dalam pikiran. Ini mendukung berbagai backend pelatihan dan rollout, memastikan bahwa implementasi algoritma tingkat tinggi tetap tidak terikat pada spesifikasi backend. Desain ini memungkinkan penskalaan model yang mulus tanpa perlu modifikasi kode algoritma, menjadikannya ideal untuk penerapan skala kecil maupun besar.
Mengimplementasikan DeepScaleR dengan GRPO
Post blog ini mengeksplorasi aplikasi NeMo-RL untuk mereproduksi resep DeepScaleR-1.5B menggunakan algoritma Group Relative Policy Optimization (GRPO). Ini melibatkan pelatihan model penalaran berkinerja tinggi, seperti Qwen-1.5B, untuk bersaing dengan tolok ukur O1 OpenAI pada tantangan matematika akademik AIME24.
Proses pelatihan disusun dalam tiga langkah, masing-masing meningkatkan panjang urutan maksimum yang digunakan: dimulai dari 8K, kemudian 16K, dan akhirnya 24K. Peningkatan bertahap ini membantu mengelola distribusi panjang urutan rollout, mengoptimalkan proses pelatihan.
Proses Pelatihan dan Evaluasi
Pengaturan pelatihan melibatkan pengklonan repositori NeMo-RL dan pemasangan paket-paket yang diperlukan. Pelatihan dilakukan dalam fase, dengan model dievaluasi secara terus menerus untuk memastikan tolok ukur kinerja tercapai. Hasilnya menunjukkan bahwa NeMo-RL mencapai hadiah pelatihan sebesar 0,65 hanya dalam 400 langkah.
Evaluasi pada benchmark AIME24 menunjukkan bahwa model yang dilatih melampaui OpenAI O1, menyoroti efektivitas NeMo-RL ketika digabungkan dengan algoritma GRPO.
Memulai dengan NeMo-RL
NeMo-RL tersedia untuk penggunaan sumber terbuka, menyediakan dokumentasi rinci dan skrip contoh di repositori GitHub-nya. Sumber daya ini ideal bagi mereka yang ingin bereksperimen dengan pembelajaran penguatan menggunakan metode yang dapat diskalakan dan efisien.
Integrasi perpustakaan dengan Hugging Face dan desain modularnya menjadikannya alat yang kuat bagi peneliti dan pengembang yang ingin memanfaatkan teknik RL canggih dalam proyek mereka.
Sumber gambar: Shutterstock