NVIDIA NeMo-RL, Gelişmiş Pekiştirmeli Öğrenme için GRPO'yu Kullanıyor

robot
Abstract generation in progress

Peter Zhang

10 Temmuz 2025 06:07

NVIDIA, GRPO ile ölçeklenebilir eğitim sağlayan ve Hugging Face modelleriyle entegrasyon imkanı sunan açık kaynaklı bir pekiştirmeli öğrenme kütüphanesi olan NeMo-RL'yi tanıttı.

NVIDIA, NVIDIA'nin resmi bloguna göre, pekiştirmeli öğrenme (RL) yeteneklerini artırmak için tasarlanmış, son teknoloji açık kaynak kütüphanesi NeMo-RL'yi tanıttı. Kütüphane, tek GPU prototiplerinden, büyük binlerce GPU dağıtımlarına kadar ölçeklenebilir model eğitimi destekler ve Hugging Face gibi popüler çerçevelerle sorunsuz bir şekilde bütünleşir.

NeMo-RL'nin Mimarisi ve Özellikleri

NeMo-RL, çok yönlülüğü ve yüksek performans yetenekleri ile bilinen daha geniş NVIDIA NeMo Çerçevesi'nin bir parçasıdır. Kütüphane, Hugging Face modelleri ile yerel entegrasyon, optimize edilmiş eğitim ve çıkarım süreçlerini içerir. DPO ve GRPO gibi popüler RL algoritmalarını destekler ve verimlilik için Ray tabanlı orkestrasyon kullanır.

NeMo-RL mimarisinin esneklik göz önünde bulundurularak tasarlandığı belirtiliyor. Çeşitli eğitim ve dağıtım altyapılarını destekleyerek, yüksek seviyedeki algoritma uygulamalarının altyapı detaylarına duyarsız kalmasını sağlıyor. Bu tasarım, model ölçeklendirmesinin algoritma kodu değişikliklerine ihtiyaç duymadan sorunsuz bir şekilde yapılmasına olanak tanıyarak, hem küçük ölçekli hem de büyük ölçekli dağıtımlar için ideal hale getiriyor.

DeepScaleR'yi GRPO ile Uygulama

Blog yazısı, NeMo-RL uygulamasını, Group Relative Policy Optimization (GRPO) algoritmasını kullanarak DeepScaleR-1.5B tarifini tekrar üretme konusunu keşfetmektedir. Bu, Qwen-1.5B gibi yüksek performanslı akıl yürütme modellerinin, AIME24 akademik matematik yarışmasında OpenAI'nin O1 benchmark'ı ile rekabet etmesi için eğitilmesini içermektedir.

Eğitim süreci, her biri kullanılan maksimum dizilim uzunluğunu artıran üç aşamada yapılandırılmıştır: 8K ile başlayarak, ardından 16K ve nihayetinde 24K. Bu kademeli artış, dağıtım dizilim uzunluklarını yönetmeye yardımcı olarak eğitim sürecini optimize eder.

Eğitim Süreci ve Değerlendirme

Eğitim kurulumu, NeMo-RL deposunun kopyalanmasını ve gerekli paketlerin kurulmasını içerir. Eğitim aşamalı olarak gerçekleştirilir ve modelin performans kriterlerini karşıladığından emin olmak için sürekli değerlendirilir. Sonuçlar, NeMo-RL'nin yalnızca 400 adımda 0.65 eğitim ödülü elde ettiğini göstermektedir.

AIME24 benchmarkinde yapılan değerlendirme, eğitilen modelin OpenAI O1'i aştığını gösterdi ve NeMo-RL'in GRPO algoritması ile birleştirildiğinde ne kadar etkili olduğunu vurguladı.

NeMo-RL ile Başlarken

NeMo-RL, açık kaynak kullanımı için mevcut olup, GitHub deposunda detaylı dokümantasyon ve örnek betikler sunmaktadır. Bu kaynak, ölçeklenebilir ve verimli yöntemler kullanarak pekiştirmeli öğrenme deneyleri yapmak isteyenler için idealdir.

Kütüphanenin Hugging Face ile entegrasyonu ve modüler tasarımı, araştırmacıların ve geliştiricilerin projelerinde ileri düzey RL tekniklerinden yararlanmalarını sağlayan güçlü bir araç haline getiriyor.

Görsel kaynağı: Shutterstock

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)