This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
NVIDIA NeMo-RL は高度な強化学習に GRPO を活用
ピーター・チャン
2025年07月10日 06:07
NVIDIAは、GRPOを使用したスケーラブルなトレーニングとHugging Faceモデルとの統合を可能にする強化学習のためのオープンソースライブラリNeMo-RLを紹介しました。
NVIDIAは、強化学習(RL)の能力を向上させるために設計された最先端のオープンソースライブラリNeMo-RLを発表しました、とNVIDIAの公式ブログによると。このライブラリは、シングルGPUのプロトタイプから数千のGPUの大規模な展開まで、スケーラブルなモデルトレーニングをサポートし、Hugging Faceなどの人気のあるフレームワークとシームレスに統合されます。
NeMo-RLのアーキテクチャと特徴
NeMo-RLは、汎用性と高性能な機能で知られるNVIDIA NeMoフレームワークの一部です。このライブラリは、Hugging Faceモデルとのネイティブ統合、最適化されたトレーニングおよび推論プロセスを含んでいます。DPOやGRPOなどの人気のあるRLアルゴリズムをサポートし、効率のためにRayベースのオーケストレーションを採用しています。
NeMo-RLのアーキテクチャは柔軟性を考慮して設計されています。さまざまなトレーニングおよびロールアウトバックエンドをサポートしており、高レベルのアルゴリズム実装がバックエンドの特性に依存しないことを保証します。この設計により、アルゴリズムコードの変更なしにモデルをシームレスにスケーリングできるため、小規模および大規模な展開の両方に最適です。
GRPOによるDeepScaleRの実装
このブログ記事では、Group Relative Policy Optimization (GRPO)アルゴリズムを使用してDeepScaleR-1.5Bレシピを再現するためのNeMo-RLの適用について探ります。これには、AIME24学術数学チャレンジでOpenAIのO1ベンチマークと競うために、Qwen-1.5Bなどの高性能推論モデルのトレーニングが含まれます。
トレーニングプロセスは3つのステップで構成されており、それぞれ使用される最大シーケンス長が増加します:最初は8K、次に16K、最後に24Kです。この段階的な増加は、ロールアウトシーケンス長の分布を管理し、トレーニングプロセスを最適化するのに役立ちます。
トレーニングプロセスと評価
トレーニングセットアップには、NeMo-RLリポジトリのクローン作成と必要なパッケージのインストールが含まれます。トレーニングはフェーズに分かれて実施され、モデルはパフォーマンス基準が満たされていることを確認するために継続的に評価されます。結果は、NeMo-RLがわずか400ステップで0.65のトレーニング報酬を達成したことを示しました。
AIME24ベンチマークでの評価により、訓練されたモデルがOpenAI O1を上回り、GRPOアルゴリズムと組み合わせたNeMo-RLの効果が強調されました。
NeMo-RLの使い方
NeMo-RLはオープンソースで利用可能であり、GitHubリポジトリに詳細なドキュメントとサンプルスクリプトを提供しています。このリソースは、スケーラブルで効率的な手法を使用して強化学習を試みたい人々に最適です。
ライブラリのHugging Faceとの統合とそのモジュラー設計は、研究者や開発者がプロジェクトで先進的なRL技術を活用するための強力なツールとなります。
画像出典:Shutterstock