NVIDIA NeMo-RL 利用 GRPO 进行高级强化学习

2025-07-09 22:07:29

摘要生成中

张彼得

2025年7月10日 06:07

NVIDIA推出NeMo-RL，一个用于强化学习的开源库，支持与GRPO的可扩展训练，并与Hugging Face模型集成。

NVIDIA 已推出 NeMo-RL，这是一个前沿的开源库，旨在增强强化学习 (RL) 的能力，具体内容可以参考 NVIDIA 的官方博客。该库支持可扩展的模型训练，从单 GPU 原型到大规模的千 GPU 部署，并与 Hugging Face 等流行框架无缝集成。

NeMo-RL的架构与特点

NeMo-RL 是更广泛的 NVIDIA NeMo 框架的一部分，以其多功能性和高性能能力而闻名。该库包括与 Hugging Face 模型的原生集成，优化的训练和推理过程。它支持 DPO 和 GRPO 等流行的强化学习算法，并采用基于 Ray 的编排以提高效率。

NeMo-RL的架构设计时考虑了灵活性。它支持各种训练和回滚后端，确保高层算法实现与后端细节保持无关。这种设计允许模型的无缝扩展，而无需修改算法代码，使其非常适合小规模和大规模部署。

这篇博客文章探讨了如何应用NeMo-RL来重复使用Group Relative Policy Optimization (GRPO)算法的DeepScaleR-1.5B食谱。这涉及到训练高性能的推理模型，例如Qwen-1.5B，以便在AIME24学术数学挑战中与OpenAI的O1基准进行竞争。

训练过程分为三个步骤，每个步骤都增加使用的最大序列长度：从8K开始，然后是16K，最后是24K。这种逐步增加有助于管理推出序列长度的分布，优化训练过程。

训练设置涉及克隆 NeMo-RL 仓库并安装必要的软件包。训练分阶段进行，模型持续评估以确保达到性能基准。结果表明，NeMo-RL 在仅 400 步内达到了 0.65 的训练奖励。

在AIME24基准测试中的评估显示，训练模型超越了OpenAI O1，突显了NeMo-RL与GRPO算法结合时的有效性。

NeMo-RL 可供开源使用，提供详细的文档和示例脚本，存放在其 GitHub 存储库中。这个资源非常适合那些希望使用可扩展和高效的方法进行强化学习实验的人。

该库与Hugging Face的集成及其模块化设计使其成为研究人员和开发者在项目中利用先进强化学习技术的强大工具。

图片来源：Shutterstock

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

0/400

暂无评论