NVIDIA NeMo-RL использует GRPO для продвинутого обучения с подкреплением

robot
Генерация тезисов в процессе

Питер Чжан

10 июля 2025 06:07

NVIDIA представляет NeMo-RL, библиотеку с открытым исходным кодом для обучения с подкреплением, позволяющую масштабируемое обучение с GRPO и интеграцию с моделями Hugging Face.

NVIDIA представила NeMo-RL, передовую библиотеку с открытым исходным кодом, предназначенную для улучшения возможностей обучения с подкреплением (RL), согласно официальному блогу NVIDIA. Библиотека поддерживает масштабируемое обучение моделей, начиная от прототипов на одном GPU и до массовых развертываний на тысяче GPU, и бесшовно интегрируется с популярными фреймворками, такими как Hugging Face.

Архитектура и особенности NeMo-RL

NeMo-RL является частью более широкой NVIDIA NeMo Framework, известной своей универсальностью и высокопроизводительными возможностями. Библиотека включает в себя нативную интеграцию с моделями Hugging Face, оптимизированные процессы обучения и вывода. Она поддерживает популярные алгоритмы RL, такие как DPO и GRPO, и использует оркестрацию на основе Ray для повышения эффективности.

Архитектура NeMo-RL разработана с учетом гибкости. Она поддерживает различные бэкенды для обучения и развертывания, что гарантирует, что реализации высокоуровневых алгоритмов остаются независимыми от специфики бэкенда. Этот дизайн позволяет бесшовно масштабировать модели без необходимости модификации кода алгоритма, что делает его идеальным как для маломасштабных, так и для крупномасштабных развертываний.

Реализация DeepScaleR с GRPO

В блоге рассматривается применение NeMo-RL для воспроизведения рецепта DeepScaleR-1.5B с использованием алгоритма Group Relative Policy Optimization (GRPO). Это включает в себя обучение высокоэффективных моделей рассуждений, таких как Qwen-1.5B, для соперничества с эталоном O1 от OpenAI на академическом математическом конкурсе AIME24.

Процесс обучения структурирован в три этапа, каждый из которых увеличивает максимальную длину последовательности: начиная с 8K, затем 16K и, наконец, 24K. Это постепенное увеличение помогает управлять распределением длин последовательностей внедрения, оптимизируя процесс обучения.

Процесс обучения и оценка

Настройка обучения включает в себя клонирование репозитория NeMo-RL и установку необходимых пакетов. Обучение проводится поэтапно, при этом модель непрерывно оценивается, чтобы гарантировать выполнение показателей производительности. Результаты показали, что NeMo-RL достиг награды за обучение 0.65 всего за 400 шагов.

Оценка на бенчмарке AIME24 показала, что обученная модель превзошла OpenAI O1, подчеркивая эффективность NeMo-RL в сочетании с алгоритмом GRPO.

Начало работы с NeMo-RL

NeMo-RL доступен для использования с открытым исходным кодом, предоставляя подробную документацию и примерные скрипты в своем репозитории на GitHub. Этот ресурс идеально подходит для тех, кто хочет экспериментировать с обучением с подкреплением, используя масштабируемые и эффективные методы.

Интеграция библиотеки с Hugging Face и ее модульный дизайн делают ее мощным инструментом для исследователей и разработчиков, стремящихся использовать передовые методы RL в своих проектах.

Источник изображения: Shutterstock

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить