NVIDIA представляет NeMo-RL, библиотеку с открытым исходным кодом для обучения с подкреплением, позволяющую масштабируемое обучение с GRPO и интеграцию с моделями Hugging Face.
NVIDIA представила NeMo-RL, передовую библиотеку с открытым исходным кодом, предназначенную для улучшения возможностей обучения с подкреплением (RL), согласно официальному блогу NVIDIA. Библиотека поддерживает масштабируемое обучение моделей, начиная от прототипов на одном GPU и до массовых развертываний на тысяче GPU, и бесшовно интегрируется с популярными фреймворками, такими как Hugging Face.
Архитектура и особенности NeMo-RL
NeMo-RL является частью более широкой NVIDIA NeMo Framework, известной своей универсальностью и высокопроизводительными возможностями. Библиотека включает в себя нативную интеграцию с моделями Hugging Face, оптимизированные процессы обучения и вывода. Она поддерживает популярные алгоритмы RL, такие как DPO и GRPO, и использует оркестрацию на основе Ray для повышения эффективности.
Архитектура NeMo-RL разработана с учетом гибкости. Она поддерживает различные бэкенды для обучения и развертывания, что гарантирует, что реализации высокоуровневых алгоритмов остаются независимыми от специфики бэкенда. Этот дизайн позволяет бесшовно масштабировать модели без необходимости модификации кода алгоритма, что делает его идеальным как для маломасштабных, так и для крупномасштабных развертываний.
Реализация DeepScaleR с GRPO
В блоге рассматривается применение NeMo-RL для воспроизведения рецепта DeepScaleR-1.5B с использованием алгоритма Group Relative Policy Optimization (GRPO). Это включает в себя обучение высокоэффективных моделей рассуждений, таких как Qwen-1.5B, для соперничества с эталоном O1 от OpenAI на академическом математическом конкурсе AIME24.
Процесс обучения структурирован в три этапа, каждый из которых увеличивает максимальную длину последовательности: начиная с 8K, затем 16K и, наконец, 24K. Это постепенное увеличение помогает управлять распределением длин последовательностей внедрения, оптимизируя процесс обучения.
Процесс обучения и оценка
Настройка обучения включает в себя клонирование репозитория NeMo-RL и установку необходимых пакетов. Обучение проводится поэтапно, при этом модель непрерывно оценивается, чтобы гарантировать выполнение показателей производительности. Результаты показали, что NeMo-RL достиг награды за обучение 0.65 всего за 400 шагов.
Оценка на бенчмарке AIME24 показала, что обученная модель превзошла OpenAI O1, подчеркивая эффективность NeMo-RL в сочетании с алгоритмом GRPO.
Начало работы с NeMo-RL
NeMo-RL доступен для использования с открытым исходным кодом, предоставляя подробную документацию и примерные скрипты в своем репозитории на GitHub. Этот ресурс идеально подходит для тех, кто хочет экспериментировать с обучением с подкреплением, используя масштабируемые и эффективные методы.
Интеграция библиотеки с Hugging Face и ее модульный дизайн делают ее мощным инструментом для исследователей и разработчиков, стремящихся использовать передовые методы RL в своих проектах.
Источник изображения: Shutterstock
Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
NVIDIA NeMo-RL использует GRPO для продвинутого обучения с подкреплением
Питер Чжан
10 июля 2025 06:07
NVIDIA представляет NeMo-RL, библиотеку с открытым исходным кодом для обучения с подкреплением, позволяющую масштабируемое обучение с GRPO и интеграцию с моделями Hugging Face.
NVIDIA представила NeMo-RL, передовую библиотеку с открытым исходным кодом, предназначенную для улучшения возможностей обучения с подкреплением (RL), согласно официальному блогу NVIDIA. Библиотека поддерживает масштабируемое обучение моделей, начиная от прототипов на одном GPU и до массовых развертываний на тысяче GPU, и бесшовно интегрируется с популярными фреймворками, такими как Hugging Face.
Архитектура и особенности NeMo-RL
NeMo-RL является частью более широкой NVIDIA NeMo Framework, известной своей универсальностью и высокопроизводительными возможностями. Библиотека включает в себя нативную интеграцию с моделями Hugging Face, оптимизированные процессы обучения и вывода. Она поддерживает популярные алгоритмы RL, такие как DPO и GRPO, и использует оркестрацию на основе Ray для повышения эффективности.
Архитектура NeMo-RL разработана с учетом гибкости. Она поддерживает различные бэкенды для обучения и развертывания, что гарантирует, что реализации высокоуровневых алгоритмов остаются независимыми от специфики бэкенда. Этот дизайн позволяет бесшовно масштабировать модели без необходимости модификации кода алгоритма, что делает его идеальным как для маломасштабных, так и для крупномасштабных развертываний.
Реализация DeepScaleR с GRPO
В блоге рассматривается применение NeMo-RL для воспроизведения рецепта DeepScaleR-1.5B с использованием алгоритма Group Relative Policy Optimization (GRPO). Это включает в себя обучение высокоэффективных моделей рассуждений, таких как Qwen-1.5B, для соперничества с эталоном O1 от OpenAI на академическом математическом конкурсе AIME24.
Процесс обучения структурирован в три этапа, каждый из которых увеличивает максимальную длину последовательности: начиная с 8K, затем 16K и, наконец, 24K. Это постепенное увеличение помогает управлять распределением длин последовательностей внедрения, оптимизируя процесс обучения.
Процесс обучения и оценка
Настройка обучения включает в себя клонирование репозитория NeMo-RL и установку необходимых пакетов. Обучение проводится поэтапно, при этом модель непрерывно оценивается, чтобы гарантировать выполнение показателей производительности. Результаты показали, что NeMo-RL достиг награды за обучение 0.65 всего за 400 шагов.
Оценка на бенчмарке AIME24 показала, что обученная модель превзошла OpenAI O1, подчеркивая эффективность NeMo-RL в сочетании с алгоритмом GRPO.
Начало работы с NeMo-RL
NeMo-RL доступен для использования с открытым исходным кодом, предоставляя подробную документацию и примерные скрипты в своем репозитории на GitHub. Этот ресурс идеально подходит для тех, кто хочет экспериментировать с обучением с подкреплением, используя масштабируемые и эффективные методы.
Интеграция библиотеки с Hugging Face и ее модульный дизайн делают ее мощным инструментом для исследователей и разработчиков, стремящихся использовать передовые методы RL в своих проектах.
Источник изображения: Shutterstock