NVIDIA NeMo-RL использует GRPO для продвинутого обучения с подкреплением

2025-07-09 22:07:29

Генерация тезисов в процессе

Питер Чжан

10 июля 2025 06:07

NVIDIA представляет NeMo-RL, библиотеку с открытым исходным кодом для обучения с подкреплением, позволяющую масштабируемое обучение с GRPO и интеграцию с моделями Hugging Face.

NVIDIA представила NeMo-RL, передовую библиотеку с открытым исходным кодом, предназначенную для улучшения возможностей обучения с подкреплением (RL), согласно официальному блогу NVIDIA. Библиотека поддерживает масштабируемое обучение моделей, начиная от прототипов на одном GPU и до массовых развертываний на тысяче GPU, и бесшовно интегрируется с популярными фреймворками, такими как Hugging Face.

Архитектура и особенности NeMo-RL

NeMo-RL является частью более широкой NVIDIA NeMo Framework, известной своей универсальностью и высокопроизводительными возможностями. Библиотека включает в себя нативную интеграцию с моделями Hugging Face, оптимизированные процессы обучения и вывода. Она поддерживает популярные алгоритмы RL, такие как DPO и GRPO, и использует оркестрацию на основе Ray для повышения эффективности.

Архитектура NeMo-RL разработана с учетом гибкости. Она поддерживает различные бэкенды для обучения и развертывания, что гарантирует, что реализации высокоуровневых алгоритмов остаются независимыми от специфики бэкенда. Этот дизайн позволяет бесшовно масштабировать модели без необходимости модификации кода алгоритма, что делает его идеальным как для маломасштабных, так и для крупномасштабных развертываний.

Реализация DeepScaleR с GRPO

В блоге рассматривается применение NeMo-RL для воспроизведения рецепта DeepScaleR-1.5B с использованием алгоритма Group Relative Policy Optimization (GRPO). Это включает в себя обучение высокоэффективных моделей рассуждений, таких как Qwen-1.5B, для соперничества с эталоном O1 от OpenAI на академическом математическом конкурсе AIME24.

Процесс обучения структурирован в три этапа, каждый из которых увеличивает максимальную длину последовательности: начиная с 8K, затем 16K и, наконец, 24K. Это постепенное увеличение помогает управлять распределением длин последовательностей внедрения, оптимизируя процесс обучения.

Процесс обучения и оценка

Настройка обучения включает в себя клонирование репозитория NeMo-RL и установку необходимых пакетов. Обучение проводится поэтапно, при этом модель непрерывно оценивается, чтобы гарантировать выполнение показателей производительности. Результаты показали, что NeMo-RL достиг награды за обучение 0.65 всего за 400 шагов.

Оценка на бенчмарке AIME24 показала, что обученная модель превзошла OpenAI O1, подчеркивая эффективность NeMo-RL в сочетании с алгоритмом GRPO.

Начало работы с NeMo-RL

NeMo-RL доступен для использования с открытым исходным кодом, предоставляя подробную документацию и примерные скрипты в своем репозитории на GitHub. Этот ресурс идеально подходит для тех, кто хочет экспериментировать с обучением с подкреплением, используя масштабируемые и эффективные методы.

Интеграция библиотеки с Hugging Face и ее модульный дизайн делают ее мощным инструментом для исследователей и разработчиков, стремящихся использовать передовые методы RL в своих проектах.

Источник изображения: Shutterstock

Посмотреть Оригинал

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Награда
лайк
комментарий
Поделиться

комментарий

0/400

Нет комментариев

Тема
BTC Hits New High
55k Популярность
ETH Breaks $3,000
31k Популярность
VIP Exclusive Airdrop Carnival
9k Популярность
4Pump.Fun Debuts on Gate
4k Популярность
5Fed June Meeting Minutes
4k Популярность
6Join Gate VIP to Win MacBook
29k Популярность
7Trump Tariff Hikes
16k Популярность
8Gate xStocks Trading Share
22k Популярность
9HK Stablecoin Rules
12k Популярность
10Truth Social Crypto ETF
2k Популярность

Закрепить

Карта сайта