NVIDIA NeMo-RL використовує GRPO для вдосконаленого підкріплювального навчання

robot
Генерація анотацій у процесі

Пітер Чжан

10 липня 2025 року 06:07

NVIDIA представляє NeMo-RL, бібліотеку з відкритим кодом для навчання з підкріпленням, що дозволяє масштабоване навчання з GRPO та інтеграцію з моделями Hugging Face.

NVIDIA представила NeMo-RL, передову бібліотеку з відкритим кодом, що призначена для покращення можливостей підкріплювального навчання (RL), згідно з офіційним блогом NVIDIA. Бібліотека підтримує масштабоване навчання моделей, починаючи від прототипів на одному графічному процесорі до масових розгортань на тисячах графічних процесорів, і безшовно інтегрується з популярними фреймворками, такими як Hugging Face.

Архітектура та особливості NeMo-RL

NeMo-RL є частиною більш широкої рамки NVIDIA NeMo, відомої своєю універсальністю та високопродуктивними можливостями. Бібліотека включає нативну інтеграцію з моделями Hugging Face, оптимізовані процеси навчання та інференції. Вона підтримує популярні алгоритми RL, такі як DPO та GRPO, і використовує оркестрацію на основі Ray для підвищення ефективності.

Архітектура NeMo-RL спроектована з урахуванням гнучкості. Вона підтримує різні бекенди для навчання та реалізації, що забезпечує незалежність реалізацій алгоритмів від специфіки бекендів. Цей дизайн дозволяє безшовно масштабувати моделі без необхідності в модифікаціях коду алгоритмів, що робить його ідеальним як для маломасштабних, так і для масштабних розгортань.

Реалізація DeepScaleR з GRPO

У блозі розглядається застосування NeMo-RL для відтворення рецепту DeepScaleR-1.5B за допомогою алгоритму Group Relative Policy Optimization (GRPO). Це передбачає навчання високоефективних моделей міркування, таких як Qwen-1.5B, для конкуренції з бенчмарком O1 від OpenAI на академічному математичному виклику AIME24.

Процес навчання структурований у три етапи, кожен з яких збільшує максимальну довжину послідовності: починаючи з 8K, потім 16K і, нарешті, 24K. Це поступове збільшення допомагає управляти розподілом довжин послідовностей розгортання, оптимізуючи процес навчання.

Процес навчання та оцінка

Налаштування навчання передбачає клонування репозиторію NeMo-RL та встановлення необхідних пакетів. Навчання проводиться поетапно, при цьому модель постійно оцінюється для забезпечення досягнення показників продуктивності. Результати продемонстрували, що NeMo-RL досягнув навчальної винагороди 0.65 всього за 400 кроків.

Оцінка на бенчмарку AIME24 показала, що навчена модель перевершила OpenAI O1, підкреслюючи ефективність NeMo-RL у поєднанні з алгоритмом GRPO.

Початок роботи з NeMo-RL

NeMo-RL доступний для використання з відкритим кодом, надаючи детальну документацію та приклади скриптів у своєму репозиторії на GitHub. Цей ресурс ідеально підходить для тих, хто хоче експериментувати з підкріплювальним навчанням, використовуючи масштабовані та ефективні методи.

Інтеграція бібліотеки з Hugging Face та її модульний дизайн роблять її потужним інструментом для дослідників і розробників, які прагнуть використати передові техніки RL у своїх проектах.

Джерело зображення: Shutterstock

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити