NVIDIA NeMo-RL utiliza GRPO para aprendizado por reforço avançado

robot
Geração do resumo em andamento

Peter Zhang

10 de jul. de 2025 06:07

A NVIDIA apresenta o NeMo-RL, uma biblioteca de código aberto para aprendizado por reforço, permitindo treinamento escalável com GRPO e integração com modelos da Hugging Face.

A NVIDIA apresentou o NeMo-RL, uma biblioteca open-source de ponta projetada para aprimorar as capacidades de aprendizado por reforço (RL), de acordo com o blog oficial da NVIDIA. A biblioteca suporta treinamento de modelos escaláveis, variando de protótipos em uma única GPU a implantações massivas com mil GPUs, e se integra perfeitamente com frameworks populares como o Hugging Face.

Arquitetura e Características do NeMo-RL

NeMo-RL faz parte da abrangente Framework NVIDIA NeMo, conhecida pela sua versatilidade e capacidades de alto desempenho. A biblioteca inclui integração nativa com modelos Hugging Face, processos de treinamento e inferência otimizados. Suporta algoritmos de RL populares como DPO e GRPO e emprega orquestração baseada em Ray para eficiência.

A arquitetura do NeMo-RL é projetada com flexibilidade em mente. Suporta vários backends de treinamento e rollout, garantindo que as implementações de algoritmos de alto nível permaneçam indiferentes às especificidades do backend. Este design permite a escalabilidade sem costura dos modelos sem a necessidade de modificações no código do algoritmo, tornando-o ideal para implantações em pequena e grande escala.

Implementando DeepScaleR com GRPO

O post do blog explora a aplicação do NeMo-RL para reproduzir uma receita DeepScaleR-1.5B usando o algoritmo Group Relative Policy Optimization (GRPO). Isso envolve treinar modelos de raciocínio de alto desempenho, como Qwen-1.5B, para competir com o benchmark O1 da OpenAI no desafio acadêmico de matemática AIME24.

O processo de treino está estruturado em três etapas, cada uma aumentando o comprimento máximo da sequência utilizada: começando em 8K, depois 16K e finalmente 24K. Este aumento gradual ajuda a gerir a distribuição dos comprimentos das sequências de rollout, otimizando o processo de treino.

Processo de Treinamento e Avaliação

A configuração de treinamento envolve clonar o repositório NeMo-RL e instalar os pacotes necessários. O treinamento é realizado em fases, com o modelo avaliado continuamente para garantir que os benchmarks de desempenho sejam atendidos. Os resultados demonstraram que o NeMo-RL alcançou uma recompensa de treinamento de 0,65 em apenas 400 etapas.

A avaliação no benchmark AIME24 mostrou que o modelo treinado superou o OpenAI O1, destacando a eficácia do NeMo-RL quando combinado com o algoritmo GRPO.

Começando com NeMo-RL

NeMo-RL está disponível para uso em código aberto, oferecendo documentação detalhada e exemplos de scripts no seu repositório do GitHub. Este recurso é ideal para aqueles que desejam experimentar o aprendizado por reforço utilizando métodos escaláveis e eficientes.

A integração da biblioteca com o Hugging Face e seu design modular tornam-na uma ferramenta poderosa para pesquisadores e desenvolvedores que buscam aproveitar técnicas avançadas de RL em seus projetos.

Fonte da imagem: Shutterstock

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)