NVIDIA NeMo-RL utiliza GRPO para aprendizado por reforço avançado

2025-07-09 22:07:29

Geração do resumo em andamento

Peter Zhang

10 de jul. de 2025 06:07

A NVIDIA apresenta o NeMo-RL, uma biblioteca de código aberto para aprendizado por reforço, permitindo treinamento escalável com GRPO e integração com modelos da Hugging Face.

A NVIDIA apresentou o NeMo-RL, uma biblioteca open-source de ponta projetada para aprimorar as capacidades de aprendizado por reforço (RL), de acordo com o blog oficial da NVIDIA. A biblioteca suporta treinamento de modelos escaláveis, variando de protótipos em uma única GPU a implantações massivas com mil GPUs, e se integra perfeitamente com frameworks populares como o Hugging Face.

Arquitetura e Características do NeMo-RL

NeMo-RL faz parte da abrangente Framework NVIDIA NeMo, conhecida pela sua versatilidade e capacidades de alto desempenho. A biblioteca inclui integração nativa com modelos Hugging Face, processos de treinamento e inferência otimizados. Suporta algoritmos de RL populares como DPO e GRPO e emprega orquestração baseada em Ray para eficiência.

A arquitetura do NeMo-RL é projetada com flexibilidade em mente. Suporta vários backends de treinamento e rollout, garantindo que as implementações de algoritmos de alto nível permaneçam indiferentes às especificidades do backend. Este design permite a escalabilidade sem costura dos modelos sem a necessidade de modificações no código do algoritmo, tornando-o ideal para implantações em pequena e grande escala.

Implementando DeepScaleR com GRPO

O post do blog explora a aplicação do NeMo-RL para reproduzir uma receita DeepScaleR-1.5B usando o algoritmo Group Relative Policy Optimization (GRPO). Isso envolve treinar modelos de raciocínio de alto desempenho, como Qwen-1.5B, para competir com o benchmark O1 da OpenAI no desafio acadêmico de matemática AIME24.

O processo de treino está estruturado em três etapas, cada uma aumentando o comprimento máximo da sequência utilizada: começando em 8K, depois 16K e finalmente 24K. Este aumento gradual ajuda a gerir a distribuição dos comprimentos das sequências de rollout, otimizando o processo de treino.

Processo de Treinamento e Avaliação

A configuração de treinamento envolve clonar o repositório NeMo-RL e instalar os pacotes necessários. O treinamento é realizado em fases, com o modelo avaliado continuamente para garantir que os benchmarks de desempenho sejam atendidos. Os resultados demonstraram que o NeMo-RL alcançou uma recompensa de treinamento de 0,65 em apenas 400 etapas.

A avaliação no benchmark AIME24 mostrou que o modelo treinado superou o OpenAI O1, destacando a eficácia do NeMo-RL quando combinado com o algoritmo GRPO.

Começando com NeMo-RL

NeMo-RL está disponível para uso em código aberto, oferecendo documentação detalhada e exemplos de scripts no seu repositório do GitHub. Este recurso é ideal para aqueles que desejam experimentar o aprendizado por reforço utilizando métodos escaláveis e eficientes.

A integração da biblioteca com o Hugging Face e seu design modular tornam-na uma ferramenta poderosa para pesquisadores e desenvolvedores que buscam aproveitar técnicas avançadas de RL em seus projetos.

Fonte da imagem: Shutterstock

Ver original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Recompensa
curtir
Comentário
Compartilhar

Comentário

0/400

Sem comentários

Tema
BTC Hits New High
55k Popularidade
ETH Breaks $3,000
31k Popularidade
VIP Exclusive Airdrop Carnival
9k Popularidade
4Pump.Fun Debuts on Gate
4k Popularidade
5Fed June Meeting Minutes
4k Popularidade
6Join Gate VIP to Win MacBook
29k Popularidade
7Trump Tariff Hikes
16k Popularidade
8Gate xStocks Trading Share
22k Popularidade
9HK Stablecoin Rules
12k Popularidade
10Truth Social Crypto ETF
2k Popularidade

Marcar

sitemap