A NVIDIA apresenta o NeMo-RL, uma biblioteca de código aberto para aprendizado por reforço, permitindo treinamento escalável com GRPO e integração com modelos da Hugging Face.
A NVIDIA apresentou o NeMo-RL, uma biblioteca open-source de ponta projetada para aprimorar as capacidades de aprendizado por reforço (RL), de acordo com o blog oficial da NVIDIA. A biblioteca suporta treinamento de modelos escaláveis, variando de protótipos em uma única GPU a implantações massivas com mil GPUs, e se integra perfeitamente com frameworks populares como o Hugging Face.
Arquitetura e Características do NeMo-RL
NeMo-RL faz parte da abrangente Framework NVIDIA NeMo, conhecida pela sua versatilidade e capacidades de alto desempenho. A biblioteca inclui integração nativa com modelos Hugging Face, processos de treinamento e inferência otimizados. Suporta algoritmos de RL populares como DPO e GRPO e emprega orquestração baseada em Ray para eficiência.
A arquitetura do NeMo-RL é projetada com flexibilidade em mente. Suporta vários backends de treinamento e rollout, garantindo que as implementações de algoritmos de alto nível permaneçam indiferentes às especificidades do backend. Este design permite a escalabilidade sem costura dos modelos sem a necessidade de modificações no código do algoritmo, tornando-o ideal para implantações em pequena e grande escala.
Implementando DeepScaleR com GRPO
O post do blog explora a aplicação do NeMo-RL para reproduzir uma receita DeepScaleR-1.5B usando o algoritmo Group Relative Policy Optimization (GRPO). Isso envolve treinar modelos de raciocínio de alto desempenho, como Qwen-1.5B, para competir com o benchmark O1 da OpenAI no desafio acadêmico de matemática AIME24.
O processo de treino está estruturado em três etapas, cada uma aumentando o comprimento máximo da sequência utilizada: começando em 8K, depois 16K e finalmente 24K. Este aumento gradual ajuda a gerir a distribuição dos comprimentos das sequências de rollout, otimizando o processo de treino.
Processo de Treinamento e Avaliação
A configuração de treinamento envolve clonar o repositório NeMo-RL e instalar os pacotes necessários. O treinamento é realizado em fases, com o modelo avaliado continuamente para garantir que os benchmarks de desempenho sejam atendidos. Os resultados demonstraram que o NeMo-RL alcançou uma recompensa de treinamento de 0,65 em apenas 400 etapas.
A avaliação no benchmark AIME24 mostrou que o modelo treinado superou o OpenAI O1, destacando a eficácia do NeMo-RL quando combinado com o algoritmo GRPO.
Começando com NeMo-RL
NeMo-RL está disponível para uso em código aberto, oferecendo documentação detalhada e exemplos de scripts no seu repositório do GitHub. Este recurso é ideal para aqueles que desejam experimentar o aprendizado por reforço utilizando métodos escaláveis e eficientes.
A integração da biblioteca com o Hugging Face e seu design modular tornam-na uma ferramenta poderosa para pesquisadores e desenvolvedores que buscam aproveitar técnicas avançadas de RL em seus projetos.
Fonte da imagem: Shutterstock
Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
NVIDIA NeMo-RL utiliza GRPO para aprendizado por reforço avançado
Peter Zhang
10 de jul. de 2025 06:07
A NVIDIA apresenta o NeMo-RL, uma biblioteca de código aberto para aprendizado por reforço, permitindo treinamento escalável com GRPO e integração com modelos da Hugging Face.
A NVIDIA apresentou o NeMo-RL, uma biblioteca open-source de ponta projetada para aprimorar as capacidades de aprendizado por reforço (RL), de acordo com o blog oficial da NVIDIA. A biblioteca suporta treinamento de modelos escaláveis, variando de protótipos em uma única GPU a implantações massivas com mil GPUs, e se integra perfeitamente com frameworks populares como o Hugging Face.
Arquitetura e Características do NeMo-RL
NeMo-RL faz parte da abrangente Framework NVIDIA NeMo, conhecida pela sua versatilidade e capacidades de alto desempenho. A biblioteca inclui integração nativa com modelos Hugging Face, processos de treinamento e inferência otimizados. Suporta algoritmos de RL populares como DPO e GRPO e emprega orquestração baseada em Ray para eficiência.
A arquitetura do NeMo-RL é projetada com flexibilidade em mente. Suporta vários backends de treinamento e rollout, garantindo que as implementações de algoritmos de alto nível permaneçam indiferentes às especificidades do backend. Este design permite a escalabilidade sem costura dos modelos sem a necessidade de modificações no código do algoritmo, tornando-o ideal para implantações em pequena e grande escala.
Implementando DeepScaleR com GRPO
O post do blog explora a aplicação do NeMo-RL para reproduzir uma receita DeepScaleR-1.5B usando o algoritmo Group Relative Policy Optimization (GRPO). Isso envolve treinar modelos de raciocínio de alto desempenho, como Qwen-1.5B, para competir com o benchmark O1 da OpenAI no desafio acadêmico de matemática AIME24.
O processo de treino está estruturado em três etapas, cada uma aumentando o comprimento máximo da sequência utilizada: começando em 8K, depois 16K e finalmente 24K. Este aumento gradual ajuda a gerir a distribuição dos comprimentos das sequências de rollout, otimizando o processo de treino.
Processo de Treinamento e Avaliação
A configuração de treinamento envolve clonar o repositório NeMo-RL e instalar os pacotes necessários. O treinamento é realizado em fases, com o modelo avaliado continuamente para garantir que os benchmarks de desempenho sejam atendidos. Os resultados demonstraram que o NeMo-RL alcançou uma recompensa de treinamento de 0,65 em apenas 400 etapas.
A avaliação no benchmark AIME24 mostrou que o modelo treinado superou o OpenAI O1, destacando a eficácia do NeMo-RL quando combinado com o algoritmo GRPO.
Começando com NeMo-RL
NeMo-RL está disponível para uso em código aberto, oferecendo documentação detalhada e exemplos de scripts no seu repositório do GitHub. Este recurso é ideal para aqueles que desejam experimentar o aprendizado por reforço utilizando métodos escaláveis e eficientes.
A integração da biblioteca com o Hugging Face e seu design modular tornam-na uma ferramenta poderosa para pesquisadores e desenvolvedores que buscam aproveitar técnicas avançadas de RL em seus projetos.
Fonte da imagem: Shutterstock