NVIDIA introduit NeMo-RL, une bibliothèque open-source pour l'apprentissage par renforcement, permettant un entraînement scalable avec GRPO et une intégration avec les modèles Hugging Face.
NVIDIA a dévoilé NeMo-RL, une bibliothèque open-source de pointe conçue pour améliorer les capacités d'apprentissage par renforcement (RL), selon le blog officiel de NVIDIA. La bibliothèque prend en charge l'entraînement de modèles évolutifs, allant des prototypes sur une seule GPU aux déploiements massifs sur des milliers de GPU, et s'intègre parfaitement avec des cadres populaires comme Hugging Face.
Architecture et caractéristiques de NeMo-RL
NeMo-RL fait partie du cadre plus large NVIDIA NeMo, connu pour sa polyvalence et ses capacités de haute performance. La bibliothèque inclut une intégration native avec les modèles Hugging Face, des processus d'entraînement et d'inférence optimisés. Elle prend en charge des algorithmes RL populaires tels que DPO et GRPO et utilise une orchestration basée sur Ray pour l'efficacité.
L'architecture de NeMo-RL est conçue avec la flexibilité à l'esprit. Elle prend en charge divers backends d'entraînement et de déploiement, garantissant que les implémentations d'algorithmes de haut niveau restent indifférentes aux spécificités du backend. Ce design permet une mise à l'échelle transparente des modèles sans avoir besoin de modifications du code de l'algorithme, ce qui le rend idéal pour des déploiements à petite et à grande échelle.
Mise en œuvre de DeepScaleR avec GRPO
Le post de blog explore l'application de NeMo-RL pour reproduire une recette DeepScaleR-1.5B en utilisant l'algorithme Group Relative Policy Optimization (GRPO). Cela implique de former des modèles de raisonnement performants, tels que Qwen-1.5B, pour rivaliser avec le benchmark O1 d'OpenAI sur le défi mathématique académique AIME24.
Le processus de formation est structuré en trois étapes, chacune augmentant la longueur maximale de séquence utilisée : commençant à 8K, puis 16K, et enfin 24K. Cette augmentation progressive aide à gérer la distribution des longueurs de séquence de déploiement, optimisant ainsi le processus de formation.
Processus de formation et d'évaluation
La configuration de l'entraînement implique de cloner le dépôt NeMo-RL et d'installer les packages nécessaires. L'entraînement se déroule en phases, le modèle étant évalué en continu pour garantir que les critères de performance sont respectés. Les résultats ont démontré que NeMo-RL a atteint une récompense d'entraînement de 0,65 en seulement 400 étapes.
L'évaluation sur le benchmark AIME24 a montré que le modèle entraîné a surpassé OpenAI O1, soulignant l'efficacité de NeMo-RL lorsqu'il est combiné avec l'algorithme GRPO.
Introduction à NeMo-RL
NeMo-RL est disponible pour une utilisation open source, fournissant une documentation détaillée et des scripts d'exemple sur son dépôt GitHub. Cette ressource est idéale pour ceux qui souhaitent expérimenter l'apprentissage par renforcement en utilisant des méthodes évolutives et efficaces.
L'intégration de la bibliothèque avec Hugging Face et son design modulaire en font un outil puissant pour les chercheurs et les développeurs cherchant à tirer parti des techniques avancées de RL dans leurs projets.
Image source: Shutterstock
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
NVIDIA NeMo-RL utilise GRPO pour un apprentissage par renforcement avancé
Peter Zhang
10 juil. 2025 06:07
NVIDIA introduit NeMo-RL, une bibliothèque open-source pour l'apprentissage par renforcement, permettant un entraînement scalable avec GRPO et une intégration avec les modèles Hugging Face.
NVIDIA a dévoilé NeMo-RL, une bibliothèque open-source de pointe conçue pour améliorer les capacités d'apprentissage par renforcement (RL), selon le blog officiel de NVIDIA. La bibliothèque prend en charge l'entraînement de modèles évolutifs, allant des prototypes sur une seule GPU aux déploiements massifs sur des milliers de GPU, et s'intègre parfaitement avec des cadres populaires comme Hugging Face.
Architecture et caractéristiques de NeMo-RL
NeMo-RL fait partie du cadre plus large NVIDIA NeMo, connu pour sa polyvalence et ses capacités de haute performance. La bibliothèque inclut une intégration native avec les modèles Hugging Face, des processus d'entraînement et d'inférence optimisés. Elle prend en charge des algorithmes RL populaires tels que DPO et GRPO et utilise une orchestration basée sur Ray pour l'efficacité.
L'architecture de NeMo-RL est conçue avec la flexibilité à l'esprit. Elle prend en charge divers backends d'entraînement et de déploiement, garantissant que les implémentations d'algorithmes de haut niveau restent indifférentes aux spécificités du backend. Ce design permet une mise à l'échelle transparente des modèles sans avoir besoin de modifications du code de l'algorithme, ce qui le rend idéal pour des déploiements à petite et à grande échelle.
Mise en œuvre de DeepScaleR avec GRPO
Le post de blog explore l'application de NeMo-RL pour reproduire une recette DeepScaleR-1.5B en utilisant l'algorithme Group Relative Policy Optimization (GRPO). Cela implique de former des modèles de raisonnement performants, tels que Qwen-1.5B, pour rivaliser avec le benchmark O1 d'OpenAI sur le défi mathématique académique AIME24.
Le processus de formation est structuré en trois étapes, chacune augmentant la longueur maximale de séquence utilisée : commençant à 8K, puis 16K, et enfin 24K. Cette augmentation progressive aide à gérer la distribution des longueurs de séquence de déploiement, optimisant ainsi le processus de formation.
Processus de formation et d'évaluation
La configuration de l'entraînement implique de cloner le dépôt NeMo-RL et d'installer les packages nécessaires. L'entraînement se déroule en phases, le modèle étant évalué en continu pour garantir que les critères de performance sont respectés. Les résultats ont démontré que NeMo-RL a atteint une récompense d'entraînement de 0,65 en seulement 400 étapes.
L'évaluation sur le benchmark AIME24 a montré que le modèle entraîné a surpassé OpenAI O1, soulignant l'efficacité de NeMo-RL lorsqu'il est combiné avec l'algorithme GRPO.
Introduction à NeMo-RL
NeMo-RL est disponible pour une utilisation open source, fournissant une documentation détaillée et des scripts d'exemple sur son dépôt GitHub. Cette ressource est idéale pour ceux qui souhaitent expérimenter l'apprentissage par renforcement en utilisant des méthodes évolutives et efficaces.
L'intégration de la bibliothèque avec Hugging Face et son design modulaire en font un outil puissant pour les chercheurs et les développeurs cherchant à tirer parti des techniques avancées de RL dans leurs projets.
Image source: Shutterstock