NVIDIA NeMo-RL utiliza GRPO para el aprendizaje por refuerzo avanzado

robot
Generación de resúmenes en curso

Peter Zhang

10 de julio de 2025 06:07

NVIDIA presenta NeMo-RL, una biblioteca de código abierto para el aprendizaje por refuerzo, que permite un entrenamiento escalable con GRPO e integración con modelos de Hugging Face.

NVIDIA ha presentado NeMo-RL, una biblioteca de código abierto de vanguardia diseñada para mejorar las capacidades de aprendizaje por refuerzo (RL), según el blog oficial de NVIDIA. La biblioteca admite el entrenamiento de modelos escalables, que van desde prototipos de una sola GPU hasta implementaciones masivas de mil GPU, e integra de manera fluida con marcos populares como Hugging Face.

Arquitectura y características de NeMo-RL

NeMo-RL es parte del marco más amplio de NVIDIA NeMo, conocido por su versatilidad y capacidades de alto rendimiento. La biblioteca incluye integración nativa con modelos de Hugging Face, procesos de entrenamiento e inferencia optimizados. Soporta algoritmos de RL populares como DPO y GRPO y emplea orquestación basada en Ray para la eficiencia.

La arquitectura de NeMo-RL está diseñada con la flexibilidad en mente. Soporta varios backends de entrenamiento y despliegue, asegurando que las implementaciones de algoritmos de alto nivel permanezcan independientes de las especificaciones del backend. Este diseño permite la escalabilidad sin problemas de los modelos sin necesidad de modificaciones en el código del algoritmo, lo que lo hace ideal tanto para implementaciones a pequeña escala como a gran escala.

Implementando DeepScaleR con GRPO

El artículo del blog explora la aplicación de NeMo-RL para reproducir una receta de DeepScaleR-1.5B utilizando el algoritmo de Optimización de Políticas Relativas en Grupo (GRPO). Esto implica entrenar modelos de razonamiento de alto rendimiento, como Qwen-1.5B, para competir con el estándar O1 de OpenAI en el desafío académico de matemáticas AIME24.

El proceso de entrenamiento se estructura en tres pasos, cada uno aumentando la longitud máxima de secuencia utilizada: comenzando en 8K, luego 16K y finalmente 24K. Este aumento gradual ayuda a gestionar la distribución de las longitudes de secuencia de despliegue, optimizando el proceso de entrenamiento.

Proceso de Entrenamiento y Evaluación

La configuración de entrenamiento implica clonar el repositorio NeMo-RL e instalar los paquetes necesarios. El entrenamiento se lleva a cabo en fases, con la evaluación continua del modelo para asegurar que se cumplan los puntos de referencia de rendimiento. Los resultados demostraron que NeMo-RL logró una recompensa de entrenamiento de 0.65 en solo 400 pasos.

La evaluación en el benchmark AIME24 mostró que el modelo entrenado superó a OpenAI O1, destacando la efectividad de NeMo-RL cuando se combina con el algoritmo GRPO.

Introducción a NeMo-RL

NeMo-RL está disponible para uso de código abierto, proporcionando documentación detallada y scripts de ejemplo en su repositorio de GitHub. Este recurso es ideal para aquellos que buscan experimentar con el aprendizaje por refuerzo utilizando métodos escalables y eficientes.

La integración de la biblioteca con Hugging Face y su diseño modular la convierten en una herramienta poderosa para investigadores y desarrolladores que buscan aprovechar técnicas avanzadas de RL en sus proyectos.

Fuente de la imagen: Shutterstock

Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)