NVIDIA NeMo-RL utiliza GRPO para el aprendizaje por refuerzo avanzado

2025-07-09 22:07:29

Generación de resúmenes en curso

Peter Zhang

10 de julio de 2025 06:07

NVIDIA presenta NeMo-RL, una biblioteca de código abierto para el aprendizaje por refuerzo, que permite un entrenamiento escalable con GRPO e integración con modelos de Hugging Face.

NVIDIA ha presentado NeMo-RL, una biblioteca de código abierto de vanguardia diseñada para mejorar las capacidades de aprendizaje por refuerzo (RL), según el blog oficial de NVIDIA. La biblioteca admite el entrenamiento de modelos escalables, que van desde prototipos de una sola GPU hasta implementaciones masivas de mil GPU, e integra de manera fluida con marcos populares como Hugging Face.

Arquitectura y características de NeMo-RL

NeMo-RL es parte del marco más amplio de NVIDIA NeMo, conocido por su versatilidad y capacidades de alto rendimiento. La biblioteca incluye integración nativa con modelos de Hugging Face, procesos de entrenamiento e inferencia optimizados. Soporta algoritmos de RL populares como DPO y GRPO y emplea orquestación basada en Ray para la eficiencia.

La arquitectura de NeMo-RL está diseñada con la flexibilidad en mente. Soporta varios backends de entrenamiento y despliegue, asegurando que las implementaciones de algoritmos de alto nivel permanezcan independientes de las especificaciones del backend. Este diseño permite la escalabilidad sin problemas de los modelos sin necesidad de modificaciones en el código del algoritmo, lo que lo hace ideal tanto para implementaciones a pequeña escala como a gran escala.

Implementando DeepScaleR con GRPO

El artículo del blog explora la aplicación de NeMo-RL para reproducir una receta de DeepScaleR-1.5B utilizando el algoritmo de Optimización de Políticas Relativas en Grupo (GRPO). Esto implica entrenar modelos de razonamiento de alto rendimiento, como Qwen-1.5B, para competir con el estándar O1 de OpenAI en el desafío académico de matemáticas AIME24.

El proceso de entrenamiento se estructura en tres pasos, cada uno aumentando la longitud máxima de secuencia utilizada: comenzando en 8K, luego 16K y finalmente 24K. Este aumento gradual ayuda a gestionar la distribución de las longitudes de secuencia de despliegue, optimizando el proceso de entrenamiento.

Proceso de Entrenamiento y Evaluación

La configuración de entrenamiento implica clonar el repositorio NeMo-RL e instalar los paquetes necesarios. El entrenamiento se lleva a cabo en fases, con la evaluación continua del modelo para asegurar que se cumplan los puntos de referencia de rendimiento. Los resultados demostraron que NeMo-RL logró una recompensa de entrenamiento de 0.65 en solo 400 pasos.

La evaluación en el benchmark AIME24 mostró que el modelo entrenado superó a OpenAI O1, destacando la efectividad de NeMo-RL cuando se combina con el algoritmo GRPO.

Introducción a NeMo-RL

NeMo-RL está disponible para uso de código abierto, proporcionando documentación detallada y scripts de ejemplo en su repositorio de GitHub. Este recurso es ideal para aquellos que buscan experimentar con el aprendizaje por refuerzo utilizando métodos escalables y eficientes.

La integración de la biblioteca con Hugging Face y su diseño modular la convierten en una herramienta poderosa para investigadores y desarrolladores que buscan aprovechar técnicas avanzadas de RL en sus proyectos.

Fuente de la imagen: Shutterstock

Ver originales

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
BTC Hits New High
55k Popularidad
ETH Breaks $3,000
31k Popularidad
VIP Exclusive Airdrop Carnival
9k Popularidad
4Pump.Fun Debuts on Gate
4k Popularidad
5Fed June Meeting Minutes
4k Popularidad
6Join Gate VIP to Win MacBook
29k Popularidad
7Trump Tariff Hikes
16k Popularidad
8Gate xStocks Trading Share
22k Popularidad
9HK Stablecoin Rules
12k Popularidad
10Truth Social Crypto ETF
2k Popularidad

Anclado