NVIDIA NeMo-RL Sử Dụng GRPO Cho Học Tăng Cường Nâng Cao

robot
Đang tạo bản tóm tắt

Peter Zhang

10 tháng 7, 2025 06:07

NVIDIA giới thiệu NeMo-RL, một thư viện mã nguồn mở cho học tăng cường, cho phép đào tạo mở rộng với GRPO và tích hợp với các mô hình của Hugging Face.

NVIDIA đã công bố NeMo-RL, một thư viện mã nguồn mở tiên tiến được thiết kế để nâng cao khả năng học tăng cường (RL), theo blog chính thức của NVIDIA. Thư viện hỗ trợ đào tạo mô hình quy mô, từ các nguyên mẫu sử dụng một GPU đến các triển khai lớn với hàng nghìn GPU, và tích hợp liền mạch với các framework phổ biến như Hugging Face.

Kiến trúc và Tính năng của NeMo-RL

NeMo-RL là một phần của Khung NVIDIA NeMo rộng lớn hơn, nổi tiếng với tính linh hoạt và khả năng hiệu suất cao. Thư viện bao gồm tích hợp gốc với các mô hình Hugging Face, quy trình đào tạo và suy diễn tối ưu. Nó hỗ trợ các thuật toán RL phổ biến như DPO và GRPO và sử dụng điều phối dựa trên Ray để tăng hiệu quả.

Kiến trúc của NeMo-RL được thiết kế với sự linh hoạt trong tâm trí. Nó hỗ trợ nhiều backend đào tạo và triển khai, đảm bảo rằng các triển khai thuật toán cấp cao vẫn không bị phụ thuộc vào các chi tiết của backend. Thiết kế này cho phép mở rộng các mô hình một cách liền mạch mà không cần phải chỉnh sửa mã thuật toán, khiến nó lý tưởng cho cả triển khai quy mô nhỏ và quy mô lớn.

Triển khai DeepScaleR với GRPO

Bài viết trên blog khám phá ứng dụng của NeMo-RL để tái sản xuất công thức DeepScaleR-1.5B bằng cách sử dụng thuật toán Tối ưu chính sách tương đối nhóm (GRPO). Điều này bao gồm việc đào tạo các mô hình lý luận hiệu suất cao, chẳng hạn như Qwen-1.5B, để cạnh tranh với tiêu chuẩn O1 của OpenAI trong thử thách toán học AIME24.

Quá trình đào tạo được cấu trúc thành ba bước, mỗi bước tăng độ dài chuỗi tối đa được sử dụng: bắt đầu từ 8K, sau đó là 16K, và cuối cùng là 24K. Sự gia tăng dần này giúp quản lý sự phân phối độ dài chuỗi triển khai, tối ưu hóa quá trình đào tạo.

Quy trình đào tạo và đánh giá

Cài đặt huấn luyện liên quan đến việc sao chép kho NeMo-RL và cài đặt các gói cần thiết. Việc huấn luyện được tiến hành theo từng giai đoạn, với mô hình được đánh giá liên tục để đảm bảo các tiêu chuẩn hiệu suất được đáp ứng. Các kết quả đã chứng minh rằng NeMo-RL đạt được phần thưởng huấn luyện là 0.65 chỉ sau 400 bước.

Đánh giá trên chuẩn AIME24 cho thấy mô hình đã được đào tạo vượt qua OpenAI O1, nhấn mạnh hiệu quả của NeMo-RL khi kết hợp với thuật toán GRPO.

Bắt đầu với NeMo-RL

NeMo-RL có sẵn để sử dụng mã nguồn mở, cung cấp tài liệu chi tiết và các kịch bản ví dụ trên kho lưu trữ GitHub của nó. Tài nguyên này là lý tưởng cho những ai muốn thử nghiệm với học tăng cường bằng các phương pháp có thể mở rộng và hiệu quả.

Sự tích hợp của thư viện với Hugging Face và thiết kế mô-đun của nó tạo thành một công cụ mạnh mẽ cho các nhà nghiên cứu và phát triển đang tìm cách tận dụng các kỹ thuật RL tiên tiến trong các dự án của họ.

Nguồn hình ảnh: Shutterstock

Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)