Dữ liệu Kim Tứ ngày 3 tháng 3, Lenovo Group mới đây đã thông báo rằng dựa trên máy chủ Lenovo Hỏi Thiên WA7780 G3, họ đã thành công triển khai mô hình lớn DeepSeek-R1/V3 671B trên một máy duy nhất lần đầu tiên trong ngành, với dung lượng VRAM thấp hơn so với 1TGB được công nhận trong ngành (thực tế là 768GB), mang lại trải nghiệm mượt mà cho 100 người dùng song song. Theo dữ liệu thử nghiệm thực tế của Lenovo, trong môi trường thử nghiệm chuẩn 512 token, hệ thống này có thể hỗ trợ 100 người dùng song song liên tục nhận được đầu ra ổn định 10 token mỗi giây, với thời gian phản hồi token đầu tiên được nén xuống dưới 30 giây.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Máy chủ AI của Lenovo lần đầu tiên triển khai cục bộ, DeepSeek toàn mô hình dưới 1TB, hỗ trợ 100 đồng thời
Dữ liệu Kim Tứ ngày 3 tháng 3, Lenovo Group mới đây đã thông báo rằng dựa trên máy chủ Lenovo Hỏi Thiên WA7780 G3, họ đã thành công triển khai mô hình lớn DeepSeek-R1/V3 671B trên một máy duy nhất lần đầu tiên trong ngành, với dung lượng VRAM thấp hơn so với 1TGB được công nhận trong ngành (thực tế là 768GB), mang lại trải nghiệm mượt mà cho 100 người dùng song song. Theo dữ liệu thử nghiệm thực tế của Lenovo, trong môi trường thử nghiệm chuẩn 512 token, hệ thống này có thể hỗ trợ 100 người dùng song song liên tục nhận được đầu ra ổn định 10 token mỗi giây, với thời gian phản hồi token đầu tiên được nén xuống dưới 30 giây.