El servidor de inteligencia artificial de Lenovo logra por primera vez implementar la implementación local de DeepSeek, un modelo completo de menos de 1 TB, con soporte para 100 concurrencias.
La información de Jinshi del 3 de marzo, recientemente, el Grupo Lenovo anunció que, basándose en el servidor Lenovo Watan WA7780 G3, logró implementar por primera vez en la industria el despliegue único del gran modelo DeepSeek-R1/V3 671B, con una memoria gráfica inferior a 1TGB (realmente 768GB) para proporcionar una experiencia fluida a 100 usuarios concurrentes. Según los datos de prueba de Lenovo, en un entorno de prueba estándar de 512 TOKEN, este sistema puede admitir 100 usuarios concurrentes para obtener una producción estable de 10 TOKEN por segundo, con un tiempo de respuesta del primer TOKEN comprimido en menos de 30 segundos.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
El servidor de inteligencia artificial de Lenovo logra por primera vez implementar la implementación local de DeepSeek, un modelo completo de menos de 1 TB, con soporte para 100 concurrencias.
La información de Jinshi del 3 de marzo, recientemente, el Grupo Lenovo anunció que, basándose en el servidor Lenovo Watan WA7780 G3, logró implementar por primera vez en la industria el despliegue único del gran modelo DeepSeek-R1/V3 671B, con una memoria gráfica inferior a 1TGB (realmente 768GB) para proporcionar una experiencia fluida a 100 usuarios concurrentes. Según los datos de prueba de Lenovo, en un entorno de prueba estándar de 512 TOKEN, este sistema puede admitir 100 usuarios concurrentes para obtener una producción estable de 10 TOKEN por segundo, con un tiempo de respuesta del primer TOKEN comprimido en menos de 30 segundos.