Inspur Information lanza el servidor de inferencia metabrain R1, capaz de liberar la potente potencia del módulo DeepSeek 671B en una sola máquina

24-02-2025

El 11 de febrero, Inspur Information lanzó oficialmente MetaBrain R1servidor de inferenciaA través de la innovación del sistema y la optimización colaborativa del hardware y el software, el modelo DeepSeek R1 671B se puede implementar y ejecutar en una sola máquina, lo que ayuda a los clientes a reducir significativamente la dificultad y el costo de implementación del modelo de parámetros completos DeepSeek R1, mejorar el rendimiento del servicio de inferencia y acelerar el surgimiento de la exploración inteligente en varias industrias.

nference server

      Actualmente, DeepSeek es de código abierto con múltiples versiones de modelos, lo que ayuda a varias industrias a acelerar la aplicación de la tecnología de modelos grandes para promover la actualización y transformación empresarial. Entre ellos, el modelo DeepSeek R1 671B, como un modelo grande básico completamente parametrizado, tiene una mayor capacidad de generalización, mayor precisión y mejor capacidad de comprensión del contexto en comparación con el modelo de destilación. Sin embargo, también impone mayores requisitos en la capacidad de memoria de video del sistema, el ancho de banda de memoria de video, el ancho de banda de interconexión y la latencia: se necesitan al menos unos 800 GB de memoria de video para la precisión FP8, y se requieren más de 1,4 TB de espacio de memoria de video para la precisión FP16/BF16; Además, DeepSeek R1 es un modelo típico de cadena de pensamiento larga con las características de aplicación de entrada corta y salida larga. La etapa de decodificación de inferencia se basa en un mayor ancho de banda de memoria de video y una latencia de comunicación extremadamente baja. Basado en las características de potencia informática y los requisitos del sistema del modelo 671B, el servidor de inferencia metabrain R1 proporciona capacidad de memoria de video, ancho de banda de memoria de video y velocidad de comunicación líderes, lo que puede ayudar a las empresas a completar de manera eficiente la implementación de localización de los modelos de parámetros completos de DeepSeek.

      Elmetacerebro R1El servidor de inferencia NF5688G7 es una plataforma de computación de IA de alto rendimiento líder, nativa del motor de computación FP8, con una velocidad de implementación rápida y sin pérdida de precisión para el modelo DeepSeek R1 671B. En términos de memoria de video, se proporciona una memoria de video de alta velocidad HBM3e de 1128 GB para cumplir con el requisito de no menos de 800 GB de capacidad de memoria de video con la precisión FP8 del modelo 671B. Incluso cuando una sola máquina admite la inferencia de modelo completa, aún se reserva suficiente espacio de caché KV. El ancho de banda de la memoria de video es de hasta 4,8 TB/s, lo que coincide perfectamente con las características técnicas del modelo DeepSeek R1 de "entrada corta salida larga, sensibilidad del ancho de banda de la memoria de video", y puede lograr la máxima aceleración en la etapa de decodificación de inferencia. En términos de comunicación, el ancho de banda P2P de la GPU alcanza los 900 GB/s, lo que garantiza un rendimiento de comunicación óptimo para la implementación paralela de tensores en una sola máquina. Con base en el último marco de inferencia, una sola máquina puede admitir entre 20 y 30 usuarios simultáneos. Al mismo tiempo, un solo NF5688G7 está equipado con una red de expansión sin pérdidas de 3200 Gbps, que puede lograr una expansión ágil de acuerdo con el crecimiento de las necesidades comerciales del usuario y proporcionar una solución llave en mano de clúster de servidores R1 maduro.

      El servidor de inferencia metabrain R1 NF5868G8 es un servidor de inferencia de alto rendimiento diseñado específicamente para modelos de razonamiento de gran tamaño. Es el primero de la industria en admitir 16 tarjetas PCIe estándar de doble ancho en una sola máquina, lo que proporciona hasta 1536 GB de capacidad de memoria de video y admite la implementación de modelos DeepSeek 671B en una sola máquina con precisión FP16/BF16. Investigación y desarrollo innovadores de una topología de 16 tarjetas completamente interconectadas basada en PCIe Fabric, con un ancho de banda de comunicación P2P de hasta 128 GB/s para dos tarjetas cualesquiera, lo que reduce la latencia de la comunicación en más del 60 %. A través de la optimización colaborativa de hardware y software, en comparación con los modelos PCIe tradicionales de 2 máquinas y 8 tarjetas, NF5868G8 puede mejorar el rendimiento de inferencia del modelo DeepSeek 671B en casi un 40 % y actualmente admite múltiples opciones de tarjetas de aceleración de IA.

metabrain R1

Inspur Information es un proveedor líder mundial de productos, soluciones y servicios de infraestructura de TI. Al desarrollar una nueva generación de arquitectura informática centrada en sistemas, Inspur tiene como objetivo crear productos y soluciones informáticas inteligentes de metabrain abiertos, diversos y ecológicos. Inspur Information está comprometido con la investigación e innovación de plataformas informáticas de IA, plataformas de recursos y plataformas de algoritmos, y colabora con socios líderes a través del ecosistema de metabrain para acelerar la innovación y la aplicación de la inteligencia artificial.

                                       _________ El artículo es un extracto de la cuenta oficial de WeChat de Yuannao.



Obtenga el último precio? Le responderemos lo antes posible (dentro de las 12 horas)

Política de privacidad