科技

浪潮信息元脑R1服务器高效解锁DeepSeek 671B全参数模型推理力

近日,浪潮信息公司正式揭晓了其最新的元脑R1推理服务器,这一创新产品的推出,标志着在AI推理领域的一次重大突破。通过深度的系统创新以及软硬件的紧密协同,元脑R1推理服务器能够在单机上顺利部署并运行DeepSeek R1 671B这一重量级模型,从而大幅度降低了全参数模型的部署门槛与成本,同时显著提升了推理服务的整体效能,为各行各业智能化转型注入了强劲动力。

DeepSeek开源项目提供了多个版本的模型,旨在推动各行业快速采纳大模型技术,加速业务革新。特别是DeepSeek R1 671B模型,以其强大的泛化能力、高精度及卓越的上下文理解能力,成为了全参数基础大模型的佼佼者。然而,这一模型的运行也对硬件提出了极为严苛的要求,包括巨大的显存容量、高带宽需求以及低延迟的互连通信。具体而言,在FP8精度下,至少需要800GB的显存支持,而在FP16/BF16精度下,则需超过1.4TB的显存空间。DeepSeek R1作为长思维链模型的代表,其短输入、长输出的特性,使得推理解码阶段对显存带宽和通信延迟有着极高的依赖。

为了应对DeepSeek R1 671B模型的这些挑战,元脑R1推理服务器推出了两款旗舰产品——NF5688G7与NF5868G8。NF5688G7作为高算效AI计算平台的佼佼者,原生集成了FP8计算引擎,专为DeepSeek R1 678B模型设计,部署迅速且精度无损。其配备的1128GB HBM3e高速显存,轻松满足了FP8精度下对显存容量的严苛要求,即便在单机支持全量模型推理的情况下,仍能保留充足的KV缓存空间。高达4.8TB/s的显存带宽,完美匹配了DeepSeek R1模型的技术特性,使得推理解码阶段得以极致加速。GPU P2P带宽高达900GB/s,确保了单机部署下的最佳通讯性能,单机可支持20-30用户的并发操作。同时,3200Gbps的无损扩展网络,提供了灵活的扩展能力,为用户提供了成熟的R1服务器集群解决方案。

另一款旗舰产品NF5868G8,则是专为大型推理模型设计的高吞吐推理服务器。它开创了业界先河,实现了单机支持16张标准PCIe双宽卡,提供了高达1536GB的显存容量,使得在FP16/BF16精度下单机部署DeepSeek 671B模型成为可能。通过创新的PCIe Fabric全互连拓扑设计,任意两张卡之间的P2P通信带宽可达128GB/s,通信延迟降低了超过60%。软硬件的协同优化,使得NF5868G8相比传统2机8卡PCIe机型,在DeepSeek 671B模型的推理性能上提升了近40%,并支持多元AI加速卡的灵活选配。

浪潮信息作为全球领先的IT基础设施提供商,一直致力于新一代以系统为核心的计算架构的发展,旨在打造开放、多元且环保的元脑智算解决方案。公司在AI计算平台、资源平台及算法平台方面不断推陈出新,并通过元脑生态体系,携手众多行业伙伴,共同加速人工智能的创新与应用落地。此次元脑R1推理服务器的推出,无疑是浪潮信息在推动AI技术普及与行业智能化转型道路上的又一重要里程碑。

你可能也会喜欢...