1引言
DeepSeek V3/R1作为业界领先的开源大语言模型,已在自然语言处理、代码生成、知识推理等多个领域展现出卓越的应用价值。DeepSeek团队于3月份推出了迭代版本DeepSeekV3-0324[4],加强其代码和数学能力,并于4月份发布具备更强数学定理证明能力的DeepSeek-Prover-V2-671B [11]。这两款新的模型与原始DeepScek V3架构完全兼容,仅需进行参数差异化配置的权重调整,便可实现既有模型部署方案的无缝迁移。这一设计不仅降低了技术迭代的边际成本,更有效扩大了DeepSeek V3系列模型的使用范围。
本报告分享当前在昇腾服务器上高性能DeepSeek V3/R1部署方案的最佳实践,包括具体的部署方案和关键优化特性的简单介绍。关键优化特性的详细报告将于近期陆续发布。
昇腾服务器有多种配置和型号,我们针对近期发布的CloudMatrix 384超节点和Atlas 800IA2推理服务器两种典型机型进行部暑。
为了解耦Prefll阶段的首token时延约束和Decode阶段的解码时延约束,同时希望针对不同场景选择最优的部暑策略和计算流程,我们采用PD分离部暑的方式。在框架侧,以vLLM为基础,针对DP、EP和TP并行策略做了相应适配,在KVCache传输方面采用了灵衢直联的技术来降低开销,在请求下发、调度策略和框架前后处理等方面做了性能优化,以实现整个系统的最优性能。模型方面,采用A8W8(INT8)的动态量化策略。针对昇腾芯片和昇腾服务器组网特征,从数学上重新审视模型的推理过程,并综合考虑了数据搬运量、数据通信量、计算量和内存占用量,选用了合适的并行方式和计算逻辑,有效降低了模型推理过程中的通信和计算耗时;我们还充分利用了昇腾硬件的多流并发能力,实现通信-计算并发、通信-通信并发和通信-权重预取并发等多种加速技术,从而做到通信/计算/数据搬运的相互掩盖,实现模型层面的极致性能。算子方面,我们针对DeepSeck模型的特点,提出了多种结合数学等价变换、融合算子、缓存复用、流水掩盖等技术的极致优化的计算算子和通信算子,特别是在MLA、MLA前序计算、Dispatch/Combine通算融合算子和指令级底层通信调度方面做了深入的优化,以最大化利用昇腾的算力、访存带宽和通信带宽。
详细的部署方面,由于两种机型定位和配置不同,所以具体部署方案也不尽相同。针对CloudMatrix 384超节点,其特殊的组网方式使其具有很高的通信带宽。按照DeepSeek的论文[16]所述,Decode部分是严重的通信瓶颈,在Micro-batch技术的加持下,几乎可以做到通信掩盖其他所有计算类操作。而CloudMatrix 384的独特组网使得通信耗时大幅降低,可以有效释放昇腾芯片的算力,具体见第7.2节。因此,针对超节点我们采用大规模EP并行的方式来部署:Prefill使用16卡,Decode使用144卡。其中Deoode部分使用128卡通过大规模EP的方式部暑路由专家,16卡通过DP的方式部暑共享专家,MLA部分使用DP的方式进行部署。按照类似于[16]的分析,超节点可以获得非常高的理论吞吐。实际场景下,由于各种因素的影响,包括Deoode时延的约束使得各部分耗时未能达到理想的线性度,带宽抢占带来一部分性能劣化,框架的耗时和调度开销带来了额外的时延增加,MLA部分的序列负载均衡和MoE部分的专家负载均衡带来进一步的性能恶化;最后多种因素综合在一起,使得当前吞吐如[19]所述,实现在保证50ms时延下单卡Deoode吞吐达到1920 Tokens/s。
针对Atlas 800I A2服务器,由于每个节点包含8张异腾芯片,我们需要采用多节点互联的方式来进行部暑。综合考虑模型吞吐和部暑灵活性,我们选定使用2节点16卡作为一个Prefill实例,4节点32卡作为一个Deoode实例。为了部暑时尽可能的灵活,这里选用的卡数较少,这使得整个系统采用较小规模的EP并行策略:每张卡上部署8(Deoode)/16(Prefill)个路由专家和1个共享专家。在Deoode阶段,MLA部分采用DP并行策略,通信方式采用AllGather/ReduceScatter方案。这种部署方式可以在卡数较少情况下依然达到相当可观的吞吐。值得一提的是,真实负载下AllGather/ReduceScatter比Dispatch/Combine的通信方案具有更好的性能表现。综合上述优化方案,我们实现了在100ms时延下单卡吞吐达到723~808Tokens/s。
本文结构安排如下:在第2节简单介绍昇腾服务器相关的硬件信息,在第3节详细介绍两种不同机型下的部暑方案,在第4,5,6节分别介绍框架层、模型层和算子层的优化技术,在第7节给出两种部暑下的性能分析结果,最后列举一些当前部署方案后续要增加的特性和优化方案。
本文来自知之小站
PDF完整报告已分享至知识星球,微信扫码加入立享4万+最新精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
