扁平化智算网络架构研究报告.pdf下载

前 言
大模型巨大的算力需求,持续提升了集群的规模,产生了大规模的Scale-out网络。模型稀疏化的演进趋势,又驱动了更大规模局部大带宽互连需求,产生了逐渐扩大的Scale-up网络。
本研究报告通过剖析智算网络训练与推理两大场景的业务负载及变化趋势,梳理不同网络类型的核心需求,对业界组网架构现状展开优缺点分析,进而提出扁平化优化方向,并展望未来网络架构发展方向。需强调:扁平化架构的实现亟需产业链深度协同,关键在于突破端侧网卡与I/O Die、及网侧交换机的高扇出能力、低功耗低时延且开放的光电互连能力、及端网协同的负载均衡与故障隔离等核心技术,这要求芯片商、设备商及最终用户形成联合攻坚生态。

一、智算网络场景
大模型训练已成为史上规模最大、计算与通信密集度最高的并行计算应用。遵循所谓的扩展定律(Scaling Laws),大模型的性能通过扩展模型参数和训练数据量得到提升。因此,为了在合理时间内完成训练,大模型对XPU(AI加速器)的数量需求持续增长。例如,开源的LLAMA-3.1模型在1.6万块GPU上进行训练,而下一代模型已使用10万块GPU进行训练。
(一)业务负载说明
1.训练场景
标准训练流程需要重复执行训练迭代轮次,其中每一轮迭代包含:前向传播计算损失值、反向传播确定梯度,以及通过优化器调整模型参数。为充分利用分布式算力,大模型训练通过多种并行策略将数据、模型和激活张量分割至数万块XPU。在每个迭代轮次内,XPU之间频繁交换数据以分发输入数据、同步激活值及梯度等。随着训练系统规模扩大,数据移动成为整个系统中最耗资源的环节。若缺乏强大的通信能力,训练过程极易被”通信墙”制约。

本文来自知之小站

 

报告已上传知识星球,微信扫码加入立享4万+深度报告下载及1年更新。3天内不满意退出星球款项原路退回,欢迎试用。到期续费仅需5折

(如无法加入或其他事宜可联系zzxz_88@163.com)