本白皮书面向未来智算中心规模建设和AI大模型发展及部署需求,联合产业合作伙伴共同提出全调度以太网(GSE)技术架构,旨在突破智算中心网络性能瓶颈,打造无阻塞、高带宽及超低时延的新型智算中心网络,助力AIGC等高性能业务快速发展。
本白皮书的版权归中国移动研究院所有,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明来源。
目前,AIGC(AI-Generated Content,人工智能生产内容)发展迅猛,迭代速度呈现指数级增长,全球范围内经济价值预计将达到数万亿美元。在中国市场,AIGC的应用规模有望在2025年突破2000亿元,这一巨大的潜力吸引着业内领军企业竞相推出千亿、万亿级参数量的大模型,底层GPU算力部署规模也达到万卡级别。以GPT3.5为例,参数规模达1750亿,作为训练数据集的互联网文本量也超过45TB,其训练过程依赖于微软专门建设的AI超算系统,以及由1万颗V100GPU组成的高性能网络集群,总计算力消耗约为3640 PF-days(即每秒一千万亿次计算,运行3640天)。
分布式并行计算是实现AI大模型训练的关键手段,通常包含数据并行、流水线并行及张量并行等多种并行计算模式。所有并行模式均需要多个计算设备间进行多次集合通信操作。另外,训练过程中通常采用同步模式,多机多卡间完成集合通信操作后才可进行训练的下一轮迭代或计算。智算中心网络作为底层通信连接底座,需要具备高性能、低时延的通信能力。一旦网络性能不佳,就会影响分布式训练的质量和速度。
面向未来智算中心规模建设和AI大模型发展及部署需求,中国移动联合多家合作伙伴推出了全调度以太网技术方案(GSE),打造无阻塞、高带宽及超低时延的新型智算中心网络,助力AIGC等高性能业务快速发展。
本文来自知之小站
PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
