2023年10月,中国人民银行等六部门联合印发《算力基础设施高质量发展行动计划》,指出“算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力”,针对网络运载力提出“优化算力高效运载质量、强化算力接入网络能力、提升枢纽网络传输效率、探索算力协同调度机制”的重点任务,明确通过“算力+金融”加快算力在金融领域的创新应用,为金融业务发展提供更为精准、高效的算力支持。
AI大模型智算网络技术是算力集群的重要基础底座,是新型算力中的网络运载力,是助力大模型实现跨节点分布式训练,提升大规模训练效率的重要支撑。
本文深入分析AI大模型技术在模型能力、结构、算力、效率等方面的技术发展趋势,提出作为底座的智算网络所面临的新问题和新挑战。围绕AI大模型智算网络“高性能连接、高效率传输、高可维网络、高安全保障”等关键技术进行研究,提供一套适应金融特征的覆盖数据中心、骨干及分支的AI智算网络技术方案。结合行业业务及技术发展方向,将金融业AI智算网建设演进划分为打造底座、构建系统、完善生态3个阶段,并给出了新技术发展及创新方向,为金融机构开展AI大模型智算网络规划及建设提供参考。
关键词:大模型训练、智算网络、负载均衡、流控技术、拥塞管理
一、研究背景
(一)AI大模型发展趋势及挑战
随着新一轮科技革命和产业变革加速推进,AI大模型浪潮席卷全球,成为最具影响力的创新科技,大模型被认为是未来人工智能领域的关键基础设施。AI大模型正加速定义及形成新服务、新制造、新业态,成为数字时代的新质生产力。
随着技术演进,AI大模型技术呈现以下显著发展趋势:
一是模型能力持续提升。随着深度学习技术不断发展,AI大模型的参数规模和计算能力不断增加,使得模型能够处理更加复杂的任务和数据。2022年发布的自然语言模型GPT-3,能生成高质量的自然语言文本,能进行翻译、问答、文本生成等任务;在2024年诞生的Sora模型,不仅演进到视频生成的能力,还具备理解和应用现实世界物理规律的强大能力。AI大模型逐渐从能说会道过渡到了突破多模态,形成了人机混合、自主理解、规划决策、执行复杂任务的智能体AI Agent。
二是模型结构持续演进。稠密模型由于其结构简单及易于实现,在早期成为大模型的主流。但是随着AI模型规模不断扩大,计算和存储资源的需求不断增加,成为新的挑战。稀疏模型因其支持参数剪枝,在保持模型性能的同时极大降低了计算成本,因而受到更多关注并逐步成为演进方向。
三是模型算力持续增长。从2016年到2024年,GPU单卡算力增长了1000倍;以英伟达GPU为例,其单卡算力增长速度达到每6个月翻一番,超过了摩尔定律。新出现的Super pod超节点技术可将多个GPU集成在一个较大的服务器中,通过高速总线互联,实现高带宽、低延迟的数据交换和通信,以持续提升单节点算力(例如英伟达GB200)。另一方面,大模型的参数量从GPT-1的0.1B增长到ChatGPT的175B,模型所需算力在四年间也从GPT-1的1PF¹ops增长到ChatGPT的3000+PFlops,如表1所示。
四是模型效率持续优化。随着AI大模型的规模和复杂性增加,训练效率面临严峻挑战。业界通过并行通信算法优化、模型算法优化、混合精度训练优化等技术在训练框架层、通信算法层持续提升AI模型训练的效率。随着技术的不断进步,未来必定会有更多高效训练AI模型的方法出现。
AI大模型持续加速演进,其庞大的训练任务需要大量服务器节点通过高速网络互联组成AI算力集群协同完成。但AI算力集群并非通过简单算力堆叠即可实现完美线性扩展,而是取决于节点间网络通信及集群系统资源调度能力。网络系统的性能及可用性成为AI算力集群的线性度和稳定性的关键,也面临新的挑战:
一是高性能传输挑战。大模型需要大量的数据进行训练和推理,千亿模型单次计算迭代内,梯度同步需要的通信量达百GB量级;MoE稀疏模型下张量并行的卡间互联流量带宽需求达到数百至上千GBps量级。服务器节点间互联网络会承载数据并行和流水线并行流量,千亿参数模型如GPT-3并行训练节点间带宽需求达到13.5GB(108Gbps),如表2所示。万亿模型参数面带宽需求增加到200Gbps至400Gbps。AI智算网络需提供更高的带宽来支持数据快速传输,并且支持算力的横向扩展能力。
本文来自知之小站
PDF完整报告已分享至知识星球,微信扫码加入立享4万+最新精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
