1.超节点:AI算力网络新趋势
1.1单点到系统,Scale-up、Scale-out两维度拓展
大模型参数增长和模型架构变化的背景下,Scale up和Scale out是算力系统扩容的两个重要维度,可以帮助理解AI计算与网络硬件的发展趋势。
以货轮为比喻,当总运力需求扩张时,Scale-up是建造更大的货轮,而Scale-out则是增加货轮的数量。Scale-up追求硬件的紧密耦合;Scale-out追求实现弹性扩展,支撑松散任务(如数据并行)。二者在协议栈、硬件、容错机制上存在本质差异,通信效率不同。
以A100和H100分别组成的DGX 256 Pod为例,两者均由32台8卡服务器跨机柜组成。DGX A100实际为服务器通过Infiniband交换网络Scale-out组成;而DGX H100通过第二层NVSwitch组网,实现256个H100全互联,为Scale-up,形成1个超大节点,在通信性能方面具备优势。
1)Scale up较多表示GPU在节点内部的性能扩充。例如:增加Compute die或HBM的数量、性能;增加服务器等节点内的GPU数量,通过PCB、铜线等进行小范围互联;有时会增加一层交换芯片,例如PCle Switch,NVSwitch都是算力scale up的一部分。(传统的AI4卡、8卡、16卡服务器都是典型的Scale up形式。)
Scale-up系统往往对基于算力优化的网络协议与标准有更高技术要求。代表性的Scale-up网络包括英伟达多年迭代的NVLink、基于AMD早期Infinity Fabric协议的UALink、博通发布的Scale Up Ethernet(SUE)等,拥有更高的带宽和信令速率,从底层协议到系统硬件一般均独立与传统通信网络。例如英伟达的Blackwell芯片,其NVLink带宽达到1.8TB/s,由18个Port构成,每个Port 100GB/s、四对差分线构成、包含两组224Gbps的Serdes.
Scale up场景:张量并行、专家并行等,高频交互、内存读写是重点,通常放在超高带宽、超低时延的网络中进行处理。Scale up本质上是支持内存语义的网络。例如NVLink,在节点范围内实现内存语义级通信和总线域网络内部的内存共享,本质上是一个显存的Load-Store网络,性能和延迟均优于传统网络协议。一般Scale up网络是GPU芯片直出互连,不采用传统网络的传输层和网络层,采用信用机制流量控制、链路层重传等机制保障可靠性。
上代Scale-up规模为8卡,英伟达Clos结构领先。8卡服务器时代Scale-up主要为两种拓扑。1)网状拓扑:GPU之间以“手拉手”形式实现全互联,无交换芯片导致通信压力集中于GPU上,且GPU一对一通信效率下滑。2)Clos拓扑:英伟达将引入交换芯片引入Scale-up,使通信压力集中于NVSwitch,GPU间形成无阻塞的全互联;通信带宽弹性较大,能更好处理通信峰值,使集群性能提升。
当前Scale-up突破传统单服务器、单机柜限制进入“超节点”时代.Scale-up可理解为增加单个节点(过去指单台服务器)内GPU数量(从2卡到8卡);但其核心在于实现节点内全互联GPU,而非物理地存在于单台服务器或单个机柜。随着互联技术的演进,Scale-up正在突破单服务器、单机柜的限制,“超节点”可以跨服务器、跨机柜。
Scale up已成为全球算力方案商的发力重点。英伟达除了将NVLink的性能迭代作为重要定期更新之外,在2025 COMPUTEX会议上还以NVLink Fusion IP授权的形式对第三方部分开放了NVLink机柜级的架构互联;台媒《电子时报》报道称,首款支持UALink规范高速互联芯片最早可能今年底实现流片;博通发布Scale Up Ethernet技术框架,在多XPU系统中提供XPU间的通信。
超节点实际就是算力网络系统在单个或多个机柜层面的Scale up,节点内主流通信方案是铜连接与电气信号,跨机柜则考虑引入光通信;期与Scale out的硬件边界是NIC网卡,外部借助光模块、以太网交换机等设备。二者的架构设计、硬件设备、协议标准有本质不同。
目前,Scale up和Scale out尚未融合或交叉,以英伟达、博通、华为、海光等为代表的芯片厂商预计在Scale up领域深耕,而以太网(例如博通网络芯片、海思网络芯片、盛科通信等)则聚焦Scale out领域。
1.2英伟达:专用网络支持,单节点密度提升
英伟达在Hopper GPU一代尝试突破服务器架构、在机柜层级拓展Scale up系统。英伟达2023年发布DGXGH200系统是较早的“超节点”尝试,同过去A100和H100系列服务器最大区别在于,将Grace CPU和Hopper GPU封装在同一块板卡上,连同其他部件形成1U大小的“刀片服务器”,并将其通过内部线缆(cable cartndge)和光模块的方式和2层专门设计的NVLink交换机连接在一起。我们预计,早期成本和节点规模设计等因素影响了GH200的实际推广.
本文来自知之小站
PDF完整报告已分享至知识星球,微信扫码加入立享4万+最新精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
