2025超节点在AI算力网络中的发展趋势及其对产业链的影响分析报告.pdf

1.超节点：AI算力网络新趋势
1.1单点到系统，Scale-up、Scale-out两维度拓展
大模型参数增长和模型架构变化的背景下，Scale up和Scale out是算力系统扩容的两个重要维度，可以帮助理解AI计算与网络硬件的发展趋势。
以货轮为比喻，当总运力需求扩张时，Scale-up是建造更大的货轮，而Scale-out则是增加货轮的数量。Scale-up追求硬件的紧密耦合；Scale-out追求实现弹性扩展，支撑松散任务(如数据并行)。二者在协议栈、硬件、容错机制上存在本质差异，通信效率不同。
以A100和H100分别组成的DGX 256 Pod为例，两者均由32台8卡服务器跨机柜组成。DGX A100实际为服务器通过Infiniband交换网络Scale-out组成；而DGX H100通过第二层NVSwitch组网，实现256个H100全互联，为Scale-up,形成1个超大节点，在通信性能方面具备优势。

1)Scale up较多表示GPU在节点内部的性能扩充。例如：增加Compute die或HBM的数量、性能；增加服务器等节点内的GPU数量，通过PCB、铜线等进行小范围互联；有时会增加一层交换芯片，例如PCle Switch,NVSwitch都是算力scale up的一部分。(传统的AI4卡、8卡、16卡服务器都是典型的Scale up形式。)
Scale-up系统往往对基于算力优化的网络协议与标准有更高技术要求。代表性的Scale-up网络包括英伟达多年迭代的NVLink、基于AMD早期Infinity Fabric协议的UALink、博通发布的Scale Up Ethernet(SUE)等，拥有更高的带宽和信令速率，从底层协议到系统硬件一般均独立与传统通信网络。例如英伟达的Blackwell芯片，其NVLink带宽达到1.8TB/s,由18个Port构成，每个Port 100GB/s、四对差分线构成、包含两组224Gbps的Serdes.
Scale up场景：张量并行、专家并行等，高频交互、内存读写是重点，通常放在超高带宽、超低时延的网络中进行处理。Scale up本质上是支持内存语义的网络。例如NVLink,在节点范围内实现内存语义级通信和总线域网络内部的内存共享，本质上是一个显存的Load-Store网络，性能和延迟均优于传统网络协议。一般Scale up网络是GPU芯片直出互连，不采用传统网络的传输层和网络层，采用信用机制流量控制、链路层重传等机制保障可靠性。
上代Scale-up规模为8卡，英伟达Clos结构领先。8卡服务器时代Scale-up主要为两种拓扑。1)网状拓扑：GPU之间以“手拉手”形式实现全互联，无交换芯片导致通信压力集中于GPU上，且GPU一对一通信效率下滑。2)Clos拓扑：英伟达将引入交换芯片引入Scale-up,使通信压力集中于NVSwitch,GPU间形成无阻塞的全互联；通信带宽弹性较大，能更好处理通信峰值，使集群性能提升。

当前Scale-up突破传统单服务器、单机柜限制进入“超节点”时代.Scale-up可理解为增加单个节点(过去指单台服务器)内GPU数量(从2卡到8卡);但其核心在于实现节点内全互联GPU,而非物理地存在于单台服务器或单个机柜。随着互联技术的演进，Scale-up正在突破单服务器、单机柜的限制，“超节点”可以跨服务器、跨机柜。
Scale up已成为全球算力方案商的发力重点。英伟达除了将NVLink的性能迭代作为重要定期更新之外，在2025 COMPUTEX会议上还以NVLink Fusion IP授权的形式对第三方部分开放了NVLink机柜级的架构互联；台媒《电子时报》报道称，首款支持UALink规范高速互联芯片最早可能今年底实现流片；博通发布Scale Up Ethernet技术框架，在多XPU系统中提供XPU间的通信。
超节点实际就是算力网络系统在单个或多个机柜层面的Scale up,节点内主流通信方案是铜连接与电气信号，跨机柜则考虑引入光通信；期与Scale out的硬件边界是NIC网卡，外部借助光模块、以太网交换机等设备。二者的架构设计、硬件设备、协议标准有本质不同。
目前，Scale up和Scale out尚未融合或交叉，以英伟达、博通、华为、海光等为代表的芯片厂商预计在Scale up领域深耕，而以太网(例如博通网络芯片、海思网络芯片、盛科通信等)则聚焦Scale out领域。
1.2英伟达：专用网络支持，单节点密度提升
英伟达在Hopper GPU一代尝试突破服务器架构、在机柜层级拓展Scale up系统。英伟达2023年发布DGXGH200系统是较早的“超节点”尝试，同过去A100和H100系列服务器最大区别在于，将Grace CPU和Hopper GPU封装在同一块板卡上，连同其他部件形成1U大小的“刀片服务器”,并将其通过内部线缆(cable cartndge)和光模块的方式和2层专门设计的NVLink交换机连接在一起。我们预计，早期成本和节点规模设计等因素影响了GH200的实际推广.

本文来自知之小站

完整报告已上传至知识星球，微信扫码加入立享4万+深度报告及1年期精选报告更新

（星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com）

相关文章

科技_工业_汽车专题研究：2025年秋季策略会速递——人形机器人：等待“Scaling Law”时刻 (1).pdf_下载

数据资产价值释放之行业应用场景解析与合规框架+–电力、热力、燃气及水生产和供应业.pdf_下载

中国文化影响力投资白皮书.pdf_下载