通用人工智能离我们越来越近,全世界的关注和投入正在带来日新“周”异的变化。回顾人工智能的诞生和发展历程,人类计算能力的进步几乎牵动了每一次的重大技术突破,当前的大模型热潮更是如此,只是动辄千万亿参数级的模型体量,所需计算资源远超单颗芯片的上限,因此超大规模的计算集群成为支撑技术发展和应用创新的关键基础设施。
超大规模智算集群对整个数据中心基础设施提出了非常高的要求,能耗、网络等基础设施首当其冲。其中数据中心物理网络的迭代需求再次被提速,如何构建大(规模)、快(速率&带宽)、高(性能)、省(成本)、低(能耗)的网络来满足AI计算大集群的需求,成为了一个摆在产业界面前亟待解决的挑战。
数据中心网络交换机的单芯片容量即将进入100Tbps时代,SerDes速率也将跃至每通道200Gbps水平,ODCC 2023年网络工作组立项了本课题,旨在为下一代数据中心物理网络构建所需的相关新技术和系统方案进行初步的探索、研究和整理,以供业内参考。随着云计算作为社会基础设施进入普惠化阶段、AIGC为代表的人工智能掀起的新技术浪潮,数据中心网络作为核心竞争力和基础设施底座,仍然保持着更加快速的发展,在带宽、性能、稳定性方面有着永远无法满足的需求。
核心观点一:数据中心3年一代网络带宽翻倍,如今被AI计算的需求再次加速。商业网络芯片和商业互联方案进入更加繁荣的时代。
核心观点二:站在今天,通用计算时代的数据中心网络,和AI计算所需求的网络不可同日而语。大带宽(芯片容量)、大规模(芯片容量、链路带宽)、高性能、高稳定性(AI分布式并行计算对网络故障的容忍度极低),这些指标在以以太网为代表的通用计算场景下是可以trade-off的,但是,在AI计算场景下尤其是大模型训练场景下,以上指标是需要同时被极致满足的。
核心观点三:网络各层次的技术生态、产业生态需要更多的开源、开放,以此来提高整个产业的生产效率、惠普性,来解决能源消耗问题、底层基础技术对上层产业进步的支撑。
本文来自知之小站
PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
