前 言
随着以ChatGPT、Deepseek为代表的AI大模型崛起,算力需求呈指数级增长,全球正加速建设智算中心以应对这一挑战。智算中心内部或智算中心间海量的数据交换,对网络链路的可靠性提出了前所未有的要求。任何链路闪断或中断都可能导致AI训练任务失败,造成巨大的时问和资源浪费。然而,光模块的成本与可靠性瓶颈以及大规模集群中链路数量的激增,使得已有技术难以满足新型智算中心AI业务对可靠性的需求。
本白皮书面向新型智算中心逐渐以承载AI业务为主的演进诉求,提出FlexLane链路高可靠技术构想。该技术基于高速接口多通道架构的现状,打破原有固定组合,引入灵活多通道架构,通过降速运行实时有效的规避任何通道发生的故障,将链路可靠性提升万倍以上(助力AI网络互联可靠性超越5个9),保障AI训练和推理业务不受影响。FlexLane技术支持在现有设备上通过软件升级快速部署,或升级硬件实现更优的性能,同时可支持主动降速,在链路轻载和空闲期问动态节能,为智算中心提供灵活、经济、高效的可靠性保障。
本白皮书旨在提出中国移动及产业合作伙伴对以太网链路高可靠FlexLane技术的愿景、架构设计和能力要求。希望能够为产业在规划设计智算中心网络、网络互联高可靠相关技术、产品和解决方案时提供参考和指引。
本白皮书由中国移动通信有限公司研究院主编,中国信息通信研究院、清华大学、北京邮电大学、华为技术有限公司、中兴通讯有限公司、上海橙科微电子科技有限公司、新华三技术有限公司、锐捷网络股份有限公司、苏州盛科通信股份有限公司、朗美通通讯技术(深圳)有限公司、武汉光迅科技股份有限公司、思博伦通信科技(北京有限公司)、集益威半导体(上海)有限公司、成都新易盛通信技术股份有限公司、索尔思光电、武汉华工正源光子技术有限公司、上海云脉芯联科技有限公司联合编撰。
本白皮书不包含我国科技发展战略、方针、政策、计划等敏感信息。不包含涉密项目的背景、研制目标、路线和过程,敏感领域资源、数据,关键技术诀窍、参数和工艺信息。本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本建议之部分或全部内容。
1背景与需求
近年来,人工智能(AI)技术取得了突破性进展,特别是以ChatGPT、Deepseek为代表的大语言模型(LM)的兴起,标志着AI进入了一个全新的发展阶段。大模型通常拥有数千亿甚至万亿的参数,中小模型通常也有十亿参数以上,需要海量的算力进行训练和推理。为满足庞大的算力需求,智算中心作为AI发展的新型基础设施底座,正加速在全球范围内建设和部署。
本文来自知之小站
PDF完整报告已分享至知识星球,微信扫码加入立享4万+最新精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
