算网一体及其网络技术问题探索.pdf

我国数据中心规模近五年年均增速达到近30%;截至2023年8月,我国在用标准机架超过760万架,算力总规模达197EFLOPS,位居全球第二(工信部2023.10世界5G大会)

中国移动对外可用IDC机架47.8万架,累计投产算力服务器超80.4万台,算力规模达到9.4EFlops(半

年报2023.8)

2022年2月, “东数西算”工程正式全面启动,8个国家算力枢纽节点,规划10个国家数据中心集群算力网络从未来网络的技术名词成为产业发展的旗帜,中国移动《算力网络白皮书》2021年11月

张量并行:将单个数学运算拆分到不同的GPU上运行

流水线并行:在不同GPU上运行模型的不同层

数据并行:在不同GPU上运行不同的batch data

·训练过程中的数据同步延迟可能导致整体训练流程停滞

·模型规模扩大造成通信量剧烈增长,需提供充足的网络带宽例如,在100Gbps网络下,在16GPU之间执行128MB AlIReduce需要至少消耗5ms;数据量进一步增加,理论传输时间会等比例上升。

端、边、云分属不同信息域,信息域内存在不同资源供给主体打破不同信息域的信息边界缺乏需求驱动,缺乏实际机制屏蔽差异性统一获取状态信息

如即便在云计算信息域内,存在多家大中型云计算提供商,且信息不互通,难以实现跨资源供给主体的协同调度

③对网络提出了新的需求,网络需增强服务能力

同一个服务分散部署在端、边、云不同位置的服务流量特点不同,需提供差异化的网络服务

协同拉长了服务提供环节,任一个环节的状态变化都需要网络灵活反应,对网、端、边、云的融合与协同提出新需求,保障服务一致性和稳定性;且有隐私性和安全性问题

协同将单个服务分解为多个子服务分散部署,对服务提出新需求缺乏协同对服务性能提升的有效量化机制,服务侧改动现有机制的驱动力不足

需均衡考虑协同各参与方的目标诉求,在提升性能的同时均衡各方诉求,以驱动服务协同

④需找到开销和性能提升的平衡点,目标场景仍需明确

协同带来了性能提升的同时也引入了额外的开销等,需进一步量化分析开销,寻求性能提升和开销的均衡点

需仔细论证现有研究假设,如端侧、边侧资源不足需要协同或云侧提供服务无法满足时延需求等问题在现网中的实际情况,避免“为了协同而协同”,需继续明确协同场景

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入查阅下载3万+精选资料,年享1万+精选更新

(星球内含更多未发布精选报告.其它事宜可联系zzxz_88@163.com)