AIGC大模型算力平台参考设计.pdf

自OpenAl的ChatGPT发布以来,生成式Al技术获得了广泛关注,一系列开创性研究成果相继发布,引领了人工智能的新一轮创新浪潮。Al大模型是生成式Al的关键底座,得益于泛化能力强、长尾数据依赖性低以及下游模型使用效率高,大模型被认为具备了“通用人工智能AGI”的雏形。相比传统Al模型,大模型的训练使用了更庞大的数据,具有更巨量的模型参数和更发散的下游应用场景,对全社会生产力和生产效率的提升、传统产业转型升级具有重大的价值潜力。因此,全球范围内已经掀起了一场生成式Al革命,政策和资本驱动生成式Al技术加速商业化落地。

Al大模型发展需要庞大的Al算力支撑,大模型往往采用无标注、自监督的训练方法,使用海量数据做超大规模的模型训练,因而对于算力的需求和传统的模型训练相比也出现了3~4个数量级的提升。当前语言大模型的参数量已达千亿以上,训练数据集的规模也达到了TB级别。业界典型的自然

语言大模型有GPT、LLAMA、PaLM、文心、悟道、源等。如果用“算力当量”(PetaFlops/s-day,PD),即每秒千万

亿次的计算机完整运行一天消耗的算力总量来表征大模型的算力需求,具有1750亿参数的GPT-3模型的训练算力需求为3640PetaFlop/s-day。参数量为2457亿的

源1.0大模型训练算力消耗为4095Peta-Flop/s-day。大模型的高效训练通常需要具备千卡以上高算力A芯片构成的Al服务器集群支撑。在全球科技企业加大投入生成式Al研发和应用的大背景下,配置高算力Al芯片的Al服务器需求也不断高涨。

随着市场对Al计算力需求的不断攀升,全球已有上百家公司投入新型Al加速芯片的开发,Al计算芯片多元化趋势愈发显著。但因为各厂商在Al开发中采用了不同的技术路线,导致芯片的接口、互连、协议上互不兼容,而专有Al计算硬件系统开发周期长、研发成本高,严重阻碍了新型Al加速器的研发创新和应用推广。全球开放计算项目组织OCP发起开放加速规范OAl,但在推向产业落地的过程中,依然存在大量的定制化工作以及现有标准未能完全覆盖的领域,包括多元Al芯片适配、Al算力资源管理和调度、数据整合及加速、深度学习开发环境部署等多个方面。

最初的深度学习模型通过单张加速卡或者多卡间PCle P2P通信的方式来满足模型训练和推理的计算需求。随着Al大模型的快速发展,加速卡间通信的数据量越来越多,仅仅通过PCle P2P通信已经无法满足超大规模深度学习模型的通信需求。另一方面,单张Al加速卡的功耗随算力提升逐代显著增加,PCle物理形态难以满足高功耗芯片的供电和散热需求。NVIDIA公司推出了非标准PCle CEM形态的NVLINK接口的GPU加速卡,从而支持更高的功耗和更大的卡间互连带宽。但是,由于缺乏统一的业界规范,不同厂商的Al加速芯片无论在

结构上还是电气特性上都存在显著差异,

导致不同芯片需要定制化的系统硬件平台

承载,带来更高的开发成本和更长的开发

周期。

卡基板OAl-UBB(Universal Baseboard)设计规范。OAl-UBB规范以8张OAM为一个整体,进一步定义了8xOAM的Baseboard的主机接口、供电方式、散热方式、管理接口、卡间互连拓扑、Scale Out方式。2019年底,OCP正式发布了OAI-UBB1.0设计规范,并随后推出了基于OAl-UBB1.0规范的开放加速硬件平台,无需硬件修改即可支持不同厂商的OAM产品。近年来,以浪潮信息为代表的系统厂商研制了多款符合开放加速规范的Al服务器,开展了丰富

的产品和应用实践,验证了开放加速技术

的可行性,逐步构建起开放加速计算的生

态体系。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入查阅下载3万+精选资料,年享1万+精选更新

(星球内含更多未发布精选报告.其它事宜可联系zzxz_88@163.com)