华为盘古大模型与腾AI计算平台,共同构建软硬一体的AI技术体系.pdf

1.盘古大模型的演进方向从追赶并对标SOTA级模型到为昇腾硬件量身定制模型
华为盘古大模型的演进历程,不仅是一部大模型技术迭代史,而且是一部围绕其自研昇腾(Ascend)硬件平台,从追赶到探索,逐步构建“软硬一体”战略的产业发展路径。其发展路径清晰地展示了从最初的参数竞赛,到万亿模型的稀疏化探索,再到面向行业深度优化的结构化转型,最终全面拥抱为硬件效率而生的混合专家(Mixture of Experts,MoE)架构。这一过程揭示了华为的AI战略核心:模型的每一次进化,都是为了更紧密地与昇腾硬件协同,旨在构筑其全栈软硬融合技术体系。
1.1.盘古大模型系列的起点是PanGu-α确立基于昇腾与自研框架的技术路线
华为盘古大模型的征程始于2021年4月,其标志性起点是PanGu-α模型的发布。这是一个参数规模高达2000亿的自回归中文预训练语言模型,其训练语料库是从近80TB原始数据中经过复杂清洗和过滤后提炼出的1.1TB高质量中文文本,在当时引起了业界的广泛关注。PanGu-α的论文明确指出,当时GPT-3等模型主要基于英文且仅提供有限访问,而其目标正是为了推动中文预训练语言模型的公共研究。它首次完整地向外界展示了华为AI的全栈自主技术路线,模型是在一个由2048个自研的昇腾910AI处理器组成的集群上,使用自研的MindSpore深度学习框架完成训练的。为了攻克大模型训练的内存和算力挑战,团队基于MindSpore框架采用了包括数据并行、算子级模型并行、流水线模型并行在内的五维并行策略,从而高效地将训练任务扩展至整个集群,为其后续走上“为硬件效率而进行软件创新”的道路奠定了方向。这种优化不仅体现在系统工程层面,也体现在模型架构的微创新上,例如论文中提到的在Transformer主干网络之上增加一个独特的“查询层”(Query Layer)以增强模型性能。PanGu-α解决了华为AI大模型“从0到1”的问题,它验证了这条全栈自主路线的技术可行性,成为了后续所有演进的重要基础。

1.2.PanGu-∑对稀疏化进行早期尝试,2023年就向万亿参数发起探索
在PanGu-α证明了千亿级稠密模型的可行性之后,华为将目光投向了更具挑战性的万亿参数领域。2023年3月,华为发布了拥有1.085万亿参数的PanGu-∑模型,标志着其向更大模型规模和更高效模型架构的探索上又迈进一步。PanGu-2团队认为,单纯增加稠密模型的参数会带来高昂的计算成本,而稀疏化是通往万亿参数更经济高效的路径。

本文来自知之小站

 

PDF完整报告已分享至知识星球,微信扫码加入立享4万+最新精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)