前言
AI时代,AI/ML基础设施团队肩负着异常艰巨的任务。他们需要为内部用户构建并交付可靠、高性能的基础设施,以支持模型训练、微调、分发以及服务,而这些任务往往依赖于TB级甚至PB级的数据。在如此庞大的规模上构建并管理基础设施已极具挑战,再加上预算限制、硬件短缺、混合/多云架构以及市场竞争压力,使得AI/ML基础设施成为技术领域名副其实的“硬核战场”。
GPU是AI/ML基础设施拼图中不可或缺的一块。基于并行处理架构的GPU,因其能高效地利用海量数据同步执行多重复杂运算,现已成为训练和微调大模型的关键组件。
尽管GPU价格昂贵且供应紧张,各企业基础架构团队仍在争相采购跨云平台与本地数据中心的GPU,以满足AI/ML工程团队为试验和训练新模型而激增的需求。在多GPU环境中,团队必须利用任何可用的GPU资源,而这些资源往往远离存储了海量训练数据的中央数据湖,这就需要跨区域和跨云迁移数据,或是远程访问数据。而这两种方式都存在速度慢、复杂度高、成本昂贵的问题。
在AI/ML工程方面,尽管在GPU上已投入了大量资源,团队仍难以达到高效训练、调优以及测试AI模型所需的性能要求。这种情况会导致新模型或升级模型部署到生产时产生延迟,进而加剧竞争压力、对用户体验带来负面影响,同时阻碍了基于实际生产使用情况不断优化模型准确性和性能的反馈闭环。
那么,能不能通过简单地增加GPU数量来解决问题?虽然这不失为一种解决方案,但团队首先需要确保现有GPU资源得到充分利用。最新调研显示,68%的企业其GPU峰值利用率不足70%。在这种情况下,盲目增加AI/ML基础设施中的GPU资源,不仅对性能提升收效甚微,更会大幅推高基础设施预算。
本文将深入探讨AI工作负载缓慢与GPU利用率低下的常见诱因,提供根本原因的诊断方法,并针对GPU未充分利用的核心问题给出解决方案。
一、多GPU集群时代
追求卓越AI能力的企业组织,如今正面临着GPU资源分散化的运营环境,GPU资源分布在多个区域的云平台、多个公有云、私有数据中心以及专门的AI基础设施供应商之间。这种多GPU集群架构的形成并非主动设计,而是迫于现实:各行业爆发式的GPU需求导致GPU全球性短缺,迫使基础设施团队采取”哪里有算力就用哪里”的策略。与其等待数月才能在单一地点获得集中GPU配置,企业如今更倾向于在不同环境中拼凑算力资源。
这种模式带来了三大关键性数据挑战:
1.训练任务延迟:中央数据湖与GPU资源之间的地理分隔会导致数据访问延迟,拖慢AI训练进程。
2.成本高昂:跨云数据传输费用昂贵。当从云端读取数据时,会产生出口流量费用(即数据传输成本),随着数据量增大这项费用会急剧增加。
3.数据管理复杂性:为避免高昂的出口流量费用,企业可能选择跨云环境复制数据,由此导致管理复杂性、数据一致性挑战及额外的数据延迟。
本文来自知之小站
PDF完整报告已分享至知识星球,微信扫码加入立享4万+最新精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
