电子行业存储:AI推理带来需求爆发、驱动范式升级,周期能见度大幅拉长.pdf

存储是AI推理的核心瓶颈,驱动存储需求爆发、存储范式改进。
LLM推理的解码阶段本质是memory-bound,核心存储负载包括:模型权重、KV Cache、激活值、RAG向量库等。相较于模型权重等静态张量数据,KV Cache是随上下文长度和并发数动态膨胀的张量数据,推理性能(TTFT/TPS)高度依赖对KV Cache的保存和对KV Cache的管理效率。在传统冯诺依曼架构下,大模型推理时的大量高维张量数据、Transfomer的自注意力机制均加剧了内存墙问题,数据量巨大、搬运成本高,严重拖慢推理效率,存储使访存带宽与延迟逐步成为制约系统吞吐与响应性能的核心瓶颈,因此黄仁勋一直在说:“GPU大部分时间都在等数据,而不是在计算”,“计算能力增长远快于内存带宽,GPU经常处于饥饿状态(starving for data)。”而提升存储带宽和容量可以显著增强推理性能、降低推理成本,“以存代算”是必然趋势。
随着模型越来越大、上下文越来越长、使用人数增加等,AI推理带来HBM、DRAM、SSD、HDD的需求全面爆发,同时面对大模型推理的访存受限问题,产业界也在推进存储器性能升级和存储层级优化,存储从单一层级向高带宽+大容量+分级管理的协同架构演进,存储与计算的关系也由传统解耦逐步走向协同优化。1)高带宽存储器解决方案:包括HBM、WOW3D堆叠DRAM、HBF。2)优化存储分级管理系统:CXL内存池化技术,Prefill和Decode阶段的分机柜部署(英伟达GTC2026推出的最新方案)。
在前期价格涨幅大、行业看接下来2年供需紧张的情况下,对合约价的跟踪会从“从价格还能涨多少”转向“价格高位保持多久”,预计合约价26年全年上涨,27年至少保持高位,客户与原厂签多年长协拉长周期。
现货价占市场10%左右:近期部分现货市场价格有回调10-20%左右,主要系存储模组的现货价与合约价价差大,贸易商获利了结心理强。合约价占市场90%左右:目前北美CSP因担心拿不到产能,陆续与原厂签订3-5年长约,国内模组厂也有签,客户与原厂基本达成价格共识,周期能见度拉长。此前周期中合约价上涨3-4个季度就会回落,主要系由消费电子库存周期主导,本轮周期由AI需求驱动,服务器占存储的敞口达到50%-60%,行业供需高度紧张,预计26年全年价格上涨,但是逐季价格收敛,预计27年价格也保持高位。
存储是AI硬件板块中短期业绩确定性最强,供需在可见的2年内持续紧张,同时估值中枢有提升的潜在可能性。
服务器占存储敞口提升到50%-60%,存储的容量和性能是AI推理的核心瓶颈环节,同时是A硬件业绩确定性中短期最强、估值最低的方向。投资建议:建议关注:1)弹性模组及主控:德明利、江波龙、佰维存储、大普微、联芸科技等;2)兆易创新、普冉股份、东芯股份、北京君正、澜起科技、聚辰股份、恒烁股份等;3)设备:微导纳米、拓荆科技、中微公司、精智达、华海清科、中科飞测、京仪装备、骄成超声、百傲化学、北方华创等。4)光刻机产业链:茂莱光学、汇成真空、波长光电、阿石创、联合化学、富创精密、永新光学等。风险提示:1)长鑫长存产能释放加剧竞争的风险。2)AICAPEX不及预期的风险。3)数据更新不及时,模型测算偏差风险。

大模型训练和推理对错维需求存在区别:训练:基于提前备好的海量静态数据集,数据总量可控、规则、可预测,偏向一次性学习过程,但由于数据集规模大、计算密集、任务维度下显存消耗,整体存储容量需求远大;推理:数据实时输入,清零精度小、并发高,上下文长度差异大、延迟要求严格,偏向持续性的应用过程,为避免重复计算需保留大量KV cache,其在每一次token生成都会访问、对延迟高度敏感、会随序列长度动态扩展,是显存占用和带宽消耗的核心因素,因此在智能体A1普及带来用户爆发式增长、参数规模扩大、应用复杂度提升的背景下,数据会快速动态膨胀,预计远期在数据中心中,推理存储需求占比(2030年预计70%)远超预测。
大模型训练:1)运行机制:计算密集型工作,系统反复读写、写入巨量数据,数据流动频率高、负载持续、IO密度高,但是训练阶段数据集通常是固定规模,不随时间线性增长。2)存储介质:训练样本通常存在HDDSSD,模型参数、激活值等核心计算内容的加载与处理在HBM/GDDR(GPU耗生),DRAM用于扩展内存、保存部分模型权重,SSD作为补充设备,用于保存中间文件(例如检查点文件,输出HBM/DRAM的数据、不活版Token)。
大模型推理:(1)运行机制:存储需求由“规模扩张”与“动态波动”共同驱动。随大模型参数规模扩大以及应用复杂度提升,推理侧存储需求呈现非线性增长特征。2)存储介质:训练好的模型预先存储在SD,推理时从SDA加载至DRAM,再从DRAM加载至HBM(用户输入Qay及生成token相关计算),HBM的KVcache亦持续更新支持实时推理,若上下文过长导致DRAM无法添加,继续缓至至SSD,推理结束后,完整的Session数据、用户日志、输入输出等数据在HDD/SSD长期存储。从单模型/单任务维度对比,训练对存储容量与带宽需求远高于推理:训练的计算需求、显存消耗需求、存储容量消耗需求、带宽需求均高于推理,尤其是存储容量需求约推理100-1000倍,原因是训练需要存参数、梯度、优化器状态、激活值、Checkpoint、数据集,而推理通常只需要存参数、KVCache、中间缓存等。
但从AI平台维度对比,推理数据将会助力蚁脑,在数据中心的存储需求占比预计快速提升,未来预计远超训练:AI从“生成式”向“智能体AI”迈进,不断拓宽应用场景、提升普及度,使用户数爆发式增长,还对上下文记忆能力、自主性、规划能力、持续学习能力都提出更高要求,此背景下KVCache规模快速膨胀,多并发送放大实时显存占用,同时模型权重、向量数据库及推理过程中的中间数据(如生成token缓存)推动整体存储容量需求持续攀升,因此推理对存储的需求急剧增长,未来预计远超训练。

本文来自知之小站

 

报告已上传百度网盘群,限时15元即可入群及获得1年期更新

(如无法加入或其他事宜可联系zzxz_88@163.com)