分布式存储发展白皮书(2023年).pdf

在数字化时代的浪潮中,数据已经变成了推动社会进步的核心驱动力。每一次网络互动、每一笔交易、每一帧画面,背后都隐藏着海量的数据。对这些数据的存储、管理和分析在现代社会中已变得不可或缺。存储是数据的载体,分布式存储作为其中的一种重要形态,已经成为大数据、AI等数据智能技术深化发展的重要基石,正持续地为各行各业提供着稳固、高效、可靠的数据支撑。
中国分布式存储市场保持着稳健的增长态势,尤其在中东部区域
和关键行业中,数字化转型正在推动存储市场的蓬勃发展。与此同时,AI大模型、大数据湖仓一体、数字化病理、量化交易、数据网络等新兴应用场景也在不断地扩展,为分布式存储带来更多的机遇和挑战。分布式存储产业方阵积极响应产业需求,联合产学研用多方力量,共同推动分布式存储的技术标准研制、生态体系建设、应用推广等工作,在2022年白皮书基础上,围绕新的应用场景、发展趋势,为读者提供一个清晰、系统的分布式存储产业全景,支撑政府、金融、教育、制造等各行业数字化转型,推动我国分布式存储产业健康发展。
希望通过这本白皮书,读者可以更好地理解分布式存储的价值和未来,同时也为相关行业和研究者提供有价值的参考和启示。(一) 大模型快速崛起,开启海量数据应用新时代
大模型的快速发展让大模型的训练效率引起了业界的广泛关注,大模型训练一方面对互联带宽提出了新的挑战,另一方面也对数据存储、流动的效率提出了更高的需求。从2018年谷歌发布BERT开始,业界开启了预训练大模型之路。2023年出现了第一个杀手级应用ChatGPT,由OpenAI公司在2022年11月推出,到2023年1月已经达到1亿月活用户。2023年3月英伟达在GTC大会上也表示AI的iPhone时刻已经到来,标志着大模型快速崛起,进入应用阶段。
大模型在训练过程中所需数据量庞大。模型的深度学习网络层
数多、链接多、参数复杂,以及训练所用数据集种类复杂,数据量大。在深度学习算法刚刚诞生时,主流模型只有几百万参数,而BERT发布时模型参数就已经过亿,将深度学习推进到了大模型阶段。到了ChatGPT阶段,主流模型已经有几千亿参数,甚至业界已经开始规划万亿模型。几年时间里,AI模型的参数提升几千倍,如此庞大的数据与模型都需要进行存储,这就成了大模型爆发给存储的第一大考验。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入查阅下载3万+精选资料,年享1万+精选更新

(星球内含更多未发布精选报告.其它事宜可联系zzxz_88@163.com)