在模型训练环节,训练数据集加载慢、易中断、数据恢复时间长等问题是大模型训练中的常见难题,存储系统必须足够快速地为 AI 算力芯片提供训练所需数据。一方面,分布式文件系统可以将数据分散存储在多个节点上,提高数据的并行访问能力;另外一方面,大容量、高性能的 AI 存储系统能够极大缩短断点续训时间,保障 AI 集群的算力可用度处于较高水平,提升算力应用效率。
数据规模的增长对存储技术的性能、容量和可靠性提出了更高要求。尤其在大模型训练和推理过程中的数据调度、边缘侧与云端数据的存储,需要大容量、高速、低延迟的存储系统以支撑实时数据处理和分析,大容量的存储技术解决方案成为支撑整个 AI 生态系统的关键。
在整个生成式 AI 落地过程中,企业如果希望充分利用 AI 能力,需要首先建立一套高效、可靠的数据存储与管理系统,确保数据价值被充分 发掘且高效利用算力。譬如,针对非结构化数据的处理,向量数据库成为 AI 大潮当中的热点。
计算存储协同促进AI落地
AI 应用需处理和分析的数据规模日益庞大,使得算力不断增加。但算力规模增加的同时,集群的可用性明显下降,数据的存储与访问速度对系统性能和效率产生直接影 响。此外,随着 AI 应用数据规模和复杂性的持续增长,对存储技术的容量、速度和 可靠性提出了更为严苛的要求。越来越多的应用场景开始将 AI 算法与存储介质紧密结合,以实现更为智能化的数据处理和存储管理,提升集群的可用度。
根据 Precedence Research 于 2024 年 7 月发布的研究报告, 全球 AI 驱动存储市场预计将从 2024 年的 287 亿美元,激增至 2034 年的 2552 亿美元,年复合增长率(CAGR)相当喜人。越来越多企业正在积极寻求更智能、更灵活的数据管理解 决方案。
AI 驱动存储市场规模发展 2024 ~ 2034(来源: Precedence Research)
大模型场景下,数据存储面临的挑战,将不仅仅是传统意义上容量增加、性能提升的 线性挑战,计算和存储相互协同,或直接基于 GPU 架构,或与 GPU 服务器密切协同,专为 AI 数据处理而优化,可以提升训练集群可用度,降低推理成本,提升用户体验。
欲更好地理解该白皮书,您也可以访问益企研究院视频号,观看“《AI时代的存储基石》白皮书发布与解读”直播视频回放。如要下载《AI时代的存储基石》白皮书,请点击阅读原文。
关注我们获取更多精彩内容