目前,人工智能(Al)技术的应用正在迅速发展,49%的企业首席信息官(CIO)表示正在使用或计划使用AI技术[1]。如今兴起的生成式AI进一步加速了AI应用,使得Al成为增加企业营收、提高客户满意度和企业生产效率的当务之急。
AI项目成功的关键在于数据访问,因此为应用程序迅速提供数据的能力至关重要。随着AI应用场景日趋复杂化,我们需要了解数据访问模式并采取合适的解决方案。
该白皮书全面介绍了现代AI/ML平台中的数据访问模式,并探讨了机器学习流程各个阶段中数据访问的特征,以及在构建数据和AI平台时可选用的解决方案。
数据访问之所以影响Al项目成功,原因有以下几个方面:
·高质量的AI模型需要访问大规模数据集
与传统的企业应用程序相比,AI任务需要的数据量要大的多。AI模型的质量和准确性在很大程度上取决于是否能够访问大量的训练数据。要高效应用AI,对数据的需求不仅仅在于数据量大小,还与数据多样性和复杂度有关。访问数据的能力会大大影响Al项目的整体结果。
·无论是在混合云/多云还是单云环境中,数据访问速度均慢且成本高
对于企业而言,相关的数据集通常位于不同的云环境、数据中心或地理区域。AI应用需要能够访问任意位置的数据。跨分布式云环境访问数据可能会导致明显延迟,以及较高的云存储API成本和流量成本。即使在单一云环境/地理区域的情况下,由于大多数持久化存储是为低成本存放海量数据而设计的,因此也会面临数据访问性能低下的挑战。
·增加模型大小会降低应用性能
随着AI技术的发展,AI模型变得越来越大、越来越复杂。根据OpenAI的研究,最先进的Al模型规模平均每3-4个月就会增加1倍[3]。此外,为了追求准确性,模型需要经常更新并重新部署上线。对于下游应用来说,对大模型文件进行高并发访问难度很大。
·GPU实例的可用性有限,需要进行远程数据传输
如今,GPU已成为稀缺资源。例如,配备A100 GPU的Amazon EC2 P4实例可能仅在某些AWS区域[4]可用,而训练数据则位于远端。因此将数据传输到GPU实例进行模型训练时,会导致模型训练缓慢且流量成本高昂。
·GPU等待数据获取,导致GPU利用率不足
GPU是AI任务的重要加速器。但是,GPU的单位时间算力成本高昂。最大限度地提高GPU利用率并减少数据访问导致的GPU空闲等待时间至关重要。这其中的挑战在于如何能持续向GPU提供数据从而避免计算闲置。因此,数据访问速度成为瓶颈。
要想应对数据访问中的挑战,需要充分了解ML工作流各个阶段的数据访问特征。
本文来自知之小站
PDF完整报告已分享至知识星球,微信扫码加入立享4万+最新精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
