企业可分为两类:正采用人工智能加速发展的企业和将会采用人工智能的企业。即使您或您的合作伙伴目前不考虑使用人工智能,但还是需要处理越来越复杂的数据。
在近期发布的调研报告中,Whatech 预测全球人工智能驱动的存储市场“将从 2019 年的 104 亿美元增至 2024 年的 345 亿美元,复合年增长率高达 27.1%。”这一增长背后的驱动因素涉及众多方面,包括“数据量剧增、全球企业级基础设施亟需更新存储架构、采用云服务的比率不断提高、高性能计算数据中心对人工智能的需求不断增长。1
无论我们是否准备就绪,人工智能时代都将到来。若想充分利用人工智能,第一步就是要了解人工智能数据的复杂性。我们都听说过 3V 及其可能给存储带来的挑战:
· 数据量 (Volume):随着人工智能训练数据的增长,算法将变得越来越智能。Cloudian 指出:“管理这些数据集需要有能够无限制扩展的存储系统。2
· 速度 (Velocity):IDG 表示,到 2025 年,将有近 20% 的数据与我们的日常生活息息相关,有 10% 的数据将“不可或缺。3因此,快速访问数据的能力必不可少。
· 多样性 (Variety):多样性是指数据的格式多种多样。随着企业着力于改善客户体验、提高运营效率以及保持竞争力,他们需要分析各种格式的数据,包括从交易、社交媒体互动和客户服务中提取的数据,这可能涉及到各类文件、点击次数、文本、视频、机器数据和蓝牙信号。
保障人工智能管道的畅通
3V 中的每一个要素都会因人工智能管道阶段的不同而发生巨大变化,这会导致情况变得愈发复杂。例如,用户可能会提取 PB 级的数据,然后以 GB 级的结构化和半结构化数据进行训练,最后再获得 KB 级的训练后模型。除此之外,工作负载也变化很大。首先是提取阶段 100% 写入,然后数据准备阶段达到 50/50 的读/写混合,最后在训练和推理阶段转为 100% 读取。
该解决方案针对数据量、速度和多样性 (3V),旨在创建一个通用数据管道,为各种人工智能功能提供基础。其中一层经过优化可带来空间效率高的容量/扩展能力,而另一层经过优化可实现高性能的存储/扩展。此外,其所包含的数据湖或媒体库可充当中央存储库,存放各种规模、各种类型的结构化和非结构化数据。
在所有这些变化中,始终不变的是对于高吞吐量 (TPT) 和极低延迟的需求。要想保障管道的畅通,您需要既能应对这些挑战,又能随着不断发展的人工智能需求进行扩展的技术。
Gartner 在最近一份报告中明确指出了理解这些阶段的重要性:“机器学习和人工智能计划的成功离不开编排有效的数据管道,因为其能在人工智能管道的不同阶段及时地以正确格式提供高质量的数据。4”
与 NAND + HDD 或全 TLC NAND 解决方案相比,英特尔的存储技术组合更具有满足人工智能数据管道各个阶段性能要求所需的敏捷性和灵活性。英特尔® 傲腾™ 技术可提供快速存储或快速缓存所需的高性能和低延迟,而英特尔® 3D NAND 固态盘则可整合存储空间、随着存储需求的增长进行扩展,并加快访问速度。
英特尔的存储技术在数据管道中的运用
在提取阶段,敏捷地从各种来源提取数据并管理多样的数据格式至关重要。所提取的数据的大小各异,并且通常是非结构化的对象或文件形式,例如视频、图像、文档或对话记录。此阶段主要依靠顺序写入,并定期将提取缓冲区降级到容量存储中。如果数据提取速度跟不上,则可能会导致数据源被搁置、数据丢失,或可用的 DRAM 带来瓶颈。采用英特尔® 傲腾™ 技术, 您可以获得一个提取缓冲区,因而能够以高写入性能和低延迟来扩展提取。
在准备阶段,数据需要经过标记、压缩、去重、转换和清洗这些步骤。所提取的数据的大小、格式、完整度和准确性可能依然各不相同。丢失的或不完整的数据需要进行充实(或被忽略), 而不一致的数据(例如带数字的数据集中小数点与逗号用法不一)则需要标准化。这是一个迭代过程:不断波动的数据量以随机或顺序的方式进行读取和写入。由于准备阶段可能会消耗多达 80% 的人工智能资源,因此能够实现低延迟、高 QoS 和高吞吐量的存储设备对于缩短准备时间非常重要。转换速度取决于存储速度,并且随着数据源和数据种类的增加,对于存储性能的要求也水涨船高。英特尔® 傲腾™ 技术读/写混合操作性能极佳,能够有效缩短准备数据的时间。
训练阶段包括了对重复、随机的数据集进行传输。为了让这一操作能够更高效地完成,必须优化算力利用率。这个步骤极其消耗资源,需要反复对准备好的数据执行数学函数运算,以较大概率确定理想结果。之后,需要对所得结果的准确性进行评估。如果准确性未达到可接受的程度,就要对数学函数进行修改并重试。涉及更多神经网络“层”的复杂模型可以提高准确性,但也会增加对存储的需求。英特尔® 傲腾™ 固态盘的高随机读取 TPT 和低延迟能够保持重要训练资源的利用率。此外,英特尔® 傲腾™ 固态盘还可在数据建模期间加快临时数据的处理速度。
最后,在推理阶段中,训练后的模型将用于执行决策。模型可部署在数据中心,但现在也越来越多地被部署在了边缘设备。数据传输涉及从存储中读取训练后的模型进入推理、将正在被评估的提取数据写入推理,再读取推理结果返回训练以提高准确性。实时边缘部署推高了对性能的需求。随着越来越多的边缘部署采用强化学习(一种在边缘评估准确性并采取行动的方法),对存储性能的要求进一步提高。即时反馈对于评估决策的准确性至关重要,在边缘强化领域尤其如此。英特尔® 傲腾™ 技术可加快传输这些训练后的模型,即使在边缘也能做到。
随着数据移入移出数据湖和人工智能管道,数据的多样性和用途不断发生变化,由此凸显了对于存储解决方案的需求。存储解决方案必须具有满足每个阶段性能要求所需的敏捷性和灵活性。英特尔® 傲腾™ 技术可提供快速存储或快速缓存所需的高性能和低延迟,而英特尔® 3D NAND 固态盘则可提供高性能、高容量选项。
使情况变得更为复杂的是,为获取更多洞察并提高效率,企业正在部署越来越多的数据湖或通用数据管道。他们在这些数据湖上构建人工智能、数据分析、报告和其他应用场景的多个实例。此举进一步加重了高性能存储层的压力。该层必须能够在支持工作负载高可变性和高并发性的同时,始终提供可预测的低延迟。此外,随着企业从人工智能中获得越来越多的价值,存储的数据量只会不断增加。
“机器学习和人工智能计划的 成功离不开编排有效的数据管道,因为其能在人工智能管道的不同阶段及时地以正确格式提供高质量的数据。”——Gartner 4
优化人工智能计算资源
在管道的各个阶段,英特尔® 傲腾™ 技术可在各类工作负载、访问模式和块大小情况下以出色的混合性能,实现计算资源的优化。采用英特尔® 3D NAND 技术的 PCIe 固态盘能够在释放存储数据价值的同时,降低存储成本和空间并提高运营效率。
Venture Beat 总结了这些优势,并指出英特尔“在这一新型内存/存储混合系统上数十年的研发投入”已获得回报,并认为英特尔® 傲腾™ 技术“可使消耗大量内存的应用提高性能”。5
有关更多信息,请访问 intel.cn/content/www/cn/zh/products/docs/storage/ai-infrastructure-and-storage
标签:技术简介、英特尔® 傲腾™ 技术、英特尔® 3D NAND 技术