在数字化转型战略持续落地的今天,大数据分析与人工智能 (AI) 已经成为各个行业挖掘数据价值、推动业务转型升级的重要方式。但是,传统的分布式端到端数据分析由于数据快速增长、AI 模型不断引入迭代等原因,面临着数据分析过程复杂、模型优化过程繁琐等巨大挑战,难以为大数据分析与 AI 应用提供敏捷、高效的基础设施平台。
浪潮与英特尔合作,推出了融合英特尔® Analytics Zoo、基于浪潮云海大数据平台 Insight 的端到端智慧计算解决方案。该解决方案构建了统一的大数据与 AI 分析平台,将大数据预处理、模型训练、模型推理与现有的大数据处理工作流整合在一起,提供了端到端的大数据分析和深度学习应用流水线,从而可大幅提升方案的部署效率、资源利用率和可扩展性,并减少硬件管理以及系统运维成本。
挑战:传统大数据平台难以支撑统一的大数据与 AI 分析应用
为了挖掘数据价值,实现基于数据的洞察与决策,政府、金融和制造等行业用户持续加强在大数据方面的投资,并广泛构建了应用 Apache Spark 的大数据平台。作为专为大规模数据处理而设计的快速计算引擎,Spark 基于内存计算构建,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户充分利用现有的硬件资源,形成计算集群。
伴随着需求的演进,越来越多的行业用户希望充分利用大数据平台在数据存储、管理等方面的能力,支撑 AI 应用的创新。但是,传统的大数据平台并非面向 AI 而设计,AI 学习框架与大数据分析平台中间存在断层,难以构建分布式的端到端大数据分析和 AI 应用平台,在部署敏捷性、效率和基础设施成本等方面均无法满足需要。具体而言,其面临如下挑战:
● 数据接入与管理繁琐:需要耗费大量时间在集群管理、资源调度、数据源对接、数据清洗、特征提取、特征转换等方面,不仅消费宝贵的企业资源,也影响上线时间。
● 缺乏开源组件:传统的大数据分析与 AI 平台并没有过多包含现有的开源组件,要构建基于 Apache Spark 的深度学习 (DL) 和人工智能应用,通常需要手动 “拼接” 许多单独的组件完成,整个过程非常复杂,且极易出错。
● 处理过程复杂:传统的 AI 平台完成数据分析过程复杂,模型定义或者模型训练本身复杂。而且传统的 AI 平台需要反复迁移增量数据,优化 AI 模型,无法实现端到端模型优化。
● 没有针对 AI 优化:缺乏同大数据分析与 AI 应用相匹配的高性能、敏捷、高投资回报的基础设施,CPU 等关键组件没有针对 AI 等负载进行优化,导致基础设施长期低效运行。
解决方案:融合 Analytics Zoo 的浪潮端到端智慧计算解决方案
浪潮端到端智慧计算解决方案为浪潮云海大数据平台 Insight 用户提供了拥抱 AI 的端到端解决方案。该解决方案能够在优化的基础设施层基础之上,融合计算引擎、存储服务、数据服务、数据工作台、管理平台,构建端到端的大数据分析和深度学习应用流水线,进而打造成统一的大数据分析和人工智能平台,通过使用 Apache Spark 中的各种框架模型简化和加速人工智能解决方案的开发。
图1:浪潮端到端智慧计算解决方案架构图
该解决方案搭载了由英特尔开发的、面向 Apache Spark 的统一分析与人工智能平台 Analytics Zoo。它是一个统一的分析与人工智能平台,可将 Spark、TensorFlow、Keras 和 BigDL 程序无缝整合到一个集成流水线中。这一集成流水线可透明地扩展到大型 Apache Hadoop/Spark 集群,以进行分布式训练或推理。
Analytics Zoo 还为开发人员和用户提供了多种分析和人工智能工具,以便为端到端流水线提供支持,包括:
● 简单易用的抽象,如 Spark DataFrame 和 ML 流水线支持、迁移学习支持以及服务 API 的 POJO 式模型等等;
● 面向图像、文本和 3D 图像的常用特征工程操作;
● 内置的深度学习模型,如文本分类、推荐和对象检测;
● 参考用例,例如时间序列异常检测、欺诈检测和图像相似性搜索等。
除了通过 Analytics Zoo 来整合 Spark、TensorFlow、Keras 等组件之外,浪潮端到端智慧计算解决方案还预先整合了大数据与人工智能生态中的大量开源组件,满足集群管理、流式数据处理、数据特征提取、数据清洗等应用的需求,无需用户自行部署开源组件,有利于减少在组件整合过程中出现的错误,并加速平台的上线。
该解决方案具备基于场景工作流的技术特性,打造了端到端数据流水线,能够将 AI 模型部署到分布式的大数据集群上,实现分布式的训练和预测,并通过高抽象的机器学习工作流实现机器学习任务的自动化。解决方案内建的模型能够服务于推荐系统、时序分析、计算机视觉和自然语言处理应用。
图2:基于场景的工作流
在基础设施层,浪潮推荐部署基于第二代英特尔® 至强® 可扩展处理器的浪潮多路服务器,以获得业经验证与优化的基础算力支撑。该处理器专为数据中心现代化革新而设计。得益于英特尔® 超级通道互联(英特尔® UPI)、英特尔® Infrastructure Management 技术(英特尔® IMT)、英特尔® 高级矢量扩展指令集 512(英特尔® AVX-512)以及内置的硬件安全和加密等领先功能,带来更高的单核性能和更好的数据并行计算处理能力,对计算密集型和数据密集型工作负载提供高性能和可扩展性,满足大数据分析场景下大批量的数据近实时或实时的数据加载和分析处理的需求,帮助企业提高基础设施运行效率和更好地释放数据价值,提升用户生产力。
尤为重要的是在智能化计算方面,第二代英特尔® 至强® 可扩展处理器通过内置人工智能加速并已针对工作负载进行优化,能够为各种高性能计算工作负载及AI应用提供直接可用的性能加速。采用矢量神经网络指令(VNNI)的英特尔® 深度学习加速(英特尔® DL Boost),通过硬件指令级地创新和突破,显著提高了深度学习推理的表现,这使其成为支撑大数据分析中人工智能负载运行的卓越基础设施。进而大大改善构建围绕大数据与人工智能相结合的智慧计算解决方案的效率和总体拥有成本。
效果:助力构建高效、敏捷的大数据分析与人工智能平台
得益于浪潮云海大数据平台 Insight 在性能、数据管理、统一运维等方面的优势,以及对于英特尔® Analytics Zoo、第二代英特尔® 至强® 可扩展处理器的融合,浪潮端到端智慧计算解决方案能够帮助政府、金融和互联网等客户构建高效、敏捷的大数据分析与人工智能平台。具体而言,其带来的效益包括如下几点:
● 实现一站式端到端 AI 应用,节省资源并加快平台上线
在 Analytics Zoo 的支持下, AI 算法可基于大数据 HDFS/HBase 存储和 Yarn 资源调度运行。将数据预处理、模型训练、模型推理建设在大数据平台上,提供大数据分析和深度学习应用流水线,构建端到端 AI 一站式平台。用户可以便捷地将 AI 流水线部署到现有的 Yarn 集群,而无需对集群进行任何修改,在 “零” 代码更改的前提下,就可以将 AI 应用程序透明地扩展到大型集群,从而显著节约了企业在开发、优化平台等方面的时间与精力。
图3:浪潮端到端智慧计算解决方案可实现一站式端到端 AI 应用
● 分布式训练和推理,提升系统的扩展性
浪潮端到端智慧计算解决方案可以通过 Yarn 实现 CPU 资源的统一管理和调度,支持主流框架的分布式实现与可扩展性部署,且能够通过扩展带来性能线性提升。基于 Analytics Zoo Cluster Serving 的轻量级、分布式、实时的模型服务解决方案支持多类模型框架,采用微服务模式和 REST 协议提供在线推理服务,便于业务系统对接。
● 提升基础设施的性能并降低 TCO
第二代英特尔® 至强® 可扩展处理器在性能上具备突出优势,在服务器节点数量不变的情况下,能够支撑更高的负载水平,同时更有效地控制成本。同时,浪潮端到端智慧计算解决方案可以复用现有 Hadoop/Spark 集群构建大规模深度学习应用,从而降低基础设施的 TCO,提升运维效率。
展望:强化生态合作,构建坚实的云数智融合底座
Analytics Zoo 与浪潮云海 Insight 大数据产品的融合,显著简化了端到端的人工智能开发和部署, 将 TensorFlow、Keras、PyTorch、Spark、Flink 和 Ray 程序无缝集成到一个集成流水线中,从而为客户提供了基于英特尔架构的全栈式人工智能解决方案,不仅能够加快大数据分析与人工智能的部署、降低开发门槛,还有利于提升模型规模与模型训练速度。
英特尔将继续与浪潮等伙伴进行合作,推进 Analytics Zoo 等技术的应用,打造搭载英特尔® 至强® 可扩展处理器、NNP 芯片、FPGA、网络、内存和存储等基础硬件,以及各种数据库和人工智能平台的端到端全栈人工智能解决方案,帮助用户更快速处理大规模的数据,加速人工智能的开发与应用。