授人以智,更授人以能

“范式先知”平台采用英特尔技术,加速人工智能在传统行业落地进程

下载文档

今年,有一家专注于人工智能(Artificial Intelligence,以下简称 AI)、成立仅有三年多的初创企业,破天荒地同时赢得国内三家大型国有银行及其所属基金的战略投资,在创投圈引起轰动,并让大家感到好奇:这家名为第四范式的公司到底是凭借怎样的特质,才博得了一向以保守而著称的金融巨鳄的集体青睐?透过观察,它旗下的“范式先知”*平台等产品浮出水面,正是它们,成就了这家公司的声誉,同时也在悄然改变着AI应用市场的行业生态。

说起 AI,普罗大众都难忘那场 AlphaGO* 秀,但随着技术的积淀,AI 正在走出象牙塔和实验室,步入商业世界,成为撬动社会发展和经济增长的新杠杆。然而,这一进程却并不是一帆风顺的,由于 AI 技术太新太难也太复杂,对于众多技术储备并不丰沛的传统行业企业而言,AI 应用的落地正面临技术门槛高、基础设施要求高、建设成本高等一系列难题。

所谓授人以鱼不如授人以渔。作为领先的 AI 技术与服务提供商,第四范式基于机器学习等技术,在持续推进 AI 前沿技术创新的同时,更注重通过成熟、完善、易于部署和应用的“范式先知”平台等解决方案,为传统行业企业赋能,帮助它们切实落地适合其业务需求及特点的 AI 应用。第四范式机器学习平台已经在银行、保险、证券、医疗、政府、能源、制造等行业拥有众多成功案例。

作为面向 AI 应用开发的全流程平台,“范式先知”平台以其低门槛和高维度的特性,允许用户仅需导入其业务过程数据,就能结合其业务目标,实施人工智能模型的调优、应用及自我学习等过程。一方面,该平台超高维的机器学习能力,能够大幅提高企业数据模型维度,带动机器学习效果的提升,增益数据价值;另一方面,通过 AutoML 等技术的引入,它也能有效降低 AI 的使用成本和门槛,让更多传统行业企业有能力将AI应用部署到更多业务场景中去。

在与 AI 行业核心基础设施技术提供商——英特尔公司进行深度合作的过程中,“范式先知”平台通过引入英特尔® 至强® 处理器、英特尔® 傲腾™ 固态盘等先进技术与产品,拥有了更充沛的算力,进一步加速了企业实施 AI 应用的进程。截止目前,第四范式已为银行、保险、证券、政务、能源、医疗等众多领域内的百余家企业成功打造了 AI 解决方案,其中,第四范式服务的金融机构总资产已经占到中国金融行业总资产的半数以上,通过公有云软件即服务 (Software-as-a-Service, SaaS)支持的客户已上千家,成为AI应用在传统行业落地的引领者与践行者。

在第四范式看来,加速AI应用在各行业,尤其是传统行业中的落地,需要做的不仅仅是设计出更精妙的算法、更灵巧的系统架构,更重要的,是要帮助企业用户构建一套产生 AI 的完整路径。第四范式创新地提出了“BRAIN”理念,包括问题定义 (Needs),数据采集 (Big Data)、数据反馈 (Response),算法设计 (Algorithm) 以及基础算力 (Infrastructure) 五个维度,这些维度涵盖了 AI “学习—思考—行为”的闭环流程,并将 AI 的三元素:数据、算法和算力囊括其中。“范式先知”平台,正是对这一理念的完美诠释。

“范式先知”平台定位于企业级 AI 核心系统,由数据核心、算法核心、生产核心三大模块组成。通过与英特尔领先硬件产品与技术的深度结合,该平台不仅覆盖了 AI 在生产中的各个应用环节,同时也显著降低了 AI 的应用门槛,让传统企业应用 AI 变得更为简单高效,并能帮助企业实施从战略、策略到执行的全面智能化。

高维数据模型突破机器学习效果瓶颈

著名科幻著作《三体》* 曾勾勒出一种高维空间,可实现许多低维空间不可能完成的事情。在“范式先知”平台上,工程师们也巧妙地将数据“升维”, 通过平台内置的高维模型算法和特征工程算法,结合英特尔高性能硬件产品提供的强大算力,在万亿级大数据和海量特征场景下,平台也能表现出出色的计算性能,得到令人满意的评估效果。1

数据是企业构建 AI 应用的本源,如今企业的业务会产出 TB 级,乃至 PB 级的海量数据。在早期系统中,囿于人力的局限,或者对非结构化、非数字化数据处理能力的不足,企业对海量数据的利用,往往处于低维度状态,从而无法深度发掘数据内蕴含的巨大价值。

以金融行业反欺诈应用为例,金融机构的传统做法是通过专家系统来辨识欺诈风险,但这一系统穷尽人力和经验,也只能总结出数千条专家规则,要用来应对日趋智能化、高频化和精准化的金融欺诈,明显力不从心。

“范式先知”平台则能通过对业务数据进行切片,形成超高维的机器学习能力来应对这一挑战。在数据预处理环节,该平台采用全量样本进行数据建模。在特征工程阶段,平台抽取交易报文、用户信息等基本信息,再结合客户在业务中的历史行为等多样化特征,利用超高维的机器学习算法,以及基于英特尔® 架构的数百核机群形成的强悍算力,通过将交易报文中的原始字段进行超高维组合和衍生,最终形成总量超过 25 亿维的特征集1

图一:SPARK 机器学习建模所需时间随数据量增长变化

在机器学习中,数据的维度越高、数据处理速度能力越强,学习效果就越佳。在数据处理能力上,第四范式自主研发的分布式模型训练框架也让训练速度获得飞跃。在TB 级数据规模下,“范式先知”平台的模型训练速度可达Spark*的数百倍。同时,平台将常用、有效的数据处理过程进行了产品化封装,用户只需简单配置即可对原始数据表进行复杂计算与处理,使数据处理工作量减少80%2

在与某业务覆盖全国的股份制商业银行的合作中,“范式先知”平台帮助其提升信用卡交易反欺诈识别准确率达7 倍以上。同时,在英特尔平台强劲计算能力的支持下,平台能够在20 毫秒内就完成从线上数据集成到提供最终欺诈评分的全过程,从而实现“事中反欺诈”1。不仅如此,通过对英特尔架构服务器进行横向扩展, 该平台更能实现每秒数十万笔交易的吞吐量,使金融反欺诈系统真正实现了实时化。

创新算法+易用界面降低AI应用门槛

优秀的 AI 系统,在帮助企业实现业务场景的智能化决策,提升核心竞争力的同时,更应成为企业从粗放发展到精细化管理的桥梁,让企业的每一个业务流程都能得到科学化的决策和验证。“范式先知”平台的目标之一,就是要帮助企业自上而下地构建完整的端到端AI应用体系。

虽然 AI 已在诸多领域取得一定程度的成功,但这都离不开机器学习专家们进行的大量详实的工作,包括将现实世界问题转换为机器学习问题、收集数据、特征工程、模型调参等。但传统企业在这方面的人才储备往往极度匮乏。有数据表明,我国AI技术人才目前还不到 5 万人3,人才的供不应求导致企业 AI 应用门槛高、落地难,过于依赖科学家的能力正成为 AI 产业化落地的瓶颈之一。为此,“范式先知”平台从构建伊始,就致力于以标准化的过程为企业用户提供便捷、高效的开发工具和运行环境支持,以完善封装的新技术、新算法以及可视化的操作界面来降低 AI 能力的使用门槛,从而大幅提升了 AI 落地效率。

优秀的AI 系统,在帮助企业实现业务场景的智能化决策,提升核心竞争力的同时,更应成为企业从粗放发展到精细化管理的桥梁,让企业的每一个业务流程都能得到科学化的决策和验证。“范式先知”平台的目标之一,就是要帮助企业自上而下地构建完整的端到端AI 应用体系。

虽然AI 已在诸多领域取得一定程度的成功,但这都离不开机器学习专家们进行的大量详实的工作,包括将现实世界问题转换为机器学习问题、收集数据、特征工程、模型调参等。但传统企业在这方面的人才储备往往极度匮乏。有数据表明,我国AI 技术人才目前还不到5 万人3,人才的供不应求导致企业AI 应用门槛高、落地难,过于依赖科学家的能力正成为AI 产业化落地的瓶颈之一。

为此,“范式先知”平台从构建伊始,就致力于以标准化的过程为企业用户提供便捷、高效的开发工具和运行环境支持,以完善封装的新技术、新算法以及可视化的操作界面来降低AI 能力的使用门槛,从而大幅提升了AI 落地效率。

图二:“范式先知”平台工作界面---以“拖拉拽“方式快速构建可视化的模型训练过程图二:“范式先知”平台工作界面---以“拖拉拽“方式快速构建可视化的模型训练过程

如图二所示, “范式先知”平台为企业用户提供了“所见即所得”的工作模式。基于WEB 的平台工作区域分为数据区、参数配置区、画布区等部分。在数据区,用户可以将企业的各项业务数据按需上传。在参数配置区,用户可以进行数据拆分、特征抽取、模型预测等功能的参数调配。而画布区则是平台的主工作界面,通过拖拽的方式,用户就可以便捷地完成从数据汇集、预处理,到特征工程、算法选择,再到预测和评估最终结果的全流程。

图二 “范式先知”平台工作界面以“拖拉拽“方式快速构建可视化的模型训练过程

如图二所示,“范式先知”平台为企业用户提供了“所见即所得”的工作模式。基于 WEB 的平台工作区域分为数据区、参数配置区、画布区等部分。在数据区,用户可以将企业的各项业务数据按需上传。在参数配置区,用户可以进行数据拆分、特征抽取、模型预测等功能的参数调配。而画布区则是平台的主工作界面,通过拖拽的方式,用户就可以便捷地完成从数据汇集、预处理,到特征工程、算法选择,再到预测和评估最终结果的全流程。

在简洁明了的操作界面下,封装着大量来自第四范式的创新、优化的专利算法,如高维离散嵌入式树网络算法、线性分型分类算法等。同时,为帮助企业进一步突破算法门槛, “范式先知”平台自构建之初,便基于可以自动建模、自动调参的 AutoML 技术,使整个机器学习过程更加自动化,减少用户对于专家的依赖。这种模式让用户无需深入理解算法原理,也可得到最佳配置。

目前,利用“范式先知”平台提供的高性能算法,即便是没有任何 AI技术基础的医疗工作者,也可以利用机器学习来提升诊疗能力,如对海量糖尿病患者数据进行分析得出糖尿病患病率预测结果。在与某知名医院的合作实践中,“范式先知”平台运用 AutoML 技术,结合医院的历史数据总结出了高达 50 万条的诊断规则,其预测结果的准确率是专业医生给予临床金标准(“金标准”是指当前临床医学界公认的诊断疾病的最可靠方法)预测结果的 2 到 3 倍。1

英特尔计算、存储产品增添“芯”动力

在数据和算法之外,AI 的发展同样也离不开强大的算力带来的支持。“范式先知”平台为用户提供的强大算力背后,是其深度合作伙伴英特尔提供的高性能、高可靠和高可用的硬件产品和技术。得益于创新的理念,第四范式对于机器学习模型有着非常深入的解读,与传统模型或向“深”(模型优化)发展,或向“宽”(特征优化)发展不同,“范式先知”平台对数据的高维处理,使之有能力将两种发展方向进行融合,从而兼顾两方面的优势。第四范式基于此推出了全新的深度稀疏网络(Deep Sparse Network,DSN)算法,其支持的数据维数已达十万亿级,这使得模型效果有了更大的提升空间。

不过,不同于其他反馈型算法模型所要求的强大并行计算能力,深度稀疏网络算法构建的是一个巨型的金字塔型数据矩阵,其底层的数据维数可能高达万亿级别,因此其对于通用计算能力,以及海量内存支撑能力有着迫切需求。

无论是此前的英特尔® 至强® 处理器 E5 产品家族,还是新一代的英特尔® 至强® 可扩展处理器,都能在通用计算能力上给予“范式先知”平台强有力的支撑。尤其是英特尔® 至强® 可扩展处理器,凭借全新微架构带来的数量更多、性能更强的内核,革新的核内互联架构和更优的内存控制器,能够有效加速包括建模、仿真、机器学习和高性能计算在内的一系列数据密集型工作负载,整体性能相比上一代产品有了大幅提升。

这种提升,让“范式先知”平台有了足够的算力来应对万亿级高维数据处理提出的挑战。而该处理器集成的英特尔® 高级矢量扩展 512(英特尔® AVX -512)技术,也以其强大的并行计算处理能力,满足了“范式先知”平台执行其他 AI 算法的需求。英特尔® 傲腾™ 固态盘则是“范式先知”平台引入的另一项英特尔“杀手锏”,其革命性的 3D XPoint™ 技术,正在打破内存和固态盘之间的边界。它对于高吞吐量、低延迟、高服务质量、高耐用性和非易性特性的融合,使得它成为第四范式构建高效分布式多级存储系统的基石,该系统让“范式先知”平台获得了更高效的存储和查询能力。

结语

除前文提到的金融反欺诈领域和糖尿病检测等领域,第四范式也在帮助信贷风控、供应链金融、智能获客广告投放、智能客服等众多行业和领域的企业用户实现 AI 应用的落地,这些举措为它赢得了市场和用户的广泛赞誉,包括在 2016 年成为第一个荣获“吴文俊人工智能科学技术奖”创新奖一等奖的企业;在 2017 年作为国内唯一入榜的通用平台型人工智能公司,入选“Gartner 2017 Cool Vendor”。

同为 AI 领域领先企业的英特尔和第四范式,正携手共进,以各自的技术和市场优势共同探寻AI的发展方向,加速 AI 的产业化应用进程。未来,第四范式还计划引入更多英特尔的创新产品与技术,与自己在算法、数据等方面的优势深度融合,为AI在更多行业的落地贡献力量。

人工智能,从至强® 开始

人工智能 (AI) 可以帮助您的企业将数据价值发挥到极致。快来一探究竟,看运行在 CPU 架构上的 AI 如何为您做得更多。

了解更多

如何开始人工智能之旅: 技术路径不只一条,您的选择也不只一个

在 AI 之旅的起点上,无论是传统推理、机器学习、深度学习,亦或是它们的融合,都是可选项。

了解更多

如何开始人工智能之旅: 改弦更张不合算,别忽视既有平台

无论是在机房,还是选择公有云服务,企业要充分评估既有的数据存储、处理和分析平台,基于或借助它构建和部署符合自身需求的 AI 应用。

了解更多

如何开始人工智能之旅: 你已拥有 “原力”,只待释放潜能

企业既有 IT 基础设施在 AI 应用上的潜能很强,随着 CPU 在流行深度学习框架上的持续优化和提供更多的软件工具,只需对它稍做升级,即可充分释放潜能。

了解更多

产品和性能信息

1数据来自于第四范式市场数据
2数据来自于https://www.4paradigm.com/product/prophet
3数据来自于LinkedIn发布的《全球AI领域人才报告》