用“芯”探索人工智能的另一片“森林”

英特尔携手南京大学 LAMDA 团队,共同推进深度森林的探索与应用

引言:

  • “不同的人工智能应用,对计算力也有着不同的需求。而深度森林在离散建模、混合建模或符号建模等应用场景中的优异表现,使之与拥有众核、高频能力的英特尔架构处理器有着天然的契合。

  • 包括新一代英特尔®至强®可扩展处理器在内的先进处理器,其强劲计算力可以为深度森林提供源源不断的动力支撑。‘英特尔-南京大学人工智能并行计算中心’的成立,既是双方合作的结晶,也是未来合作的新起点。”

  • 宋继强 英特尔中国研究院院长 英特尔中国

author-image

作者

在过去数年中,以深度学习为代表的人工智能(Artificial Intelligence,以下简称 AI)研究取得了前所未有的进展,在图像识别,音视频检测等多个应用领域获得巨大成功,并催生出一大批 AI 独角兽企业。

但囿于神经网络算法的特性,深度学习在离散的、非连续可微的数据集上的训练效果并非最优。同时,它也存在需要海量标注数据、理论分析困难以及过于依赖超参数等短板。为此,专攻 AI 的科学家们正推陈出新,积极探寻更多、更新的AI研究方法。

来自南京大学机器学习与数据挖掘研究所*(以下简称“LAMDA 团队*”)的周志华教授与他的团队一起,提出了全新的深度森林方法,以多层级决策树森林集合的方式另辟蹊径。通过实验室及真实应用场景的论证,深度森林被证明在金融数据分析、情感分类等需要离散建模、混合建模或符号建模的应用场景中,可取得比深度神经网络更优异的效果。

由于深度森林对并行计算的需求远大于矩阵计算,而这正是拥有众核、高频特性的英特尔® 架构处理器的擅长之处。因此,从深度森林的第一株幼苗崛起,到其成长为一片参天森林,来自英特尔的各款先进处理器产品就一直为其提供适宜且强劲的计算力,以及相关的调优支持。随着英特尔和南京大学于 2018 年 9 月携手共建全球首个面向 AI 的英特尔® 并行计算中心(Intel® Parallel Computing Center, IPCC),以英特尔® 至强® 可扩展处理器为代表的全新一代英特尔® 架构处理器产品,势必将为深度森林的持续演进与优化提供源源不断的计算动力。

互联网浪潮带来的海量数据、芯片技术革新带来的算力飞跃,以及计算机和数据科学领域的科学家对算法的持续优化,使 AI 技术在过去数年间实现了前所未有的爆发式成长。尤其当 AlphaGo* 项目在围棋人机大战中接连击败众多顶级高手后,人们更是惊呼 AI 时代已经到来。

的确,由深度神经网络为主要方法的深度学习,已在图像、视频以及语音等 AI 技术应用领域获得显著进展,并带来相关产业的突飞猛进。一项数据表明:到 2023 年,AI 行业价值将有望上升至 142 亿美元1。但烈火烹油、鲜花着锦之余,人们也提出一个疑问:深度神经网络是否就代表着 AI 技术的未来?

答案无疑是否定的,来自真实应用的反馈显示,深度神经网络在不可连续微分的领域中并不占优。而 Kaggle*2 竞赛的一些结果也表明,深度神经网络在处理离散化的数据方面,并未获得预想效果。同时,它还面临着需要使用大量的标签数据进行训练、理论分析复杂、参数调整要求高等问题。

来自南京大学 LAMDA 团队的周志华教授凭借其在机器学习、强化学习以及深度学习等领域的渊博学识,提出这样的观点:当一种AI 训练方法同时满足有逐层的处理,有特征的内部变化以及有足够的模型复杂度三大条件时,那它一定也可以在性能上媲美深度神经网络,甚至更为出色。

基于这一观点,周志华教授与团队一起,连续推出三篇重量级论文,从 gcForest*3 到 eForest*4,再到 mGBDT*5,逐渐勾勒出一种 AI 训练的新方法—深度森林的蓝图,并以详实的测试数据以及基于真实场景的应用成果表明,深度森林在混合建模、离散建模以及符号建模等任务上,其表现远超深度神经网络。

什么是深度森林?

众所周知,决策树是机器学习中进行分类、判断的常见预测模型,但传统的决策树模型在学习容量上非常有限,一般仅能做到几层模型。如前文所述,深度学习成功的重要原因,是其拥有容量巨大的学习模型,可以承载足够的训练数据来进行表征学习。

通过吸纳深度学习的多层处理结构思想,LAMDA 团队提出了一种基于全新的决策树集成方法,被称为多粒度级联森林(multi-Grained Cascade forest,gcForest)的新模型。该模型设计了一种级联结构来进行表征学习。如图一所示,级联的每个层级包括了两个随机森林(黑色表示)和两个完全随机树木森林(蓝色表示),假设训练中有三个要预测的类,每个森林都将输出三维类向量,并在联接后作为下一层级的原始输入。

图一 深度森林 gcForest 模型结构

当进行高维度输入时,模型还可通过多粒度扫描(Multi-Grained Scanning)的方法,使其表征学习能力得到进一步提升。

与深度神经网络相比,gcForest 模型中的级联层级能够根据需要进行调节,这使得小规模数据集在训练中也同样可以获得不俗的成绩。同时,gcForest 所需的超参数更少,且具有很好的鲁棒性。

这意味在大多数情况下,用户可使用默认设定来训练来自不同领域的不同数据,并取得良好效果。这不仅使 gcForest 在实际场景中的应用变得更为广泛和便捷,也使理论分析变得简单。

利用来自 GTZAN*、IMDB* 等处的多类数据集,gcForest 模型在音乐分类、手部运动识别以及情感分类等多个场景下进行了对比测试,从而验证了其实际的训练效果。测试结果如图二所示,在同一应用场景中,gcForest 模型有着不亚于深度神经网络、随机森林及逻辑回归等模型的表现。

图二: gcForest 模型与其他模型的对比测试

在gcForest 模型的基础上,LAMDA 团队又接连提出了基于决策树集成方法的自编码器(auto-encoder)eForest,以及可进行表征学习的多层梯度提升决策树(Multi-Layered Gradient Boosting Decision Trees,mGBDT)。

eForest 可使深度森林能够利用树的决策路径所定义的最大相容规则(MCR)来重构原始模式。实验数据表明,eForest 在准确率和速度方面表现良好,且具有容损和模型可复用的能力。尤其是在文本数据上,仅用10%的输入比特,模型就能以很高的精度重建原始数据6。值得一提的是,eForest 可以直接处理符号属性或混合属性的数据,这对保证数据信息的完整性尤为重要。

而mGBDT 则充分融合了树集成(Tree Ensembles)的优秀性能以及分层分布式表示带来的表征学习能力,提出了一个新的多层结构,其使用梯度增强决策树作为每层的构建块,并可通过目标传播的变体来共同优化训练过程。这充分证明了深度森林可以使用树结构,来实现分层和分布式的表征学习能力。

随后的一系列测试验证了mGBDT 的精度和鲁棒性。在一项蛋白质定位实验中,如表一所示,随着层级结构逐步发生变化,对比组中的神经网络模型,尤其是基于目标传播的神经网络模型,其精度下降了39% 左7,而mGBDT 基本保持稳定。

表一 mGBDT 精度和鲁棒性对比测试结果

深度森林需要什么样的计算方案?

与深度神经网络所需的海量矩阵乘法计算不同,深度森林更关注在每个分枝上的预测结果。因此,它在计算力的选择上,也完全有别于深度神经网络。

来自南京大学的冯霁博士这样介绍两者的区别:深度森林主要基于多层级的树架构来构建,其每一层均可视为一系列的决策树。因此,它需要并行地在多棵树上执行任务,而这些任务更多是需要进行决策计算。在这方面,GPGPU 很难发挥其长处,而这显然是拥有众核、高频能力的英特尔® 架构处理器所擅长的地方。

因此,这一 AI 创新工作从一开始就与英特尔结下不解之缘,利用英特尔® 架构处理器提供的强大计算力,深度森林所蕴含的潜力被逐渐深入探索和发掘,而英特尔也通过吸收团队的结果反馈,对其软件、编译器等实施持续优化。此前利用英特尔® 至强融核™处理器,以及来自英特尔的全方位技术支持,决策树训练任务的速度曾获得了非常显著的提升。

深度森林的并行任务处理机制,使处理器内核增加的同时,能带来训练效率的线性增长,这让英特尔擅长的多核架构有了用武之地。同时,更高的处理器时钟频率也可带来训练速度的大幅提升。如今,英特尔新一代的英特尔® 至强® 可扩展处理器,则能为深度森林训练任务提供更为强劲的计算力—它不仅集成多达 28个处理器内核,微架构也进行了全面升级优化,并配备了更快、效率更高的高速缓存来提升处理效能。

英特尔® 至强® 可扩展处理器配备的英特尔® 高级矢量扩展 512(英特尔® AVX-512)技术,更是有助于应对深度森林多任务并行处理的需求。目前,LAMDA 团队开始利用英特尔® 至强® 可扩展处理器开展深度森林的训练任务,并取得了阶段性成果。

真实场景中的深度森林

海量的数据、缜密的业务逻辑以及高度的安全需求,让金融行业天然成为AI应用的重点方向。不过,金融数据的稀疏性与高维性,使数据科学家利用深度神经网络对其进行处理时,往往会导致偏差或信息丢失。而基于树结构的深度森林模型则能更好地处理此类场景。

日前,通过与某互联网金融巨头进行的紧密合作,深度森林再次被验证可在大规模金融风控任务处理上取得良好效果,进而帮助用户避免不必要的经济损失。从双方联合发表的《Distributed Deep Forest and its Application to Automatic Detection of Cash-out Fraud(用分布式深度森林算法对套现欺诈进行自动检测)》一文中可以获知,双方团队在“现金支付欺诈的自动检测”这一任务上,对深度森林的训练效果进行了验证8

首先,对数月内在 O2O 交易中有支付行为的用户,双方团队通过数据采样,构建了模型的训练数据集,并采集了之后数月的数据作为测试数据集。在其后的检测任务中,通过收集四个方面的原始信息,使交易在发生时,模型可以收集到数以千维的数据特征。

而后,LAMDA 团队通过 MART(多元加权回归树)模型来过滤无效特征,提升训练效率。最终模型会选择数百个重要性较高的特征来执行深度森林训练过程。在对海量样本进行训练,并对比评估了逻辑回归,深度神经网络以及多元加权回归树等模型后,如图三所示,可以发现,深度森林无论在召回率,还是在准确率方面都有着更佳表现9

图三 深度森林与其他方法的 PR 曲线对比

基于此可以推断,在套现欺诈行为的检测任务上,深度森林可以助力金融企业构建更优异的反欺诈风控解决方案,有效降低经济损失。

除此以外,深度森林的价值还在多家证券、互联网金融行业企业的应用场景中得到了同样的验证,相信随着模型和算法得到进一步的完善和优化,它势必会在更多行业和领域的 AI 应用中发挥所长。

基于深度森林的未来合作

作为一支优秀的 AI 研究团队,LAMDA 团队深知以高性能芯片为代表的硬件设施对于 AI 研究的重要意义。因此从深度森林工作开展之初,他们就积极与英特尔开展深层次技术交流,不仅利用英特尔在芯片、编译软件以及指令集层面的深层优化来提升训练的效率和质量,更从英特尔提供的硬件基础设施方案出发,优化深度森林相关的算法与模型设计,使之更贴合产业界的实际需求。

而始终走在 AI 创新第一线的英特尔,也通过源源不断地吸收来自LAMDA 团队的最新研究成果,并将之反馈到芯片、指令集以及相关软、硬件产品的研发和设计中去,使自身的产品和技术更适于未来 AI 应用的需求。预计在不久的将来,针对深度森林模型与算法的优化型技术,将有望被集成到全新的英特尔处理器指令集,或者其他英特尔软、硬件产品中去,从而能更为有力地支持深度森林方法在各行各业的应用落地。

为使这种合作与交流变得更为密切和常态化,英特尔与南京大学携手,在 2018 年 9 月正式成立了“人工智能联合研究中心”,这是英特尔® 并行计算中心在全球范围首批建立的面向 AI 的研究中心,它的成立标志着双方的合作将进一步走向“深水区”。相信随着 LAMDA 团队的创新研究与英特尔的领先计算平台的进一步融合,势必会碰撞出更多 AI 研究的火花,助力中国 AI 产业实现真正意义上的“质变”。

南京大学 LAMDA 团队

LAMDA (Learning And Mining from DatA) 隶属于“计算机软件新技术国家重点实验室”和“南京大学计算机科学与技术系”。自2004 年成立以来,团队在周志华教授的带领下,专注于机器学习、数据挖掘、模式识别等领域的研究与创新,成为国内乃至于全球第一梯队的 AI 研究组织。

英特尔® 并行计算中心

英特尔® 并行计算中心设立在全球各领域内首屈一指的大学,研究机构和实验室。旨在利用英特尔® 架构处理器、协处理器中的内核、线程和矢量功能来提升各个技术计算应用中,相关处理进程的并行性和可伸缩性,以先进的计算力来为各领域内的相关计算应用赋能。