引言:

  • “联邦学习技术能在帮助保证数据安全和隐私保护的前提下,加速推动人工智能领域实践前行。

  • 英特尔® 软件防护扩展技术,是联邦学习方案中构建硬件可信执行环境的理想之选。其通过处理器指令,在不同数据源中创建可信区域来用于数据访问。这帮助我们能在进一步强化数据安全的条件下,利用多源数据来提升 AI 模型的训练效果。”

  • - 王健宗博士,平安科技副总工程师,广东省人工智能与机器人学会理事,中国人工智能开源软件发展联盟副理事长

author-image

作者

高质高量的数据已成为企业构建人工智能 (Artificial Intelligence,AI) 核心竞争力的重要抓手。作为平安科技旗下重要的 AI 技术实践专家,平安科技联邦学习技术团队 (以下简称“联邦学习团队”) 正探索运用联邦学习方法,聚合更多来源、更多维度和更高质量的数据,来提升 AI 模型训练效果。

但多源数据的交互、传输和聚合,也带来了更为复杂的数据安全问题。尤其在一些敏感行业与领域,数据泄露风险已成为令人关注的焦点,并日益在国家和社会层面受到重视,催生出了一系列主打数据保护的法律法规。如果不能有效建立起安全可信的多源数据协同方案,那么多源数据就很难打破其孤岛状态,也势必会影响联邦学习发展和落地的步伐。

通过硬件增强型安全技术的支持,在特定硬件中建立一个可信执行环境 (Trusted Execution Environment,TEE),有效地防止外界触达和攻击敏感的数据和应用,是应对这一问题的更为可行的手段。通过与英特尔开展深入技术合作,联邦学习团队成功地将 TEE 方案的重要支柱——英特尔® 软件防护扩展 (英特尔® Software Guard Extensions,以下简称英特尔® SGX) 技术引入其联邦学习方案,率先在多源数据协同实施 AI 训练之路上开展了积极探索,并在保险、医疗、智能语音以及车联网等多个领域的实践中取得了丰硕成果,赢得了用户的良好反馈。

平安科技联邦学习团队获得的解决方案优势:

● 通过处理器指令,英特尔® SGX 技术可在联邦学习的各节点中,创建更有助于确保数据安全的内存“飞地”,用于中间参数的交互和传输,以帮助防止内外部攻击,为多源数据环境下的联邦学习实践探索提供更为可靠的安全保障;

● 结合英特尔® SGX 技术的 1+N 联邦学习解决方案,有助于精确地评估各节点数据对于AI 模型训练的贡献度,方便用户对方案进行调整。

联邦学习实践助力 AI 训练演进

算法的日趋成熟和算力的日渐丰沛,让大规模与高质量的数据成为影响 AI 效能的重要因素。然而,在各行业 AI 应用的实际落地中,因不同企业、部门所属数据源彼此孤立而造成的训练数据不足,造成了 AI 模型训练效果不佳的问题。而传统上,要利用多个数据源共同训练模型,系统需将数据整合到一起,但这种做法无法保证数据交互的安全性,也加大了数据泄露的风险。

随着数据安全和隐私日益受到人们的关注,政府也在法律法规层面不断加大对它们的保护力度。例如 2019 年 4 月正式发布的 《互联网个人信息安全保护指南》,对于个人信息的共享和转让行为给出了明确规定,进一步加强了个人信息安全保护措施 1。而 2019 年 5 月由国家互联网信息办公室会同相关部门研究起草的 《数据安全管理办法(征求意见稿)》,则对数据处理使用和数据安全监督管理提出了明确的意见要求 2

因此,AI 训练需要更有安全保障的数据聚合方法来提升多源数据协同能力。凭借对 AI、大数据技术发展的敏感性,联邦学习团队前瞻性地对日渐成熟的联邦学习方法展开了探索。与传统数据共享方法不同的是,联邦学习中各节点的数据都留存在本地来参与训练,因此各数据源都有望在有效保证数据隐私的前提下共同参与和推动 AI 模型的优化,并分享优化成果。

现在,联邦学习团队基于这一理念构建了全新的蜂巢联邦学习平台,来为用户提供数据隐私安全保护的一站式解决方案。在该平台的构建过程中,如何进一步增强多源数据在其本地的安全性,如何为 AI 模型调优的中间过程提供更可信的安全保障,以及如何有效地评估各数据源对于最终优化结果的贡献度,都是新方案亟待解决的问题。为此,联邦学习团队与英特尔一起,通过引入英特尔® SGX 技术,为以上问题提供了更优的解决方案。

过“硬”技术为联邦学习保驾护航

在联邦学习方法聚合多源数据实施 AI 模型训练的过程中,AI 模型或过程参数需要通过网络在各个数据节点中进行传输和交互。众所周知,数据的暴露面越大,其所面临的安全风险也越高。因此,无论是各节点中的硬件设施、操作系统等,还是路由器、网关等网络设备,一旦受到 “污染”,都有可能带来数据泄露、篡改的安全风险。

例如,黑客有可能通过在网络转发设备上安装嗅探器 (Sniffer) 来截取数据报文,也可能利用冷启动 (Cold Boot) 攻击方式来读取服务器重启后的数据残留,或者直接通过内存总线窥探、内存篡改等方法攻击内存中的数据。形形色色的攻击方法令系统防不胜防,而要构建自下而上,涵盖软硬件和操作系统的安全防护机制,不仅会带来巨大的资源消耗,抬升用户的总拥有成本 (Total Cost of Ownership,TCO),同时实际防护效果也未必尽如人意。

在硬件中构建可信区域的 TEE 方案是解决上述问题的更优选择。作为这一方案的重要技术实现,如图一所示,英特尔® SGX 技术可通过在特定硬件 (例如内存) 中构造出一个可信的“飞地”(Enclave),使数据和应用程序的安全边界仅限于“飞地”本身以及处理器,同时其运行过程也不依赖于其他软硬件设备。这意味着数据的安全保护是独立于软件操作系统或硬件配置之外,即使硬件驱动程序、虚拟机乃至操作系统均受到攻击和破坏,也能更有效地防止数据泄露。

图一 英特尔® SGX 技术以可信“飞地”来增强数据安全防护

基于英特尔® SGX 技术所具备的特性,联邦学习团队与英特尔一起,在其联邦学习方案中设计了 1+N 式的多源数据 AI 模型训练方法,使其面临的数据安全和训练效果评估问题均获得了更好地解决。

图二 使用英特尔® SGX 技术的联邦学习方案

新的 1+N 式解决方案架构如图二所示,其由位于中心的聚合服务器 (Aggregator)“飞地”以及部署在各处的 N 个边缘“飞地”组成网络,聚合服务器和各个数据源系统中的“飞地”,均是由英特尔® SGX 技术提供的处理器指令,在内存中构造出的可信区域。

在 1+N 式方案中,需要在加密通道中传输的,是待训练优化的 AI 模型以及相关的中间参数,而训练数据、明文 AI 模型以及 AI 算法则被留存在各个数据源所在的节点本地。在初始化过程中,“飞地”都会自己产生公私密钥对,公钥注册到聚合服务器,私钥保存在各自的“飞地”里。当训练开始时,首先聚合服务器会和目标“飞地”建立加密连接 (通过公私密钥对的非对称算法提供的能力来协商本次连接的对称加密密钥,帮助防止中间人攻击)。连接建立后,聚合服务器首先会将待训练的 AI 模型加密推送到各个“飞地”,然后各个“飞地”把模型解密传送到本地 AI 训练环境对本地数据实施训练。训练结束后,本地 AI 训练环境将训练得到的中间参数返回至本地的“飞地”。

针对业务需求,团队对联邦学习进行了创新:每个本地环境中的“飞地”都会是联邦的可信代理,随着后期算法可以直接运行在“飞地”里,这个可信代理在本地环境里可以做的事情会越来越多。接下来,“飞地”会在加密连接里把中间参数加密传回给聚合服务器“飞地”。聚合服务器“飞地”会将收到的中间参数进行快速聚合,并根据结果对 AI 模型进行优化调整,而后再进行下一轮的迭代。

由于上述过程都是在“飞地”中实现,也就是说,在方案的整个循环迭代过程中,AI 模型以及中间参数,都在加密通道以及“飞地”内进行传递和交互,并不与外界软硬件发生接触,由此形成了更为安全可信的“内循环”。而英特尔® 架构处理器,则为“飞地”的构建、加密通道的敷设以及中间参数交互和聚合提供强大的算力支持。

同时,针对各节点为训练效果贡献的评估,1+N 式方案也给出了令人满意的实践方法。在 1+N 式方案中,当有 N 个数据源时,可以先对所有节点进行训练,得到全量的训练效果。而后再分别对除了待评估节点以外的 N-1 个节点进行训练(例如评估节点 #1 时,对节点 #2 至 #N 进行训练),在得到不同训练效果的模型后,系统可以计算出每个数据节点在联邦学习中的“贡献系数”,从而对各个数据节点在 AI 联合训练中的贡献度做出更为精确的评估,并据此进行方案调整。以上算法和调度,可能会对联邦学习的性能有所影响,是否奏效还需要用实践来予以验证。但如何进一步利用英特尔技术所构建的“飞地”,确实还有很大的空间等待探索和发掘。

领先的联邦学习实践成果

以联邦学习在保险行业的应用为例,以往用户在投保时,业务人员只能根据用户的年龄、性别等基本信息来确定保费金额。但随着信息社会的不断发展,用户数据的数量和特征维度得到了巨大的增加。例如对于健康类险种来说,业务系统如果能够利用海量的病历、家族病史数据等进行 AI 预测,并得到更加细分的健康评估类别,就有望提升投保人健康评估结果的准确度。

但病历、病史等,无疑是各个健康医疗机构中需要绝对确保隐私的数据,不仅不可能予以公开,更需要提升安全等级予以保护。现在,通过联邦学习方案的引入,保险企业可以在不触及用户数据的情况下开展保险定价模型的 AI 训练。据已启动的相关项目的第一线反馈,联邦学习 1+N 式解决方案使保险个性化定价效果得到了明显提升。

展望

随着数据价值的日益凸显,缺乏有效的数据保护,正使各行业内的数据孤岛现象日趋严峻。作为国内联邦学习的先行实践者,负责领导平安科技联邦学习技术团队的王健宗博士,为应对 AI 发展所遇到的数据难题,带领团队以领先的联邦学习方法,积极探索多数据源环境下的数据安全、可信协同,为 AI 在该领域的技术突破积累了丰厚的经验,并取得众多成果,为联邦学习在各行业的应用落地提供了有益的参考。

目前,该团队正利用联邦学习方法,重点研发设计面向数据强监管的金融业多态多任务学习模型,满足银行和金融机构在风险评估、反洗钱、投顾、投研、信贷、保险和监管等众多应用场景中的需求,帮助用户利用 AI 能力构建更有效的风控和营销模型,有效识别信用卡盗刷、贷款逾期、金融欺诈等潜在金融风险,减少金融企业的经营风险。同时,联邦学习方法也能帮助用户利用横向数据实施用户画像,拓展销售通道,优化营销策略,为企业销售能力的提升提供一个更强有力的智能化引擎。

在未来,联邦学习团队还将与英特尔进一步开展技术合作,以更多、更先进的技术驱动数据资源在联邦学习中的安全运转和高效转化,并与更多企业和机构相互协作,打破数据壁垒,推动联邦学习在各行各业中的快速发展和应用。