用联邦学习加速医疗科研,如何兼顾安全与效率

文章来源:HC3i 中数新医

  • 尽管各医疗科研机构希望通过处理多源数据提升 AI 模型精确性,但受限于信息风险防控要求,各方数据多以孤岛形态存在。而基于英特尔® SGX 打造的联邦学习方案兼顾安全与效率,有助于发挥医疗数据价值。

author-image

作者

HC3i 导读:
如何在保障各医疗机构信息安全的前提下共享数据的价值,让各机构的医疗数据可以更安全地用于多方联合建模和研究呢?

近年来,医疗健康大数据的蓬勃发展,推动了人工智能(AI)在医疗领域的应用落地,从对患者的精准治疗、健康保健、疾病筛查到基因药物研发、临床新疗法研究等都因此获益良多。在这一过程中,可利用的数据量越大、维度越丰富,能够从中发现和学习到的特征就越多,基于此构建的 AI 模型的性能及应用价值也就越高。一系列医疗信息化系统和数字化设备的普及已经使医疗数据处于厚积薄发的状态,然而利用更多源、更多维度的高质量医疗数据进行模型训练依然不是一件容易的事情。

不同于其它领域,“医疗数据不出院”需求强烈,整合难度更大,尽管各方都期待能够通过处理更多来源的数据以便得到更精确的 AI 模型,但受限于信息风险防控要求,各方数据多以孤岛形态存在,多方协同、价值共享很难实现。

那么,如何在保障各医疗机构信息安全的前提下共享数据的价值,让各机构的医疗数据可以更安全地用于多方联合建模和研究呢?对这一问题,行业内有着一个公认的答案,那就是联邦学习。

医渡云实践:引入 TEE 联邦学习方法实现医疗科研突围

联邦学习的原理是通过在多个拥有本地数据的数据源之间进行分布式模型训练,在不需要交换本地个体或样本数据的前提下,仅通过交换模型参数或中间结果的方式,构建基于虚拟融合数据下的全局模型,在保证数据隐私安全及合法合规的前提下,利用多方数据实现共同建模,提升 AI 模型效果。

为了进一步强化和发挥联邦学习在多方数据利用和协作上 “数据可用而不可见”、“数据不动模型动”的独到优势,助力多方或多中心的医疗科研,国内医疗智能行业的头部企业——医渡云就基于联邦学习等隐私计算方法打造了一个多方安全计算解决方案。其目标,就是要帮助医疗科研机构间推进更多的多方和多样化的数据协作和融合。一方面,医疗科研能借此消除或降低多方因研究区域及方法、方式差异带来的数据偏差,增强研究成果的泛化能力。另一方面,也能让不同参与方的临床数据得以共享,扩大科研所需的数据样本量,提升最终模型的性能。同时,也可以把更多来自社区医疗、家庭医生、体检机构及可穿戴设备的非临床数据补充和融合进来。

为了实现这些目标,医渡云多方安全计算解决方案设计了多个功能层面,如图一所示,其自下而上分别是面向院内外业务系统的数据采集系统、进行数据加工治理的医疗机构内部专病库以及开展多方隐私计算的安全计算平台。在安全计算平台之上,医渡云又通过多中心医学研究全场景解决方案,部署了一系列面向多样化医疗科研场景所需的上层应用能力,如临床研究开展、药械试验与研究等。

图一 医渡云多方安全计算解决方案整体架构

在架构设计上,医渡云的方案采用了分布式的设计,可分为平台端 (调度节点) 和医院端 (计算节点)。其中平台端部署在互联网数据中心或机构联盟的主中心私有云环境中,负责各医院端隐私计算节点和多方安全计算任务的统一管理和协调;医院端则部署在医院的私有云环境中,通过隐私计算节点间的协作,能保证数据在不出医院的前提下完成联邦学习及多方安全计算过程。各个隐私计算节点对其所有的数据有绝对的控制权,所有数据调用经过多方安全计算框架可审计。

基于上述功能和架构设计,医渡云这一方案在实际使用中,或者说在各医疗科研机构开发基础联邦学习的模型协同训练时,就会像图二所示这样运作:数据准备阶段是在各个参与协同训练的医院或医疗机构本地完成,该过程中准备好的数据会通过程序接口加载到医院端中(不离开本地),随后平台端会调度完成模型的协同训练过程,而参与训练的医院端则会通过加密信道与其他参与方完成通信与计算,并最后完成模型的优化训练。

图二 基于医渡云方案的联邦学习模型训练流程

通过实践,医渡云总结这个方案与一般的分布式机器学习或深度学习方案相比,拥有如下优势:

  • 参与各方的医疗数据不脱离其本地,即可用于训练全局模型;
  • 每个参与方都可参与训练过程,且模型损失可控;
  • 训练过程能更好地兼顾隐私和安全需求,各参与方能在不暴露数据及加密形态的前提下进行联合建模。

值得一提的是,为了给各方的数据,以及共同训练及优化的模型提供更严密、可靠的安全防护,医渡云的方案还可支持使用基于硬件的可信执行环境(TEE)类的技术,作为加固的数据安全底座。该方案目前就可以根据需求导入 TEE 的主流技术之一——英特尔® SGX(英特尔® Software Guard Extensions, 英特尔® 软件防护扩展)技术,在内存的特定硬件环境中构造出一个安全“飞地”(Enclave),作为给敏感数据与程序构建的硬件隔离环境,使其安全保护机制独立于软件应用、操作系统或硬件配置之外,来大幅提升其保密性和完整性,以及更有效地避开来自硬件驱动程序、虚拟机乃至操作系统的攻击。这项能力可帮助联邦学习各个参与方,例如各医疗科研机构将数据分析、模型训练及推理所涉及的数据和代码运行在“飞地”内,并通过访问控制为这些代码和数据提供更加可靠也更值得信赖的安全保障。

得益于医渡云多方安全计算方案上述综合优势,及其为医疗数据融合提供的核心技术保障,该方案已支持了一系列医疗科研领域的联合研究项目,并在实践中收获了良好效果。同时,该方案本身也已通过了中国信息通信研究院在隐私保护计算技术上的两项认证,分别为《基于多方安全计算的数据流通产品技术要求与测试方法》与《基于联邦学习的数据流通产品技术要求与测试方法》。

联邦学习的可靠保障 - 英特尔® SGX

从对医渡云方案的解析中,我们不难看出,联邦学习为了实现对数据的保护,既有以软件为主的方案和实现方式,也可以选择再砌上一层基于硬件的防护手段。这两者并非竞争或彼此替代的关系,后者更像是多叠上一层 BUFF 的感觉。在日前由英特尔联合国际学术期刊《Science》推出的《架构师成长计划》第三期课程——“联邦学习的研究与应用实践”中,来自英特尔软件和高级技术系统部首席技术架构办公室的产品安全部门高级总监郭伟这样介绍它们的差别:“软件解决方案在初期是没有考虑各个计算方的数据的隐私、学习的算法,包括生成子推导模型的保护,并且没有得到相应的操作系统,包括内核以及软件运行环境的支持,而基于硬件架构的可信设计能够对敏感数据的机密计算实现更高安全等级的加固。”

简而言之,就是基于 TEE 的联邦学习可提供更高等级的安全防护,能更好地保护正在处理和应用中的数据。而利用英特尔® SGX 来构建这种硬件可信执行环境,正是业界公认的主流方式之一。

正像上文提及的,英特尔® SGX 能够得到这样的认可,很大程度上要归功于它提供的“飞地”设置。如图三所示,这种所谓“飞地”,就是在 CPU 支持下,在内存等特定硬件环境中构建出的一个安全可信的隔离区,它独立于操作系统、虚拟机以及 BIOS 系统之外,因此即便这些比客户应用程序更底层的基础软件或系统在恶意攻击中沦陷,由英特尔® SGX 生成的飞地也可以通过其基于硬件的、增强型的安全防护更有效地阻断这些攻击,尽可能避免其中的数据或代码被窃取或篡改。

图三 英特尔® SGX 技术实际应用示意图

其实这种“飞地”的概念,就类似于大规模传染病爆发期间常见的隔离区或专用的隔离医院,但与真实医疗场景中这类隔离区或隔离医院主要用于隔离患者或潜在传染者的情况不同,英特尔® SGX 生成的“飞地”所容纳的,是那些需要受到严密保护的应用代码或关键数据,它们一旦进入“飞地”,就得到重重保护。而且在提供这种隔离机制的同时,SGX 还提供了完备的远程鉴权能力,这就像是一套完整可靠的、用于隔离区准入的检疫认证流程,它可以让数据、代码的传递及进入“飞地”的动作变得更加安全牢靠。

“英特尔® SGX 提供的这种‘飞地’,意义就在于可以提供一个更小的可信运行环境,来减少一些恶意攻击的攻击面,这样就能够以一个更大化的,或者说尽最大可能地去保护我们整个系统,让它不易被恶意攻击者所窥测,从而减少了数据隐私和安全所面临的威胁,”郭伟如是说。

从图三揭示的英特尔® SGX 实用效果不难看出,其提供的“飞地”空间越大,就意味着它可以为更大体量的数据和代码提供隔离保护的服务。基于这一考虑,英特尔对其面向单路和双路的第三代至强® 可扩展处理器,也就是医渡云方案采用的 CPU 进行了全面的强化:一是从这一代产品开始,在面向服务器的至强处理器产品线中实现对英特尔® SGX 技术的全面支持,二是大幅扩展了其可支持实现的“飞地”空间,即最高可在一个双路服务器系统中支持高达 1TB 的保留加密内存区域(Enclave Page Cache,EPC,单颗处理器最高支持 512GB),以容纳更多、更大体量的应用程序和核心数据,为企业实现更大数据量的隐私计算打下坚实的基础。

英特尔将 SGX 全面内置于第三代至强可扩展处理器这一动作,也为其对数据安全和数据处理能力的兼顾提供了更强有力的支撑——除内置了 SGX 外,该处理器在内核微架构、I/O、内存性能和容量上的改进和提升,及其内置的英特尔® 高级矢量扩展 512(英特尔® AVX-512)和英特尔® 深度学习加速(英特尔® DL Boost)技术对 AI 应用的硬件加速能力,也能为基于 TEE 的联邦学习方案涉及的复杂计算提供其所需的强劲算力。这种对安全和性能的同步兼顾,其实正是 SGX 核心优势更为全面的体现,它在医疗行业,特别是医疗科研工作中,意味着可在某些对计算性能和安全等级要求都很高的场景中输出更为全面的应用优势。

更安全、高效地共享数据价值,英特尔® SGX 走向广泛落地

对于一项优秀技术的真正认可,应该是其大范围的普及与推广。正如英特尔® SGX,随着越来越多用户的支持,如今已有诸多合作伙伴陆续跟进,将其应用于医疗领域中更多的联邦学习及更广泛的隐私计算场景之中。

比如专业的隐私计算服务提供商锘崴科技所打造的锘崴信® 隐私保护计算平台采用英特尔® SGX,基于安全联邦学习技术,实现了在不分享明文数据(个体基因数据)的基础上,支持华西医院等在内的多家三甲医院和大学,完成了强直性脊柱炎的全基因组关联研究 (Genome-Wide Association Study, GWAS) 分析,在整个数据共享的过程中从始至终对患者信息进行更可靠地保护,有效解决了基因数据共享中存在的隐私安全问题;不仅如此,锘崴科技还融合英特尔® SGX 开发了一个名为  PICOTEES 的隐私保护查询在线系统,可以有效防止对受保护内容的未经授权的软件或硬件访问,在兼具更优性能和更强安全性的前提下实现带有隐私保护的罕见病查询,基于 PICOTEES 的儿童遗传诊断变异研究系统已在复旦大学附属儿科医院取得了令人满意的应用表现。

数据安全更有保障,助力医疗领域实现美好未来

《2020 年 IDC 产业发展研究报告》显示,到 2024 年,国内大数据市场规模将达到 1444.7 亿元,对于医疗领域内蓬勃发展的人工智能而言,如此庞大的数据为医疗健康创新中的算法及模型提供了更多可能。与此同时,医疗科研机构之间对于数据融合的渴望也会更加强烈,因此具备“打破数据孤岛”能力的联邦学习正成为行业中的大热门。中国人工智能开源软件发展联盟副理事长王健宗博士也在前文提及的、由英特尔联合国际学术期刊《Science》推出的《架构师成长计划》第三期课程——“联邦学习的研究与应用实践”中表示:“联邦学习市场潜在机会可观,是面向大数据流通应用的绝对刚需。”如今英特尔® SGX 在除医疗之外的金融、保险等众多涉及敏感数据的领域已获得广泛应用,也证实了这一观点。

总的来说,从 2015 年面世以来,基于英特尔® SGX 的硬件可信执行环境已在全球进行了大量地开发和部署,并受到了越来越普遍的欢迎。随着医疗健康数据总量和研究模式越来越多,基于英特尔® SGX 这种 TEE 技术的联邦学习也有望进一步帮助更多医疗科研机构的 AI 应用在兼顾安全与效率的同时发挥出医疗数据的价值,让更多人享受到更加高效、精准的医疗服务体验。

不过,无论现有的技术能够带来怎样的应用革新或行业质变,所有医疗行业的从业者和技术提供者也一定要谨记:面向数据或信息安全的挑战时,从来都不会有一种“一劳永逸”的技术或方案。正如郭伟在“联邦学习的研究与应用实践”课程中强调的那样:“任何的系统它都不会是100%的安全,在我们对这个未知安全世界的探索中,总会遇到新的安全问题……这时的关键,就是我们要通过怎样的手段或机制,能够去加固系统,能够去避免这些已经被探知的威胁和漏洞,尽力防止它们来攻击我们的系统……而在这个机制之上,我们还需要通过不断的技术更新,去抵御新的威胁。”