为了医疗 AI,他们做出了一个 “违背祖师爷” 的决定

文章来源:量子位 关注前沿科技

  • 在真正使用医疗 AI 的医院或医疗机构里,频繁升级硬件的难度很大,要用 GPU 来加速 AI,势必要改造系统,会增加成本并带来更复杂的部署和应用难题;

  • 多个医疗 AI 领域的实例说明,只要软硬件配合得当,CPU 一样可以实现出色的 AI 应用效果。而且它能加快医疗 AI 在医疗行业的落地和推广,让不同医疗机构都能用上领先的 AI 技术,惠及更多病患。

BUILT IN - ARTICLE INTRO SECOND COMPONENT

搞深度学习的人,应该感谢 “祖师爷” Geoffrey Hinton 在 2012 年的尝试。

那一年 9 月 30 日,Hinton 团队上传了 AlexNet 在 ImageNet 视觉识别挑战赛的成绩:

15.3% 的错误率,比第二名低了 10.8 个百分点之多!

之所以能出现如此巨大的飞跃,是因为 Hinton 团队使用了 GPU 进行 AI 运算加速,让神经网络 AlexNet 的实现成为可能,开启了深度学习大爆发的时代。

那一篇论文的引用量如今已超过 8 万次,成为深度学习领域引用最高的论文。

Hinton 彻底带火了 GPU,带火了以计算机视觉为主的医疗 AI。连 Hinton 本人也对 AI 辅助医疗技术将会迅速成熟充满了信心。

但是,Hinton 可能万万没想到,现在搞医疗 AI 的人,尤其是落地部署和使用医疗 AI 的人,却做出了一个违背 “祖师爷” 的决定:

CPU 来做医学影像领域的辅助诊断推理。

医学影像领域,为何要用 CPU?

从 AlexNet 诞生算起,GPU 加速技术已发展近十年。为何医疗 AI 还要选择 CPU 呢?

能不能落地是一个非常重要的原因。

要知道,用 AI 辅助医疗诊断不过才出现几年时间,大多数医疗机构可能还没有做好全面迎接医疗 AI 的准备。

作为最终用户的医院或医疗机构使用 AI,与从事 AI 技术或应用研发的企业推进医疗 AI 的研究有很大的不同。

从事医疗 AI 研究的公司和机构,可以快速升级到最新的硬件,用 GPU 加速 AI 训练。 

但在真正使用医疗 AI 的医院里,频繁升级硬件的难度很大,如果在过去的服务器中加入 GPU 之类的 AI 加速硬件,就势必改造系统,不仅增加成本,也会带来更复杂的部署和应用难题。

倘若能用既有的、基于 CPU 的硬件架构高效、经济、快捷地进行 AI 医疗的辅助诊断推理,何乐而不为呢? 

一方面,医院无需明显增加系统和人力等成本,也无需大幅修改硬件部署,就能让先进的 AI 应用更快地部署和投入实战,真正让医疗 AI 普惠到每个患者。

另一方面,在医学影像 AI 方面,既有的 CPU 平台,尤其是英特尔® 主打企业计算任务的至强® (Xeon),也已经做好了准备,自然也就被热心于医疗 AI 实践的用户们看中了。

那么,问题来了,在 GPU 原本擅长的领域,CPU 的能力真的可以胜任吗?

是时候抛弃对 CPU 的偏见了

事实证明,只要软硬件配合得当,CPU 一样可以实现出色的 AI 应用效果,尤其是进行准确、快速的 AI 推理。性能优化到位的话,在这方面的表现就可与 GPU 相媲美。 

举例来说,国内专注医疗 AI 应用开发的汇医慧影,去年推出了专攻肺部 CT 铺助诊断场景的临床 AI 应用系统,而且使用的就是第二代英特尔至强可扩展处理器与英特尔® OpenVINO™ 工具套件这一软硬件组合。

结果是,OpenVINO™ 帮助 AI 模型更好地利用了 CPU 集成的深度学习加速技术,在特定肺炎相关的肺部 CT 影像分析和筛查场景中,在 20 秒内就能完成一个数据样本的推理。

除了性能上的提升外,英特尔® 至强® CPU+OpenVINO™ 工具套件,在加速之余也保证了 AI 模型的诊断精度不变。

其实早在数年前,浙江大学德尚韵兴就曾与英特尔公司合作,用至强® CPU 和英特尔® 的软件优化工具开发过深度学习模型,用于在临床分析甲状腺的超声波影像。

使用深度学习进行的甲状腺结节检测和定性诊断(右)

这种 AI 辅助诊断的准确度,当时就已经比中国甲等医院的放射科医生至少高出 10%。

当然,这并不是说医学影像 AI 应用会取代医生,而是让影像科医生在辅助下能有更高的工作效率,也可以让经验丰富的医生专注于更复杂的病例。

当然,CPU 也仅仅是 AI 计算硬件中的一种,而非唯一的选择。可它越来越受到医疗 AI 领域的青睐,必然有更为深刻的原因:

那便是惠民。

CPU 让 AI 医疗更普惠

将 “AI+CPU 模式” 推广到医学影像中,结果就是 AI 技术更容易落地,被推广,因为用 CPU 做 AI 可以减少异构带来的问题,开发和部署的门槛低、上手快

在国内,许多 AI 医疗辅助诊断案例也实实在在地说明,用 CPU 做 AI 确实降低了医院的成本负担,让经费、人才和资源有限的医院也能用上先进的 AI 模型。

这些 AI 模型对不同的医院和患者可是一视同仁的,它让社区医院也能具备和大医院相近的辅助诊断精度,患者也不必因为一些小病赶去大医院,尤其是外地的大医院,从而有望从技术层面上解决老百姓 “看病远、看病难、看病贵” 的问题。

另一家 AI 医疗企业江丰生物也发现,目前医疗机构的信息化系统,基本都基于英特尔® 架构的服务器构建,如果加装 GPU 将耗费高昂的成本。

通过与英特尔® 的合作,江丰生物基于至强® CPU 和深度学习技术开发了结核分枝杆菌智能筛查系统,巧妙利用英特尔® CPU 多核、大内存的特性,采用多实例异步并发进行处理,最终性能提升到原来的 11.4 倍

要知道,目前我国每年新增结核病患者约 90 万例,属于全球结核病高负担国家之一;但同时我国肺结核患者的治疗成功率又达 90% 以上,治疗手段已经非常先进。

这说明,问题出在结核病的筛查手段上。

英特尔® 与江丰生物的合作,就是利用更易于使用的 CPU,开发出快速检测病理切片图像的 AI 方案,大大地提升了医疗机构病理检测的生产力。

这种方案能够保持 86.8% 的检测准确率,以及 88.9% 的涂片级分级准确率,80 秒内即能完成单例涂片的数字化扫描和涂片定量分级。

结核分枝杆菌辅助筛查技术路线图

江丰生物还基于至强® CPU 和深度学习技术开发了宫颈液基细胞学筛查系统,宫颈癌是一种女性常见的生殖道恶性肿瘤,在全球女性的恶性肿瘤疾病中,宫颈癌发病率高居第二位。

这个项目在 3 万多例宫颈液基细胞学数字图像的标注数据上,搭建了目标检测深度学习框架。利用至强® CPU 和大内存的优势,解决了训练图像尺寸受 GPU 显存资源约束的问题。用比 GPU 训练图像尺寸大 5 倍的图块训练得到的可疑细胞检测模型,综合 MAP 接近 0.43,比用 GPU 训练得到的模型涨点接近 5%。

宫颈液基细胞学筛查系统-技术路线图

江丰这些医疗 AI 创新成果在落地时,也体现了选择 CPU 平台的好处——模型的部署和使用都非常方便,从三级医院至基层医院都能快速推广落地。

这样,就能在极大程度上消除病理科医生水平差异带来的问题,病患也能通过 AI 及时获得更精确的诊断,以及相配套的治疗方案。

CPU 做 AI 计算,它很难吗?

虽然已经有了很多实例,目前仍然有许多人对 CPU 做 AI 抱有疑虑。

而这些疑虑,主要集中在计算速度生态系统这两点上:

例如:CPU 做 AI 计算,训练和推理速度是不是太低了?又比如:同时,AI 生态,对 GPU 架构的支持好像更多哟。

但英特尔® ,早已为 CPU 在 AI 行业的应用,做好了软硬件两手准备。

一方面,针对 AI 应用的算力和数据加速,英特尔® 早从数年前就开始布局,从硬件架构上对 AI 推进了三方面的优化:
●    在 2017 年发布的第一代至强® 可扩展处理器上,导入支持 AVX-512 高级矢量扩展技术,让 CPU 单位时间内能处理更多浮点运算任务,用以加速高精度的 AI 应用;
●    在 2019 年发布的第二代至强® 可扩展处理器上,基于 AVX-512 技术扩展出了英特尔® 深度学习加速(DL Boost)技术,支持 INT8 加速,主攻推理加速;
●    2020 年发布的面向四路和八路服务器的第三代至强® 可扩展处理器时,为这项技术增添了 BF16 加速能力,从而兼顾推理和训练的加速;
●    在 2019 年推出傲腾 持久内存,兼具接近 DRAM 内存的高性能,以及 DRAM 内存所不具备的容量、价格和数据非易失优势,让基于 CPU 的 AI 系统可以将更大体量的数据缓存在距离 CPU 更近的地方,加速训练和推理。

英特尔® 傲腾™ 持久内存 200 系列

时间到了 2021 年,上述这些产品已经演进到最新的面向单路和双路系统的第三代至强® 可扩展处理器,它采用进一步优化的全新微架构,基于 10 纳米制程工艺生产,并可搭配性能进一步提升的第二代傲腾™ 持久内存。据测试,它在 AI 性能(INT8 实时推理吞吐量)上已能达到第二代至强® 可扩展处理器的 1.74 倍。

面向多路服务器的第三代至强® 可扩展处理器,推理和训练性能也分别可达到上一代产品的 1.9 倍1.93 倍

这些测试结果也是新款至强® CPU 与英特尔® AI 优化软件工具搭档的成果,与硬件的创新几乎同步,英特尔® 在软件上主要干了这些事儿:
●    推出可优化 CPU 上 AI 应用性能的基础软件工具 oneDNN
●    将 oneDNN 融入 Tensorflow 和 Pytorch 等 AI 框架,将它们改造成面向英特尔® 架构优化的 AI 框架;
●    推出可以在大数据平台上开展 AI 应用,将大数据与 AI 无缝对接的 Analytics Zoo;
●    发布集成各种英特尔® 架构优化能力,更易部署且对图像识别、语义分割、单眼深度估计等几乎所有 CV 应用提供优化的 OpenVINO™。

顺带一提,现在连 OpenCV 都支持调用 OpenVINO™ 后端了。(真香!)

如今看来,用 CPU 做 AI,确实没啥可担心的——

甚至在医疗 AI 行业,这还是个更好的选择。

大概,就连当年积极将 GPU 引入医疗 AI 行业的 Hinton,也没预料到会是这幅景象:

如今的 CPU,正在医疗 AI 领域大放异彩。
 

至强® 的 X,成就 X 种非凡

加速云数智变革,英特尔® 至强® 构建灵活高效平台。

了解更多

大数据 + AI 是怎么与 “碳中和” 扯上关系的

金风慧能基于至强® 可扩展平台和 Analytics Zoo 打通强大算力、多样算法和海量数据的良性互动,为风电与光伏提供了全新智能功率预测方案,在准确率上提升超过 20%。

了解更多

百度 “压榨” 傲腾™ 持久内存 相同成本换 6 倍性能

数据不会说谎,在百度 BigSQL 中用傲腾™ 持久内存取代 DRAM 更具成本效益。它让百度即席查询服务图灵每服务器实例 Spark/OAP 性能提高了 50%,成本仅增加 20%。

了解更多

用 CPU 做自动驾驶轮船?Kongsberg 玩转至强® AI 加速

自动驾驶汽车使用的技术和芯片尚且五花八门,Kongsberg 为自动驾驶船只提供的方案却没有使用任何 AI 推理加速硬件,如独立的 GPU 或 NPU,而是完全依赖英特尔® 的 CPU。

了解更多

英特尔® 商用频道

了解英特尔® 在人工智能、大数据、云计算、5G 等领域的前沿技术及成功案例。