大模型的创新与广泛应用是智慧医院发展的重要趋势,但医院精益化运营的现状决定着,医院迫切需要降低大模型的部署成本,以更好地释放大模型在智慧型医疗业务中的应用潜力。通过与英特尔合作,我们找到了基于 CPU 的大模型推理方案,在满足性能要求的同时更具成本优势,助力加速医院的大模型部署,为医院各个场景提供智能知识服务。”
‘大模型 + 医疗’ 为医疗健康产业的发展带来了无穷的想象空间,横亘在梦想与应用面前的障碍不仅是技术,同样也包括大模型部署的高昂成本。作为面向 AI 时代打造的新一代处理器,第五代英特尔® 至强® 可扩展处理器在具备强大的 AI 性能的同时,兼具成本与部署的灵活性,能够很好地满足医疗业务场景对于大模型的应用需求,加速智慧医院的建设。”
概述
在智慧医院建设日趋深入的今天,大模型作为一种具备重要革新性的技术,被普遍认为在医疗场景有着巨大的应用价值。由大模型赋能的医学文献分析、医疗问答、医技报告生成、人工智能 (AI) 影像辅助诊断、病理分析、慢病监测与管理、病案整理等应用有助于提升医疗服务的效率与质量,降低医疗机构在人力资源等方面的支出,为患者带来更加卓越的诊疗体验。要想推动大模型在医疗机构的应用,一个重要障碍是缺乏高性能、经济的算力平台。以模型推理为例,大模型的复杂度以及规模都远超普通的 AI 应用,以往的计算平台难以满足应用所需。
依托旗下领先的医疗领域大模型 WiNGPT,卫宁健康推出了基于第五代英特尔® 至强® 可扩展处理器的 WiNGPT 解决方案。该方案可以高效利用第五代英特尔® 至强® 可扩展处理器内置的英特尔® 高级矩阵扩展(英特尔® AMX)等加速器进行模型推理,结合双方在图优化 (Graph optimization)、仅权重量化 (Weight-Only Quantization) 等方面的合作,推理性能相较于基于英特尔® 至强® 可扩展处理器的平台提升超过 3 倍1,可满足医技报告自动生成等场景对于推理性能的要求,助力加速医疗机构的大模型应用拓展。
挑战:医疗大模型推理的算力困境
大模型在医疗等垂直领域的广泛应用,被认为是大模型走向实践落地的重要标志。医疗机构正在广泛强化在诊疗大模型、医疗服务大模型、医疗管理大模型等方面的投入,并取得了大量的进展。有研究机构预测,2023-2027 年为医疗健康 AI 大模型集中爆发的阶段,预计到 2027 年市场规模将超过 70 亿元2。
大模型是典型的算力密集型应用,模型训练、模型微调、模型推理均需要庞大的算力资源作为支撑,这会带来高昂的算力成本。其中,模型推理是大模型部署的关键环节,在构建模型推理方案时,医疗机构普遍面临以下挑战:
- 业务场景复杂,数据实时性要求高。这就要求算力平台具备较高的推理性能。同时,由于医疗数据安全性要求高,所以医疗机构通常希望在本地部署算力平台,而非依赖云端的算力。
- 硬件升级频率通常较低,而大模型升级可能会要求 GPU 跟随升级,更新的模型可能无法部署在较旧的硬件上。
- Transformer 架构的模型推理对硬件的需求相较于过去有很大提高。内存和时间复杂度都与输入序列的长度成倍增关系,这导致以往的计算资源难以充分利用,硬件方面的利用率尚未达到最佳水平。
- 从成本层面而言,部署专用的模型推理服务器会带来较高的成本支出,服务器应用也会存在局限性。在此背景下,大量医疗机构希望能够在 CPU 服务器平台上进行推理,以降低硬件支出,同时能够在不同的工作负载间进行灵活切换。
解决方案:基于第五代英特尔® 至强® 可扩展处理器的 WiNGPT 解决方案
卫宁健康医疗领域大模型 WiNGPT 是面向医疗垂直领域的大模型,基于通用大模型的技术,结合高质量医疗数据,针对医疗场景优化和定制,为医疗行业各个场景提供智能知识服务。WiNGPT 具备三个特征:
- “小而专”,是大模型上的 “小模型”:WiNGPT 根据医疗场景和高质量训练数据调教,具有出色的数据准确性,能够高效满足各种业务需要。
- 低成本交付:通过优化模型算法,基于 CPU 部署,经测目前生成效率已接近 GPU。
- 支持可定制的私有化部署:私有化部署保护医疗数据不出医疗机构,避免数据泄露的同时,提供更高的系统稳定性和可靠性。并且可以为客户定制化提供不同预算的 “套餐”,满足不同医疗机构的需求。
为加速 WiNGPT 的推理性能,卫宁健康与英特尔合作,采用了第五代英特尔® 至强® 可扩展处理器。第五代英特尔® 至强® 可扩展处理器拥有更可靠的性能,更出色的能效。它在运行各种工作负载时均可实现显著的每瓦性能增益,在 AI、数据中心、网络和科学计算的性能和总体拥有成本 (TCO) 方面亦有更出色的表现。相较上一代产品,第五代英特尔® 至强® 可扩展处理器可在相同功耗范围内提供更高的算力和更快的内存。此外,它与上一代产品的软件和平台兼容,因此部署新系统时可大大减少测试和验证工作。
第五代英特尔® 至强® 可扩展处理器内置了英特尔® AMX 加速器,以及其它 AI 优化特性,在 AI 性能上更进一步。英特尔® AMX 采用了全新的指令集与电路设计,通过提供矩阵类型的运算,显著增加了人工智能应用程序的每时钟指令数 (IPC),可为 AI 工作负载中的训练和推理带来大幅的性能提升。
- 21% 整体性能提升3
- 42% 推理性能提升4
- 16% 内存速度提升5
- 2.7 倍三级缓存提升6
- 10 倍每瓦性能提升7
除了采用第五代英特尔® 至强® 可扩展处理器之外,卫宁健康与英特尔还探索在当前的硬件平台上,化解大模型推理中,内存访问速度这一性能瓶颈:大语言模型通常被认为是内存受限 (Memory bound) 型模型,由于参数量巨大,所以需要加载动辄数十亿到数百亿的模型权重到内存中计算。在计算过程中,很多临时数据也都需要存储在内存中,并需要读取进行下一步的计算,这就导致真正影响推理过程中前向速度的不是机器的计算能力,而是内存访问速度。
双方采用了以下方式对内存访问速度等进行优化:
- 图优化:图优化指的是将多个运算符融合以减少运算符/内核调用的开销,合并成一个 operation 计算,这样可以节省不同运算符需要读入读出的内存相关消耗,从而提高性能。在这一环节中,卫宁健康使用 Intel® Extension for PyTorch 对算子进行了优化,有效提升了性能。在 Intel® Extension for PyTorch 中,英特尔通过插件 intel-extension-for-pytorch 的形式,使用 oneDNN 和 oneCCL 等加速库,在基于英特尔® 至强® 可扩展处理器和英特尔锐炬® Xe 显卡的服务器上提升 PyTorch 的性能。
- 仅权重量化:仅权重量化是针对大模型的一种在保证计算精度的前提下,将参数权重转存为 INT8,但是计算时恢复到半精度的一种优化方式,这有助于减少模型推理时的内存用量,加快计算速度。
卫宁健康和英特尔共同对 WiNGPT 的推理进行了优化,提升了内存使用效率,并通过对 PyTorch 在 CPU 平台上主要算子的算法进行改良,进一步加快了深度学习框架的推理速度。
在基于测试验证的环境中,在 LLaMA2 模型推理速度达到了 52ms 每个 token,在医技的报告自动生成场景中,单条结果输出时间小于 3 秒1。
在测试中,卫宁健康将基于第五代英特尔® 至强® 可扩展处理器的方案与基于第三代英特尔® 至强® 可扩展处理器的方案进行了对比,结果显示,新一代处理器器可将性能提升超过 3 倍1。
在 WinGPT 的使用场景中,业务对于大语言模型的延迟要求相对宽容,因此第五代英特尔® 至强® 可扩展处理器的强大性能足以满足用户的需求。同时,CPU 方案还具有可以轻松扩展推理实例数量的优势,并且可以在各种平台上适配进行推理。
收益
基于第五代英特尔® 至强® 可扩展处理器的 WiNGPT 解决方案能够为医疗机构带来如下价值:
- 优化大模型性能,提升应用体验:方案充分释放了第五代英特尔® 至强® 可扩展处理器的 AI 性能优势,结合双方的技术优化,能够满足报告自动生成等场景对于模型推理性能的要求,缩短生成时间,保障用户的应用体验。
- 控制算力平台构建成本,提升经济性:方案可以利用医疗机构部署的通用服务器进行推理,无需额外部署专用的推理服务器,有助于降低相关的采购、部署、运维、能耗等成本。
- 兼顾大模型与其他信息化应用:方案可采用 CPU 进行推理意味着,医疗机构可根据任务需求,灵活地在大模型推理与其他信息化应用之间进行 CPU 算力资源调配,提升了算力分配的敏捷性与灵活性。
展望
第五代英特尔至强 CPU 提供了出色的推理性能,尤其是和卫宁健康 WiNGPT 大语言模型结合使用时,可以让大语言模型更易于使用,并更具成本效益。双方将在大语言模型的相关工作上持续地精进,通过卫宁健康最新的人工智能技术让更多的用户受益。