大模型时代的下 OCR,“CPU 味道”更重了

文章来源:量子位

作者:金磊、杨净

概述:

  • 第四代英特尔® 至强® 可扩展处理器和内置的英特尔® AMX 加速技术,已助多家企业显著提升 OCR 推理性能和工作效率,使其拥抱企业自动化进程。

author-image

作者

经典技术 OCR(光学字符识别),在大模型时代下要“变味”了。

怎么说?

我们都知道 OCR 这个技术在日常生活中已经普及开了,像各类文件、身份证、路标等识别,可以说统统都离不开它。

而随着近几年大模型的不断发展,OCR 也迎来了它的“新生机”——凭借自身可以将文本从图片、扫描文档或其他图像形式提取出来的看家本领,成为大语言模型的一个重要入口

在这个过程中,一个关键问题便是“好用才是硬道理”

过去人们会普遍认为,像 OCR 这种涉及图像预处理、字符分割、特征提取等步骤的技术,堆 GPU 肯定是首选嘛。

不过朋友,有没有想过成本和部署的问题?还有一些场景甚至连 GPU 资源都没得可用的问题?

这时又有朋友要说了,那 CPU 也不见得很好用啊。

不不不。

现在,大模型时代之下,CPU 或许还真是 OCR 落地的一种新解法。

例如在医保 AI 业务中,在 CPU 的加持之下,医疗票据识别任务的响应延时指标,在原有基础上提升达 25 倍

为什么会有如此大的转变?

一言蔽之,因为此前做 OCR 任务的时候,CPU 的计算潜能并没有完全释放出来。

OCR,进入 CPU 时代

那么到底是谁家的 CPU,能让经典 OCR 产生这般变化。

不卖关子。

它正是来自英特尔第四代至强®️ 可扩展处理器

据了解,第四代至强®️ 可扩展处理器增加了每个时钟周期的指令,每个插槽多达 60 个核心,支持 8 通道 DDR5 内存。

在内存宽带方面实现了 50% 的性能提升,并通过每 PCIe 5.0(80 个通道)实现了 2 倍的 PCIe 带宽提升,整体可实现 60% 的代际性能提升。

但解锁如此能力的,可不仅仅是一颗 CPU 这么简单,是加成了英特尔软件层面上的优化;换言之,就是“软硬一体”后的结果。

而且这种打法也不是停留在 PPT 阶段,而是已经实际用起来的那种。

例如国内厂商用友便在自家 OCR 业务中采用了这种方案。

性能比较上,用友在第三/第四代英特尔®️ 至强®️ 可扩展处理器上进行了算法对比,推理性能提升达优化前的 3.42 倍

而在 INT8 量化后的性能更是提升到原来的 7.3 倍

值得一提的是,OCR 的响应时间直接降低到了 3 秒以内,还是切换架构不影响业务,用户无感知的那种。

除了用友之外,像亚信科技在自家 OCR-AIRPA 方案中,也是采用了英特尔的这套打法。

与用友类似的,亚信科技实现了从 FP32 到 INT8/BF16 的量化,从而在可接受的精度损失下,增加吞吐量并加速推理。

从结果上来看,相比传统人工方式,成本降到了 1/5 到 1/9 之间,而且效率还提升了 5-10 倍。

由此可见,释放了 AI 加速“洪荒之力”的 CPU,在 OCR 任务上完全不亚于传统 GPU 的方案。

那么问题来了:

英特尔是如何释放 CPU 计算潜力的?

实际应用过程中,企业通常选择自己使用 CPU 来做 OCR 处理,但由于缺乏对 CPU 硬件加速和指令集的了解,就会发现 CPU 处理性能与理想峰值相差甚远,OCR 程序也就没有得到很好的优化。

至于以往更常见的 GPU 解决方案,始终存在着成本和部署的难题。一来成本通常较高,且很多情况下,业务现场没有 GPU 资源可以使用。

但要知道 OCR 本身应用广泛、部署场景多样,比如公有云、私有云,以及边缘设备、终端设备上……而且随着大模型时代的到来,作为重要入口的 OCR,更多潜在场景将被挖掘。

于是,一种性价比高、硬件适配性强的解决方案成为行业刚需。

既然如此,英特尔又是如何解决这一痛点的呢?

简单归结:第四代至强®️ 可扩展处理器及其内置的 AI 加速器,以及 OpenVINO™ 推理框架打辅助。

当前影响 AI 应用性能的要素无非两个:算力和数据访问速度。第四代至强®️ 可扩展处理器的单颗 CPU 核数已经增长到最高 60 核。

而在数据访问速度上,各级缓存大小、内存通道数、内存访问速度等都有一定程度的优化,另外部分型号还集成了 HBM 高带宽内存技术。

此外,在 CPU 指令集上也做了优化,内置了英特尔®️ 高级矩阵扩展(英特尔®️ AMX)等硬件加速器,负责矩阵计算,加速深度学习工作负载。

这有点类似于 GPU 里的张量核心(Tensor Core)。

AMX 由两部分组成,一部分是 1kb 大小的 2D 寄存器文件,另一部分是 TMUL 模块,用来执行矩阵乘法指令。

它可同时支持 INT8 和 BF16 数据类型,且 BF16 相较于 FP32 计算性能更优。

有了 AMX 指令集加持,性能比矢量神经网络指令集 VNNI 增加达 8 倍。

除了核心硬件平台外,实际情况中帮助 OCR 在 CPU 上落地的,还有推理框架 OpenVINO™

市面上大部分 AI 框架都是同时支持训练和推理,OpenVINO™ 则是删减了很多训练部分所需的冗余计算,主要支持推理部分。

而且也是专门针对英特尔硬件打造的优化框架。框架替换也不复杂,只需 5 行代码就可以完成原有框架的替换。

用户可以针对不同业务场景,来优化 OpenVINO™ 运行参数

比如用友 OCR 业务涉及文字检测和文字识别两个 AI 模型,优化方向有所不同。

前者对单次推理要求高,后者需要整个系统吞吐量的优化,那么 OpenVINO™ 分别采用单路同步模式和多路异步模式。单一模块优化后,再针对整体流程的优化

这样一套软硬件组合拳打下来,英特尔充分释放了 CPU 计算潜力,在实际场景中也实现了与 GPU 同等性能。

不再是你以为的 CPU

以往谈到 AI 加速、AI 算力,大众经常想到的就是 GPU,又或者是专用 TPU。

至于通用架构芯片 CPU,受到计算单元和内存带宽的限制,始终无法适应于计算数据庞大的深度学习。

但现在的 CPU,已经不再是“你以为的你以为”了:

它可以深入到各个行业当中,轻松 Hold 住各种场景应用。

尤其在 AMX 加速引擎加持下,能将深度学习训练和推理性能提升高达 10 倍。

比如,媒体娱乐场景中,能帮助个性化内容推荐速度提升达 6.3 倍;零售行业里,能将视频分析速度提升高达至 2.3 倍,还有像工业缺陷检测、医疗服务也都能从容应对。

即便是在前沿探索领域,CPU 也已经成为不容忽视的存在:

像是在生命科学和医药方向,在某些场景下的表现效果甚至比 GPU 还要好。

英特尔用 CPU 速刷 AlphaFold2,结果力压 AI 专用加速芯片,去年发布的第三代至强®️ 可扩展处理器经过优化后就能使其端到端的通量足足提升到了原来的 23.11 倍。今年基于第四代至强®️ 可扩展处理器再次把性能提升到了上一代产品的 3.02 倍。

不过要实现 CPU 加速,背后也并非简单的硬件优化。

而是软硬件融合协同,从底层到应用的一整套技术创新,以及产业链上合作伙伴的支撑。

随着大模型时代的到来和深入,这种解决思路也正在成为共识。

像一些大模型玩家要实现大模型优化和迭代,并不能依靠以往单纯三驾马车来解决,而是需要从底层芯片到模型部署端到端的系统优化。

在算力加速层面的玩家,一方面摆脱不了摩尔定律的极限,另一方面要在应用场景中充分释放计算潜力,就需要与软件适配快速部署。

有意思的是,在最近 OCR 主题的《至强实战课》中,英特尔人工智能软件架构师桂晟曾这样形容英特尔的定位:

英特尔不仅仅是一个硬件公司,同时也拥有着庞大的软件团队。

在整个人工智能生态中,不论是从底层的计算库,到中间的各类组件,框架和中间件,再到上层的应用,服务和解决方案都有英特尔软件工程师的参与。

CPU 加速,不再是你以为的加速。英特尔,也不再是以往所认知中的硬件公司。

但如果你以为英特尔只有 CPU 来加速 AI,那你又单纯了。

以这些多样化、异构的芯片为基石,英特尔也将形成更全面的硬件产品布局,并配之以跨异构平台、易用的软件工具组合(oneAPI)为整个应用链上的合作伙伴及客户提供应用创新的支持,为各行各业 AI 应用的开发、部署、优化和普及提供全方位支持。