基于认知技术的发票处理

从大量文档中挖掘价值

  • Wipro 在英特尔® 至强® 处理器、英特尔® 分发版 OpenVINO™ 工具包等融合人工智能要素的产品与技术支持下,通过性能优化,打造人工智能驱动的、具备认知能力的 Wipro HOLMES® 发票处理解决方案,解决企业在文档管理方面的痛点问题。

author-image

签署人:

简介

即便是在数字化时代,文档管理问题也仍是企业的一大痛点。想想这一点,有 46% 的办公人员每天要把时间浪费在各种纸质工作流程上,这着实令人震惊。此外,数字化文档的数量也在急剧攀升,各种格式的申请表或索赔表、支票、护照、账单及许多其它文档层出不穷。在处理上述这些项目,尤其是半结构化和非结构化文档,以便快速、精准地从文档数据中获取洞察时,不仅容易出错,而且效率低下。然而,企业领导者却往往忽视了转变文档处理方式所带来的价值。所幸,随着人工智能 (AI) 渗透到业务的各个方面,创新型企业和机构逐渐意识到人工智能驱动的智能文档处理 (IDP) 所具备的潜力。

智能文档处理正作为一类可帮助企业从推动业务发展的文档中提取数据的解决方案迅速兴起。此类文档包括保险索赔、抵押贷款申请、合同、采购订单、发票、工程图纸等。

本文探讨了推动企业采用 IDP 的主要因素,并介绍了由英特尔® 至强® 可扩展处理器提供支持、用于实现发票处理认知能力的 Wipro HOLMES® 发票处理解决方案。

从应对挑战到把握机遇:向高处进发

尽管在过去十年中,许多有着杰出表现的企业和机构一直在大力投资机器人流程自动化 (RPA),但他们已达到饱和点,耗尽了此类基于任务的简单自动化所带来的低价值机会。例如,传统的 RPA 机器人无法按照类型和性质对文档进行分类,也无法处理质量不佳的扫描文档。大多数 OCR 引擎无法准确识别扫描文档中的数据,因此要达到至少 80%-90% 的自动化水平绝非易事。传统 RPA 解决方案不仅严重依赖特定领域的专家,而且缺乏安全的访问权限管理能力。将人工智能、机器学习 (ML)、计算机视觉等 IDP 技术与 RPA 集成,可帮助企业实现文档驱动用例的自动化。这促使人们重新构想端到端业务流程,而不是陷入基于任务的自动化的无休止循环。IDP 有望将文档处理提升到一个新的高度,使其成为推动企业成功的一项战略因素。预计到 2024 年,IDP 市场将增至 38.55 亿美元,复合年增长率高达 54.5%。

IDP 解决方案可帮助专家每天处理更多的文档,从而提高生产效率,缩短周转时间,同时通过自动化提高报告质量。

自主学习 IDP 算法不仅能够定义、提取和验证相关数据,而且随着时间推移,即使在处理复杂的半结构化和非结构化文档时,也能提高准确性,减少错误。除了典型的财务文档,IDP 解决方案还可以扩展到对 ID 卡、报告(非结构化和半结构化)、表单和账单处理、研究论文、工程图纸等执行“了解客户” (KYC) 审核。

利用 Wipro HOLMES® 推动实现智能自动化

Wipro HOLMES® 是 Wipro 的人工智能和超自动化平台,能够将企业资产、数据、分析和流程连接起来,从而推动企业实现自动化,并成功应对人工智能解决方案在构建、部署和使用上面临的挑战。该平台由机器学习提供支持,通过 Wipro HOLMES® 专家多年积累的经验得以加强。其在生态系统合作伙伴市场提供不依赖供应商的咨询服务和预构建的解决方案资产。该平台可以发现切实存在的业务问题、确定成功标准、评估技术合适与否、推动顺利实施和采用、进行风险和变更管理以及治理,帮助客户掌控其数字化之旅。

HOLMES 解决方案已成功部署到各行业垂直领域和相关职能部门,助力提高效率、经济性和体验 (3E)。图 1 所示为 Wipro HOLMES® Automation Studio (HAS) 的工作机制。

图 1:Wipro HOLMES® Automation Studio (HAS)

Wipro HOLMES® 基于人工智能的发票处理方案简介

Wipro HOLMES® 智能发票处理解决方案是一款人工智能应用,利用先进的机器学习和深度学习 (DL) 算法进行图像处理、表格检测和所需的值提取。这在发票数量增加,致使手动进行数据录入、数据验证和审批的流程成本颇高时作用明显。在这类情况下,基于规则的发票处理方法虽有帮助,但计算量增加,并且需要不断调整提取规则才能满足新发票类型的需求。因此,自动化的智能发票处理系统是更具扩展性的方案,可帮助企业采用标准化的发票处理方法,而无需针对不同的发票类型进行定制。

图 2 展示了 Wipro 基于人工智能的发票处理解决方案的关键步骤。

图 2:Wipro 基于人工智能的发票处理解决方案的工作机制

该发票处理解决方案为需要处理大量文档的现代企业提供了诸多优势,包括:

  • 无缝处理多种语言的多页发票和文档。
  • 不同于大多数其它解决方案中基于规则的提取方法,发票实体提取与位置无关。
  • 能够处理各种质量的图像,包括噪点多、含断裂字符、模糊、旋转后的图像,并支持多种图像格式。
  • 基于多核 CPU,能够优化训练时间并加快推理执行速度。

Wipro HOLMES® 表格检测和实体提取

Wipro HOLMES® 自行设计和开发了专有的 OCR、表格检测和实体提取技术,能够高度准确地提取数据。该解决方案采用先进的深度学习技术,并经过定制,可确保最大限度地提高提取发票数据的准确性。表格检测基于扫描的年度报告文档进行了训练,以尽可能确保准确性。借助对表格检测和实体提取结果的认知验证,模型会不断进行更新和定制。这种 OCR、表格检测和实体提取具有更高的准确性,提高了实体提取模块的提取速度,从而减少了文档数字化的总用时。

克服人工智能的预期风险:Wipro 以人为本的理念如何在其中发挥作用

虽然人工智能驱动的智能文档处理有着诸多优势,但缺乏人工干预和控制会带来一定的风险。这种风险是所有采用人工智能和自动化的企业最关注的问题之一。任何正在采用自动化的业务流程,都需要从人工智能模型所做决策的重要性和影响的角度加以考虑。因此,在实施人工智能和自动化解决方案期间,确定人工参与程度至关重要。

Wipro HOLMES® 遵循以人为本的理念,可帮助消除此类风险。它根据人工智能模型决策过程中所需的人工参与和控制水平进行定义。这包括在人工智能模型做决策前的数据预处理,决策过程中考虑的特征,以及决策的后续影响。人们需要对决策的正确性、一致性、可靠性等进行验证。以人为本理念的关键指标包括人机交互类型、对模型的控制和例外情况。

人机交互类型定义为处理人工智能模型输出所需的人机交互类型,可分为以下几类:

  1. 人在回路内:人始终作为人工智能模型的一部分,快速确定可能不容易通过其它仿真方法确定的问题和要求。
  2. 人在回路外:人工智能系统能够在没有任何人工输入或人机交互的情况下选择目标并输出结果。
  3. 人在回路上:当模型的置信度分数或类似指标低于阈值时,人就会参与进来。对于此类型,人只协助对人工智能系统所做的决策进行正确性检查。

以人为本的维度基于人工智能模型的可解释性、透明度和可诠释性水平及其决策能力。这有助于在必要时检查在多大程度上需要人来参与验证和控制人工智能模型所用的决策。

成功有目共睹

挑战

客户使用手动文档处理系统会造成时间上的浪费、各种错误和对领域专家的依赖。

Wipro 自动发票处理解决方案实现的优势

  • 实现 80% 的零接触一条龙处理
  • 支持 20% 的“人在回路内” 实例
  • 将作业时间缩减到不足 1 分钟

利用英特尔® 人工智能技术加快发票处理速度

目前,英特尔® 技术为商业、社会和研究领域中一些颇具前景的人工智能用例提供支持,从医学发现到无人驾驶车辆智能,从微型设备到大规模云计算,将具有变革意义的人工智能模型的潜力在全球范围内变为现实。不过,英特尔® 技术的显著优势在于利用基于英特尔® 至强® 可扩展处理器的平台帮助实现人工智能的普及,从而带来极大的投资回报率或总体拥有成本优势,尤其是在像 RPA 这种如今可用于训练模型的数据集还在不断增加的场景中。

英特尔与 Wipro HOLMES® 团队合作,在基于英特尔® 至强® 铂金 8124M 处理器的平台 (3.00 GHz) 上优化了HOLMES 表格检测和提取框架以及用于提取发票实体的 Wipro HOLMES® 文本深度提取框架 (DEFT) 管道。该解决方案通过面向英特尔® 架构优化的 TensorFlow 做了进一步优化,其中包括面向深度神经网络的英特尔® 数学核心函数库(英特尔® MKL-DNN)。

OpenVINO™ 工具包基于全卷积神经网络 (FCNN),提高了用于表格数据推理任务的网络性能:

对表格检测和提取管道的评估是在平均每份文档有100 页的内部数据集上进行的。这些管道在基于英特尔® 至强® 可扩展处理器的 AWS 实例 (c5.9xlarge) 上,使用默认的 TensorFlow、面向英特尔® 架构优化的 TensorFlow 和英特尔® 分发版 OpenVINO™ 工具包 v2018.5.455 进行评估。

在企业方面,为深度学习模型运行时环境构建架构认知,可使性能得到很大的提升。当然,较为简单的方法是利用面向英特尔® 架构优化的框架和库。建立对非一致性内存访问 (NUMA)、多线程、软件线程与内核的关联等的认知,是同时面向训练和推理的下一个易于建立的认知层次。我们还使用了 Uber 通过 MPI ( 针对 x86 优化的任何版本)为 RPC 开发的名为 Horovod 的分布式训练框架,在强大的 CPU 内核上有效扩展我们的深度学习模型训练。这有助于充分利用该平台的性能优势。此外,还在投资回报率和总体拥有成本优势之外带来生产计算的高 CPU 利用率。同样的方法也可以扩展到多节点训练。

转变文档处理方式

英特尔通过优化框架、开发软件库和工具包、使用面向英特尔® 架构优化的 TensorFlow 和英特尔® 分发版 OpenVINO™ 工具包,使得深度学习训练和推理的性能在基于英特尔® 技术的平台上得到了显著提升。Wipro 与英特尔合作,已成功在本地系统中运行其基于人工智能框架的 Wipro HOLMES® 发票提取管道。Wipro 在 Wipro HOLMES® 文档处理系统的认知自动化方面取得了技术上的突破和重大成果。我们能够推出解决方案,为多家客户提供服务正得益于此。当前,我们双方正携手突破界限,引领企业和机构实现文档管理方式的变革。

 

关于作者

Raghavendra Hosabettu 在机器学习和人工智能、计算机视觉、移动性和嵌入式系统领域拥有丰富的工作经验。他曾构思、设计和实施过多项跨行业垂直领域的创新型人工智能解决方案。目前,Raghavendra 是 Wipro HOLMES® 平台的首席平台架构师和 Wipro DMTS 的高级成员,并且担任 Wipro HOLMES® 认知图像处理和 Wipro HOLMES® 文本深度提取框架产品负责人一职。如需了解更多信息,可通过以下邮箱联系 Raghavendra:raghavendra.hosabettu@wipro.com

 

参考资料

i Adobe,“The State of AI in Document Management”( 文档管理的人工智能应用现状), https://adobe.ly/39K76Ea

ii Re s e a rc h a n d Ma r ke t s,“Glo b a l D o c ume nt Analysis Market Report 2019-2024 – Increasing Adoption of Cl oud-based In telligent Document Processing Solutions Drive Market Growth”(2019-2024 年全球文档分析市场报告 - 基于云的智能文档处理解决方案日益普及,推动市场增长),https://bit.ly/2L4gZCz

 

IND/TBS/MAY-DEC 2020

所有产品名称、标识和品牌均为其各自所有者的资产。

本文所用的所有公司、产品和服务的名称仅供识别之用。