至强® 可扩展平台集成 AI 加速 助宁德时代构建 “云-边-端” 缺陷检测方案

简介:

  • “基于 AI 技术的缺陷检测方案,是我们用以提升动力电池产能和质量的重要平台。英特尔集成了 AI 加速能力的至强® 可扩展平台等一系列软硬件产品的引入,以及来自英特尔的全方位技术支持,为整个方案实现统一部署和管控,并达成快速、准确的检测处理能力做出了重要的贡献。”

  • 潘伟伟
    人工智能高级工程师
    宁德时代

author-image

作者

尽管环保理念的大行其道正驱动着清洁能源行业的高速发展,但在产能和质量控制上面临的难题,也同时形成了这一行业的发展瓶颈。作为全球领先的锂离子电池研发制造企业,宁德时代新能源科技股份有限公司 (以下简称 “宁德时代”) 正积极吸纳和利用以 AI (Artificial Intelligence, 人工智能) 为代表的前沿信息技术,对旗下动力电池的生产进行持续优化。利用 AI 技术实现电池产品的缺陷检测,以提升其生产效率和质量控制水平,就是其中的一个重要突破点。

结合全球市场的需求状况,宁德时代为全新的、基于 AI 的动力电池缺陷检测方案制订了具体的目标,包括在图像处理速度上要达到单工序 400FPS (Frames Per Second,每秒传输帧数) 以上,以及在检测精度上须达到零漏检。

更快、更好地实现上述目标,宁德时代与英特尔开展了一系列深层次技术合作,其重心就是导入集成 AI 加速能力的英特尔® 至强® 可扩展平台,其中包括可在 CPU 架构上提供出色 AI 推理能力的第二代英特尔® 至强® 可扩展处理器,以及能充分释放其 AI 算力潜能的 OpenVINO™ 工具套件和面向英特尔® 架构优化的 PyTorch 等多种配套软件工具。基于这些英特尔® 架构产品技术的助力,宁德时代成功构建了一套横跨 “云-边-端”,融合计算机视觉 (Computer Vision,CV) 、深度学习 (Deep Learning,DL) 和机器学习 (Machine Learning, ML) 技术的 AI 电池缺陷检测方案。该方案目前已通过测试验证,达到了预期的效能,并成为宁德时代向其他产线推广 AI 方法的标杆。

宁德时代全新 AI 动力电池缺陷检测方案实现的应用优势:

• 与宁德时代传统的电池缺陷检测方法相比,基于 AI 技术的新方案有更好的速度与更高的精度,达到了预先设定的目标——零漏检及单工序 400FPS 以上的图像处理速度;

• 面向英特尔® 架构优化的 PyTorch,借助内置的英特尔® MKL-DNN,提高了深度学习框架的性能,再 OpenVINO™ 工具套件搭配,可助 CPU 输出更优的推理性能;

• 新方案对计算机视觉、深度学习、机器学习技术的融合,可灵活应对不同检测场景的需求,有针对性地选用合适的模型进行训练,达到更好的训练准确率与检出率。

当今世界,绿色发展已成为推进生态文明建设的重要理念。作为这一理念的重要响应者和实践者,宁德时代旗下动力电池的销量已在全球范围内遥遥领先,并呈现出供不应求的态势。面对全球市场需求的持续增长,宁德时代也在不断调控和优化动力电池生产的各个环节,以大幅度提升产量。

当然,产量的提升,必须要以坚持产品质量为前提。动力电池的基本单元是电芯,每一个完备电芯的生产都必须经过极其严格的缺陷检测,才能保证最终产品的可靠与安全。而缺陷检测是一项高度精细,且较为耗时的工程,尤其是传统的人工缺陷检测方式,不仅速度慢,而且准确度较差,成为了制约产量提升的瓶颈。

针对这一瓶颈,宁德时代此前拿出的解决方案就是采用传统数字图像处理技术来替代人工,用于识别产品缺陷,以提升检测速率与精度。

由于这种检测模式泛化能力差,需要根据每个机台进行参数适配且与分工厂及总部脱节,缺乏整体部署管控能力,处理能力不能与持续增长的市场需求相匹配,宁德时代最终决定导入一个更适合自身业务发展需求的 AI 动力电池缺陷检测解决方案,它需要满足总部逐层管控的要求,且要具备更高效的实时缺陷检测能力,即在图像处理速度上实现单工序 400FPS 以上的目标,以及在检测精度上达到零漏检的目标。

至强® 可扩展平台集成 AI 加速,助力新方案构建

为实现新方案的快速落地,宁德时代选择与英特尔开展合作,导入其领先的软硬件产品,特别是集成 AI 加速能力的至强® 可扩展平台,来构建工业视觉平台系统,该系统正是全新 AI 缺陷检测解决方案的核心系统。

为实现总体管控的目标,该系统基于 “云-边-端” 的架构进行搭建和部署。如图二所示,这个架构中的 “云” 设立在宁德时代的总部,掌握总体管控的功能,还可根据实际生产需要,选用合适的模型进行集中训练,再将训练好的模型发布给 “边缘” 和 “端” 进行就近推理,并接收其返回的推理结果进行存储;“边缘” 设立在分工厂,主要用于重级模型的推理;“端” 则设立在工厂内每条生产线上,进行前端的数据采集、预处理以及简单的推理工作,也在 “云” 和 “边缘” 的管控下,对生产线进行实时质量管理。

工业视觉平台系统整个 “云-边-端” 的系统架构以集群形式来搭建,不仅便于统一管控,还可以通过分布式部署来减缓处理压力,但这同时也会带来分布式推理经常遭遇的衔接不畅问题。宁德时代选用了统一大数据分析及 AI 平台来应对这一难题,其包含轻量级、分布式、实时的集群服务解决方案 (Cluster Serving),提供了 pub/sub (发布/订阅) API,可透明扩展至大型集群部署并能按需扩展规模,且支持TensorFlow、PyTorch、Caffe 和 OpenVINO™ 工具套件等多种主流的深度学习框架和模型,并可将这些组件无缝地集成到整个数据分析管道中,简化分布式推理的 “拼接” 流程。

同时宁德时代选用了面向英特尔® 架构优化的 PyTorch 深度学习框架进行 AI 处理。该框架拥有原生版 PyTorch 简洁、灵活、易用的特点,内置强大的视觉工具包 torchvision,包含了目前流行的数据集、模型结构和常用的图片转换工具,可轻松应对各种图像检测场景。同时,它还集成了英特尔® MKL-DNN 及高度矢量化和线程化的构建模块,能够搭配英特尔® 架构处理器达到更优的推理性能。

虽然选用了轻巧快速的 PyTorch 框架,但由于实际场景的高实时性要求,整个方案在处理速度上依旧面临严峻的挑战。宁德时代秉持精益求精的原则,又选用了英特尔开源的 OpenVINO™ 工具套件,来进一步加速 AI 推理性能。OpenVINO™ 工具套件包含有模型优化器 (Model Optimizer) 和推理引擎 (Inference Engine) 两个核心组件,模型优化器可以将 PyTorch 框架转换为 ONNX 格式,再生成便于推理引擎接收的 IR 文件,结合其内置的 OpenCV 图像处理库优化版指令集,可充分利用英特尔® 架构处理器提供的硬件加速能力,进一步提升推理性能。

正所谓好马配好鞍,先进的 AI 软件优化技术及工具,也需要搭配一流的硬件基础设施才能发挥出最大价值,有鉴于此,宁德时代在英特尔的支持下,对镇守和支持 “云-边-端” 架构的计算平台进行了精心的挑选:在 “端” 处,宁德时代采用了英特尔® 酷睿™ i5/i7 系列处理器,借助它们整合图形处理器的优势,以及低功耗、低时延的处理性能来支撑图像预处理与简单的推理运算任务;在 “边缘” 推理模块及 “云” 中心的训练模块,则导入了集成 24 内核与 48 线程,具备 35.75MB 高速末级缓存并支持 2,933MHz 内存速度的第二代英特尔® 至强® 可扩展处理器,来为更复杂的训练和推理提供更强算力支持。与第二代英特尔® 至强® 可扩展处理器搭档的,还有英特尔® 固态盘 D3-S4610 系列,它拥有出色的容量配置以及高达 560MB/s 的读取速度及 510MB/s 的写入速度,可为总部的统一数据管理提供可靠的支撑1

如此一套完整的、横跨 “云-边-端” 的 AI 软硬件架构选型和匹配完成后,宁德时代 AI 缺陷检测解决方案的工业视觉平台系统也基本成形,其中由第二代英特尔® 至强® 可扩展处理器、OpenVINO™ 工具套件、面向英特尔® 架构优化的 PyTorch 等关键软硬件组合而成的集成 AI 加速能力的至强® 可扩展平台,更是蓄势待发。

英特尔团队全方位助力检测平台优化

如果将构建完整解决方案比喻成房屋建设,那么搭建系统架构只是完成了地基打造,在其之上,更重要的是利用 AI 技术来添砖加瓦。英特尔从这一角度出发,结合动力电池缺陷检测实际场景,帮助宁德时代在原有计算机视觉检测方案的基础上,新添了深度学习及机器学习两种技术,提出了 “CV+DL+ML” 混合模式的创新型缺陷检测方案,并在选用模型、训练方法、数据标注及模型调优等方面提供了全面助力。

熟悉 AI 技术和应用的人都了解这一原则:不同的模型适用于不同的场景,或者说不同场景都需要找到适合自己的模型进行训练和推理,才能达到更优效果。对宁德时代的全新 AI 动力电池缺陷检测方案来说,其场景即为生产过程表面缺陷检测。

面对占比 80% 以上的表面缺陷分类场景,宁德时代和英特尔共同探讨验证的方向是:以 ResNet50 为基础网络结构,引入机器学习中的分类器 (Classifier) 来进行分类检测,以求达到更优效果;同时采用只需要少量支持向量作为样本数据即可进行训练的支持向量机 (Support Vector Machine,SVM) 分类器,来解决数据不足的问题。

传统的 SVM 分类器是一种应用非常广泛的、适用于二分类的分类器,依据支持向量与分类超平面间隔最大化的原则,通过多次训练迭代,寻求最优的分类超平面,以实现数据分类。针对表面缺陷检测中的多分类 (multiple-class) 问题,SVM 也有良好的处理方式,它可以将多分类问题分解成多个二分类问题,再构造多个分类器逐个分类解决。通过 ResNet50+SVM 的方案,宁德时代有效化解了多种类异常检测问题。

除了为主要检测场景选用合适的模型,图像特征的准确标注以及模型训练的方法选用,也对模型准确度有着至关重要的影响。为此,宁德时代在英特尔的支持下,在新方案中使用了强大的标注工具——Labelme 来对数据集中的图像进行标注,并将标注后的特征类别及位置信息传输到神经网络中进行训练。Labelme 工具不仅可以标注各种形状,还可以支持图像分类、目标检测、场景分割、实例分割、视频标注等功能,全面覆盖了动力电池缺陷检测的范围。更重要的是,该工具支持像素级的细粒度标注,对标注效率与准确度的提升大有裨益。

模型训练的准确度除了与数据标注有关外,更大程度上受数据集量级的影响。数据集越大,训练越全面,最终的结果就越精确。但实际生产中很难收集到巨量的数据集,而且采用大数据集从头训练需要耗费大量时间及资源。但反过来,如果数据集量级太低,训练结果也容易出现模型过度依赖训练数据而引发的过拟合 (Overfitting) 现象,难以投入实际应用。

针对这一矛盾,宁德时代和英特尔选择了迁移学习训练 (Transfer Learning for Training) 方法,如表一所示,根据已有的预训练源模型进行模型微调 (fine-tuning),将源模型的初始参数重新配置,直接从最后一层或最后几层开始重新训练,依据少量数据集作为样本,并在训练集中加入曾经预测错误的图片,来提升模型在新样本中对于该种类别的训练准确度,最终通过反复调整,得出的模型在精度上甚至可以与那些采用大数据集从头开始训练的模型相媲美,但比之更为节省时间以及资源,大大提高了训练效率。

展望

通过导入集成 AI 加速能力的英特尔® 至强® 可扩展平台,并与英特尔开展紧密合作对检测平台进行持续优化,宁德时代的全新 AI 动力电池缺陷检测方案已能达到非常出色的应用效果,并已在宁德时代落地应用。接下来,宁德时代还将与英特尔进一步合作,在动力电池制造及销售的各个环节中继续引入更多 AI 技术,致力于继续提升产能,严保产品质量和提升企业运行效率。