人工智能在英特尔半导体制造环境中的重要价值

  • 本文介绍了英特尔如何将 AI 应用到其半导体制造中。介绍了要想在制造业中成功实施 AI 项目要对用例进行优先级确定以及采取全面的方法,并通过缺陷检测、根本原因分析以及探针卡检测三个大规模 AI 解决方案举例说明了英特尔是如何将 AI 应用到生产环境来提高良品率、优化成本和提高生产力。

author-image

作者

凭借二十多年开发人工智能 (AI) 并将其应用于特定用例的经验,英特尔已建立了最佳实践,能够大规模利用 AI 创造商业价值

执行概要

作为全球领先的芯片制造商之一,英特尔在持续提高制造效率的同时,也一直在不断努力提升产品质量。人工智能 (AI) 作为一种强大的工具,可以将大量制造数据转化为能改进制造流程的洞察。为了实现该目标,英特尔专注于开发蕴含巨大商业价值、具备实际可行性,并能迅速实现价值的应用,不断完善 AI 在制造中的应用方式。每个解决方案针对一个特定、明确的问题,且有可衡量的指标来判定该方案是否成功。在过去的二十年里,我们大规模部署了广泛的面向制造的 AI 解决方案,涉及数千个 AI 模型。每个成功的 AI 解决方案都会在生产英特尔各类产品的各大工厂中推广。

英特尔的使命之一,就是通过深入投资开放式 AI 平台,将 AI 技术应用于更多用例、更多场所和更多业务。从生产线上的缺陷检测,到最终的良率分析,以及两者之间涉及的多个分析步骤,英特尔的大规模制造 AI 解决方案创造了数百万美元的商业价值,加速了制造流程,助推良率和生产力进一步提升。

引言

半导体制造过程复杂,涉及几十个掩膜层,数百个工艺步骤,数千台设备,每台设备都配备几十到几百个独立传感器,每片晶圆又涉及几十到几千个集成电路 (IC)。每片晶圆包含几十亿个晶体管和导线,需要经过几百项电气和物理测量,并且多个晶圆厂的周产量可达好几万。

这种复杂性导致采用先进制造技术的半导体制造过程会产生数百 PB 的数据。一直以来,半导体公司都是产生和分析数据的主要企业。在 AI 正处于发展上升期的当下,我们所面临的问题显而易见:AI 能否用于半导体制造,帮助我们从收集到的数据中获取洞察?

在近二十年的时间里,英特尔一直在开发和使用基于 AI 的方法,包括机器学习、深度学习、计算机视觉和图像处理、先进的多变量统计、运筹学等,应用领域涵盖集成电路技术开发 (TD) 和大批量制造 (HVM) 的方方面面。技术开发的复杂性和大批量制造的庞大规模迫使我们需要在可行的情况下,在用例中逐步用基于学习的系统(即 AI)取代过去基于规则的系统。这一过程仍在继续。

AI 应用于半导体制造:解决 n-i, n 问题

半导体制造包括制程、测量、出货、核算等多个步骤。在实现收益之前,硅晶圆或芯片要经过 n 个步骤,而每一步都会产生数据。

半导体制造中的 AI 解决方案必须具备以下的至少一项能力:

  1. 在第 n 步检测出问题。
  2. 如果在第 n 步检测出问题,则利用前面 n-i 步收集的数据迅速找到根本原因,其中 0 < i ≥ n。
  3. 利用前面 n-i 步的数据预测第 n 步的结果,其中 0 < i ≥ n,并设计控制方法优化第 n 步的结果。

在英特尔的半导体制造环境中大规模部署 AI

英特尔工厂生产中部署的部分 AI 应用包括以下功能(见图 1):

  • 生产线上的缺陷检测
  • 工具/设备群/晶圆厂匹配
  • 多变量流程控制
  • 自动化晶圆图模式检测和分类1
  • 快速的根本原因分析 (RCA)
  • 在筛选测试中检测异常值,以减少测试时间并提高下游出货产品的质量

此外,我们也会根据用例的具体情况,采用高级统计、机器学习、优化和各种形式的计算机视觉等多种 AI 技术。

一旦我们为特定用例开发了 AI 解决方案,并验证了其商业价值,我们就会将其推广到英特尔工厂的各大生产线,从而优化投资回报并提高工厂间的一致性。

图 1. AI 在英特尔工厂的落地涉及多种应用

图 1 所示的每个应用都符合上述 n-i, n 问题陈述。以下是部分示例:

  • 根本原因分析 (RCA)前 n-i 步产生的数据可用于查找在第 n 步观察到异常的根本原因。
  • 面向先进过程控制 (APC) 的机器学习:前 n-i 步产生的数据可用于控制第 n 步的过程。
  • 减少预测性芯片测试 (Die Kill) 和测试时间:利用前 n-i 步产生的数据建立机器学习模型,以预测下游第 n 步的故障。
  • 自动缺陷分类 (ADC)构建应用来检测异常,并量化特定第 n 步的非系统性缺陷基线。

确定 AI 用例的优先级,优化商业价值

定义一个用于确定 AI 用例部署优先级的框架对成功至关重要,因为制造业务每天都会产生大量数据。同样重要的是,从工程师到管理层,他们对 AI 的兴趣日益浓厚,再加上自学课程越来越普遍,创建试点性 AI 解决方案变得相对容易。优先级的确定过程虽然简单但不容忽视,它包含三个主要部分:挖掘巨大的商业价值、探索可行性和确定实现价值时间(见图 2)。具体来说,企业和机构可以通过解答以下问题来评估有无必要利用 AI 实现现有业务流程和工作流程的自动化:

  • AI 是否能带来成本、生产力或良率方面的优势?
  • 目标应用有无容错率?即,偶尔的误报是否可以接受?
  • 解决方案能否真正实现大规模自动化?也就是说,方案能否整合到现有的制造自动化系统中,且整合的方式能确保 AI 模型通过较少的人工干预就能完成构建,并实现监控和更新?
  • 解决方案能否及时产生预期的业务效果?

图 2. AI 项目的优先级矩阵

树立明确目标,探索 AI 方案构建

互联网上有大量文章显示,AI 和大数据项目在各行各业都有着较高的失败率。即使企业进行了巨额投资,但 AI 项目的失败率仍高达 60% 到 85%2,其主要原因之一就是,有的 AI 项目在创建时就没有设定明确的用例。我们认为,AI 不应该成为寻找问题的解决方案。

图 3. 高级分析解决方案构建模块

互联网资料显示,即使企业进行了巨额投资,但 AI 项目的失败率仍高达 60% 到 85%。我们认为,AI 项目失败的主要原因之一就是,大多数 AI 项目在创建时就没有设定明确的用例。

除了选定特定的用例,AI 项目要获得成功的另一要素是要采取全面的方法,需涵盖四个基本模块:了解问题、解决方案部署、建模和数据管理。忽略其中任何一个模块都会使整个项目面临风险:

1.    “了解问题模块虽然只占图 3 饼图的 10%,但对于解决问题而言十分重要,因为没有什么能替代特定领域的专业知识。AI 的实施不能脱离最终将要采用该解决方案的业务职能。我们首先需要将各领域的专家,即制程工程师、设备工程师和良率工程师等,组成一个工作组,先行了解问题和相关的业务价值,然后生成概念验证 (PoC)。概念验证需由领域专家彻底验证后,经过迭代完善才能进入下一步。
 

2.    解决方案部署 (DevOps) 也占图 3 高级分析饼图的 10%。DevOps 是一种在整个组织中普及复杂算法的方法。即使在概念验证阶段,我们就已经在规划部署大批量制造,包括将解决方案整合到工厂自动化系统中,以确保解决方案落地。
 

3.    建模占图 3 高级分析饼图的 30%。对于建模,我们遵循两条规则:

  •  
  • 从稳健的线性模型或单一决策树等简单、可解释的技术开始,然后再使用集成学习或密集的神经网络等更为复杂的 AI 方法。
     
  • 使用为我们的数据域定制的出色 AI 引擎(算法)。具体来说,我们在性能卓越的引擎上进行了大量投资,这些引擎可以处理半导体数据的独特特征,即高度不平衡的数据、缺失的数据、分类数据,以及经常出现的“脏”数据。我们不断将我们定制的 AI 引擎的性能和准确性与全球数百万数据科学家使用的开源引擎进行比较3。基于具体的用例,我们可能会使用我们定制的 AI 引擎,或开源引擎,或结合使用两者。

4.     数据管理是图 3 高级分析饼图中占比最大的一个模块,约占 50%。但数据管理往往又是高级分析中非常枯燥的一个方面。数据有着各种各样的形式,有结构化和非结构化数据、视频文件、文本、图像等等……且它们存储在不同位置,对安全和隐私有着不同要求。我们面临的数据挑战与其他公司类似,但通过多个数据项目

英特尔用于提高生产质量和效率的三个大规模 AI 解决方案

英特尔正在生产数以千计的 AI 模型。我们使用图 2 所示的项目优先级框架来开发和部署图 1 所示的各个 AI 解决方案。我们将以英特尔工厂中采用的三个 AI 解决方案为例,阐明优先级框架如何促成我们的项目成功。

采用计算机视觉和机器学习的自动缺陷分类

采用计算机视觉和机器学习的自动缺陷分类解决方案是我们早在十多年前就在大批量制造中部署的首批 AI 解决方案之一4。生产线上的缺陷计量有助于在纳米级的芯片布局设计中检测偏差,以免偏差转变成严重的良率和质量问题。自动缺陷分类有利于从源头查明问题。

如图 4 所示,人员接受人工缺陷分类的培训并实现 90% 的准确率,可能需要 6 到 9 个月的时间。即使在培训完成后,专业的操作员通常也只能保持 70-85% 的准确率。其中的原因非常复杂,包括:

  • 这项工作的重复性很高。
  • 制程的改变可能导致出现新的缺陷类型,因此需要进一步培训。
  • 对集成电路的缺陷进行分类本身就很困难。一些缺陷需要对设计布局进行交叉引证才能准确判断,而有的缺陷则根本无法用肉眼识别或通过人脑判断。

图 4. 缺陷检测——准确率与时间

清楚理解问题之后,我们与制程、良率、缺陷计量和设备工程师组成的跨职能团队合作,共同部署基于机器学习(包括深度神经网络)的自动缺陷分类解决方案。该解决方案已部署到英特尔制造流程中技术开发和大批量制造的每个技术节点,包括英特尔® 至强® 可扩展处理器和英特尔® 傲腾™ 技术。部署本身也需要付出巨大的努力和投资,才能将 AI 算法集成到工厂自动化系统中。集成包括几个层面:

  • 缺陷检测系统的输入端。
  • 用户端,使缺陷工程师和技术人员能够标记图像并配置相应的目标布局信息。
  • 工厂运营端,用于自动生成统计过程控制 (SPC) 警报,并暂停工厂生产。

自动缺陷分类使我们能以所需的准确率对英特尔工厂所产晶圆的大部分缺陷进行检测和分类。与其他解决方案相比,我们的总体拥有成本没有任何增加。我们还能在晶圆制造流程之后使用现有的成像设备,借助计算机视觉和机器学习技术来实施自动缺陷分类,从而及早避免错误,并在不增加成本的情况下提高良率

AI 应用到英特尔创新产品的制造流程之中

英特尔® 至强® 可扩展处理器和英特尔® 傲腾™ 技术是英特尔的两款旗舰产品。英特尔® 至强® 可扩展处理器已针对多种工作负载类型和性能级别进行了优化,提供内置的 AI 加速和先进的安全功能。英特尔® 傲腾™ 技术,包括英特尔® 傲腾™ 持久内存 (PMem) 和英特尔® 傲腾™ 固态盘,正在通过弥合差距、减少瓶颈和缩短数据时延来改变数据中心的内存和存储层次结构。

由于我们在各大英特尔工厂大规模部署了我们的 AI 解决方案,因此这些产品以及英特尔制造的其他芯片产品都可以获得 AI 解决方案带来生产力和质量提升。

根本原因分析 

大规模机器学习和高级分析的另一个很好的例子是根本原因分析解决方案。我们已经将该解决方案推广到英特尔工厂的所有技术节点。在半导体制造中,能够快速找到良率和质量问题的根本原因对于盈利能力和客户满意度都至关重要。

问题是,对于英特尔这样的制造规模,找出良率问题的根本原因通常需要挖掘数十亿个参数,涉及电子测试、统计过程控制、工具、运维、缺陷、排队时间 (QTimes)、制程时间、晶圆槽顺序、设备日志和多种其他数据类型。这无异于大海捞针。一位拥有丰富领域知识和多年经验,且精通分析的工程师也许能在几小时或几天内巧妙地对所有可用数据进行挖掘;但即使是两名工程师之间也很难共享这些知识,更不用说在英特尔所有工厂之间实现共享了。

为了普及根本原因分析,我们开发了可解释机器学习引擎,包括增强的决策树、创新的委员会方法 (committee method)、特征选择和规则归纳技术等,可以处理大量嘈杂、异构和非随机丢失 (MNAR) 的制造数据。这些引擎为根本原因分析之类的任务提供了解决方案,但首先需要设法将数据转换为可分析的形式。我们运用半导体领域的专业知识创建了一个定制的大数据存储基础设施,为根本原因分析提供快速的多维数据访问通道。如今,工程师在几分钟内就能找到潜在的根本原因,而此前则要花费几个小时甚至几天。通过在可立即投入使用的高速数据基础设施之上无缝集成机器学习分析解决方案,我们大大减少了查找、提取、清理和关联数据的重复性工作。

筛选测试中的探针卡检测

英特尔工厂采用的另一个实用的 AI 解决方案部署在筛选测试期间(见图 5)。筛选测试是晶圆制造的最后一步,旨在测试晶圆上的各个芯片以确定良率(合格芯片的数量)。技术人员使用一种叫做“探针卡”的硬件将测试模式应用于晶圆上的芯片。在这一过程中,测试引脚将与探针卡发生物理接触。

这种物理接触方式存在一个问题,即探针卡容易磨损,导致测试结果不准。过去,技术人员会定期使用显微镜手动检查探针卡。这项工作费力又费时,并且存在重大人体工程学风险。此外,此方法还存在前文自动缺陷分类一节提到的其他限制。

图 5. 探针卡缺陷——从人工到 AI 检测

我们采用多阶段方法为探针卡建立了一套全自动检测系统。在每个阶段,我们都构建了中间应用来减少技术人员工作量。该解决方案目前整体结合了这些应用。例如,当探针卡在测试设备上时,有一个应用会自动收集图像数据。审查工具仅标记探针卡的异常区域。另一个应用让技术人员能够轻松标记数据,这反过来又能帮助我们创建标记过的数据集用于训练深度学习 AI 系统。在技术人员帮助我们实现全自动化目标的同时,我们从最小可行产品开始逐步增加功能,开发出了一套对技术人员十分受用的解决方案。该系统现已实现完全自动化并部署到多个工厂,大幅提高了生产力:一项过去每个工厂每周需耗费 46 小时完成的任务,如今已压缩至不足 60 秒。

结论

AI 有望为半导体制造带来变革。近二十年来,我们一直在英特尔工厂中使用各种 AI 解决方案。我们已经切身体会到了 AI 在提高良率、优化成本和提高生产力方面的价值。本文所述的解决方案举例说明了,什么时候需要用机器来执行人类费力才能完成的重复性任务。在这些示例中,AI 技术提供了更精确的结果,尤其是与经验不足的工程师相比。

然而,AI 并不是魔法。在不同情况下,在清晰地理解问题之后,AI 算法都必须由机器学习专家从头开始进行选择、采用或开发。解决方案的概念验证必须得到用户的广泛验证,算法经过优化后必须通过 DevOps 集成到工厂自动化系统中。此外,在我们产生数百 PB 海量数据的情况下,将 AI 应用于那些蕴含巨大商业价值、具备实际可行性并能快速实现价值的用例是一项至关重要的能力。一旦确定了用例的优先级,就要对计算资源和 DevOps 进行适当投资,并将算法集成到现有的工作流程和自动化系统中。这些投资也有利于释放领域专家的精力。

许多相关趋势也正在促进 AI 在英特尔工厂的持续应用:

  • 存储和计算变得越来越经济。
  • 丰富的 AI 课程和活跃的开源社区培养了越来越多的人才。
  • AI 已经在逐渐取得成功,且仍将保持发展势头。

我们预计,目前 AI 的发展上升期至少会持续到下一个十年。在整个半导体制造领域,我们可以看到,原始设备制造商 (OEM)、电子设计自动化 (EDA) 供应商、数据基础设施提供商以及我们的友商对于 AI 的认知也在不断提高。正如工业革命需要一段时间才能发展成熟一样,“AI 无处不在”的愿景也需要时间才能成为现实。我们确信,AI 的发展速度会比工业革命快得多,但仍需一些企业层面的文化变革来补充技术解决方案,使“AI 无处不在”变成现实。

英特尔制造正在实施能创造商业价值的 AI 解决方案。在自动化系统、数据基础设施,以及更重要的组织文化层面,我们正在不断地进行现代化改造。因为我们深知,人类和机器协同工作会带来巨大优势。

深入阅读

以下资源可能对您有所帮助:

找到适合您的企业或机构的解决方案,请访问英特尔全球化制造或联系您的英特尔代表。

笔者在此感谢多位英特尔优秀员工所作的贡献,他们来自技术开发、制造、供应链与运营和 IT 等各部门,为本文论及的 AI 解决方案的开发和部署提供了大力支持。此外,特别要感谢以下用户,他们涵盖工程师、技术人员、操作人员和管理人员。因为他们的积极参与,上述解决方案才得以成为现实。

 

产品和性能信息

1Spatial Patterns in Sort Wafer Maps and Identifying Fab Tool Commonalities”(筛选晶圆图的空间模式和识别晶圆厂工具共性),Eric R. St. Pierre;Eugene Tuv;Alexander Borisov,2008 年 IEEE/SEMI 会议与先进半导体制造研讨会记录。
2“85% of big data projects fail, but your developers can help yours succeed”(大数据项目失败率高达 85%,但您的开发人员可以助您成功),Matt Asay,TechRepublic,2017 年 11 月 10 日。
3Isabelle Guyon 等。“Analysis of the AutoML Challenge Series 2015-2018”(自动化机器学习挑战分析 2015-2018 系列),自动化机器学习。机器学习挑战 Springer 系列,(2019):第 177-219 页。
4Faster, More Accurate Defect Classification Using Machine Vision”(利用机器视觉实现更快、更准确的缺陷分类),Eugene Tuv 等,IT@Intel 白皮书,2018 年 11 月。