故障弹性启动 (FRB) 如何在英特尔服务器主板和英特尔®服务器系统上工作

文档

产品信息和文件

000007197

2023 年 12 月 11 日


症状:

  • 什么是阻燃剂?
  • 我如何知道它是否正常工作?
  • 英特尔®服务器上的容错引导。


解决 方案:

容错启动

BMC(底板管理控制器)实施 FRB 级别 1、2 和 3。如果默认引导处理器 (BSP) 无法完成引导过程,FRB 将尝试使用备用处理器引导。

  • FRB 级别 1 用于从开机自检期间检测到的 BIST 故障中恢复。此 FRB 恢复完全由 BIOS 代码处理。
  • FRB 级别 2 用于从 POST 期间的监视器超时中恢复。FRB 级别 2 的监视程序计时器在 BMC 中实现。
  • FRB 3 用于从硬复位或上电时的监视器超时中恢复。这为此级别的 FRB 提供了硬件功能。

FRB-1

在多处理器系统中,BIOS 在多处理器 (MP) 表和 ACPI APIC 表中注册应用程序处理器。当由 BSP 启动时,如果应用处理器 (AP) 未能在一定时间内完成初始化,则假定它不起作用。如果 BIOS 检测到应用程序处理器的 BIST 出现故障或无法正常工作,它会请求 BMC 禁用该处理器。

然后,BMC 在禁用处理器的同时生成系统重置;BIOS 在下一个启动周期中看不到故障处理器。发生故障的 AP 不会列在 MP 表中,也不会列在 ACPI APIC 表中,并且对操作系统不可见。如果 BIOS 检测到 BSP 未通过 BIST,它会向 BMC 发送请求以禁用当前处理器。如果没有备用处理器可用,BMC 会发出扬声器的蜂鸣音并停止系统。如果 BMC 可以找到另一个处理器,则 BSP 所有权将通过系统重置转移至该处理器。

FRB-2

BMC 中的第二个监视器计时器 (FRB-2) 由 BIOS 设置大约 6 分钟,旨在保证系统完成 BIOS 开机自检。在禁用 FRB-3 计时器之前启用 FRB-2 计时器,以防止任何 不受保护 的时间窗口。在 POST 接近尾声时,在初始化选项 ROM 之前,BIOS 将禁用 BMC 中的 FRB-2 计时器。

如果系统包含 1 GB 以上的内存,并且用户选择测试内存的每个 DWORD,则在扩展内存测试开始之前禁用监视器计时器,因为在此配置下,内存测试可能需要 6 分钟以上。如果系统在开机自检期间挂起,BIOS 将不会禁用 BMC 中的计时器,这会生成异步系统重置 (ASR)。

FRB-3

每当系统从硬复位中出来时,第一个计时器(FRB-3)就开始倒计时,通常约为5秒。如果 BSP 成功重置并开始执行,BIOS 将通过取消断言FRB_TIMER_HLT信号 (GPIO) 来禁用 BMC 中的 FRB-3 计时器,系统继续开机自检。如果计时器因 BSP 无法获取或执行 BIOS 代码而过期,则 BMC 将重置系统并禁用故障处理器。

系统继续更改 BSP,直到 BIOS 开机自检结束在 BMC 中禁用 FRB-3 计时器。如果 BMC 无法找到合适的处理器,它会在扬声器上发出蜂鸣代码。系统重置或电源重启后,将重复所有处理器的循环过程。