英特尔®服务器主板可纠正/不可纠正 ECC 内存错误的基本诊断程序

文档

故障排除

000024007

2023 年 12 月 21 日

注意 如需本文中所述的故障排除支持,请参阅您的服务器平台的技术 产品规范

我看到的是什么?

内存模块的可纠正和/或不可纠正纠错码 (ECC) 事件。例如:

毫米级 ECC 传感器 SMI 处理器警告 内存 CPU:1,DIMM:D0 DIMM 等级:1。 - 可纠正的 ECC / 其它可纠正的内存错误 - 已断言。

什么是内存纠错码 (ECC) 可纠错事件?

ECC 可纠正错误表示给定时间范围内给定双列直插式内存模块 (DIMM) 的阈值溢出。


如何解决:

内存数据错误记录为可纠正或不可纠正。根据遇到的错误类型 ,请参阅 以下说明:

error types

笔记
  • 如果没有灾难性问题(紫屏死机 (PSOD) 或意外重启),并且每个 DIMM 位置的可纠正 ECC 错误(包括自适应双设备数据校正 (ADDDC) 错误)每 24 小时少于 10 个事件(在阈值限制内),则建议 监视 服务器在每个触发事件的 DIMM 位置是否重复出现 ECC 错误。
  • 如果存在灾难性问题(紫屏死机 (PSOD) 或意外重启),并且每个 DIMM 位置每 24 小时出现可纠正的 ECC 错误(包括自适应双设备数据校正 (ADDDC) 错误)少于 10 次事件,建议按照以下步骤 重新安装每个 DIMM 位置:
    1. 关闭 系统并 拔掉 交流电源线。
    2. 确定 要重新拔插的 DIMM 位置。请参阅服务器平台的技术 产品规格 以识别 DIMM 的位置。
    3. 重新拔 插已识别的 DIMM。
    4. 插入 交流电源线,然后 重新打开 系统电源。
    5. 观察 24 小时是否有 ECC 错误再次出现。
    6. 如果 ECC 错误仍然存在于重新拔插的同一 DIM 位置,则生成 SEL 和调试日志并将其发送到 BMC Web 控制台英特尔 Customer Support
  • 从面向英特尔®服务器系统 S2600BP、S2600WF 和 S2600ST的 BIOS 版本 02.01.0014 开始,在 BIOS 和固件堆栈中引入了高级内存测试 (AMT) 功能;并从适用于英特尔® 服务器系统 S9200WK的 BIOS 版本 22.01.0097 开始。对于这些产品,建议通过 BIOS 设置实用程序启用高级内存测试 (AMT) 和补丁后修复 (PPR) 功能,以执行内存健康状况的全面检查。有关详细信息,请参阅《 基于英特尔® 62X 芯片组的英特尔服务器产品的内存®更换指南和高级内存测试 – 白皮书》 第 5 章。

笔记

纠错码 (ECC) 错误是自我纠错的。根据内存的可靠性可用性可维护性 (RAS) 配置,集成内存控制器 (IMC) 可能会使受影响的 DIMM 脱机。

对于不同的英特尔服务器平台,其事件定义存在一些差异,请参阅适用于您的服务器平台的 系统事件日志故障排除指南

英特尔建议您下载系统 BIOS 并将其更新到适用于您的服务器平台 的最新可用版本

如果系统是面向 Nutanix* 企业云的英特尔®数据中心模块,请访问 Nutanix* 生命周期管理器 页面。有关硬件和固件兼容性的列表,请访问 Nutanix* 硬件和固件兼容性页面

相关主题
基于英特尔® 62X 芯片组的英特尔服务器产品的内存更换指南和高级内存®测试 - 白皮书
ECC 内存的作用
如何从英特尔®服务器主板的 IERR 中恢复
我的服务器崩溃并显示此错误: 处理器 CPU 机器 chk
固件更新和故障排除技巧
什么是内存纠错码 (ECC) 可纠错事件?
SDLA 工具 如何统计 ECC 错误