英特尔®服务器主板可纠正/不可纠正 ECC 内存错误的基本诊断程序
注意 | 如需本文中所述的故障排除支持,请参阅您的服务器平台的技术 产品规范 。 |
我看到的是什么?
内存模块的可纠正和/或不可纠正纠错码 (ECC) 事件。例如:
毫米级 ECC 传感器 SMI 处理器警告 内存 CPU:1,DIMM:D0 DIMM 等级:1。 - 可纠正的 ECC / 其它可纠正的内存错误 - 已断言。
什么是内存纠错码 (ECC) 可纠错事件?
ECC 可纠正错误表示给定时间范围内给定双列直插式内存模块 (DIMM) 的阈值溢出。
如何解决:
内存数据错误记录为可纠正或不可纠正。根据遇到的错误类型 ,请参阅 以下说明:
笔记 |
|
- 如果没有灾难性问题(紫屏死机 (PSOD) 或意外重启),并且每个 DIMM 位置的可纠正 ECC 错误(包括自适应双设备数据校正 (ADDDC) 错误)每 24 小时少于 10 个事件(在阈值限制内),则建议 监视 服务器在每个触发事件的 DIMM 位置是否重复出现 ECC 错误。
- 如果存在灾难性问题(紫屏死机 (PSOD) 或意外重启),并且每个 DIMM 位置每 24 小时出现可纠正的 ECC 错误(包括自适应双设备数据校正 (ADDDC) 错误)少于 10 次事件,建议按照以下步骤 重新安装每个 DIMM 位置:
- 关闭 系统并 拔掉 交流电源线。
- 确定 要重新拔插的 DIMM 位置。请参阅服务器平台的技术 产品规格 以识别 DIMM 的位置。
- 重新拔 插已识别的 DIMM。
- 插入 交流电源线,然后 重新打开 系统电源。
- 观察 24 小时是否有 ECC 错误再次出现。
- 如果 ECC 错误仍然存在于重新拔插的同一 DIM 位置,则生成 SEL 和调试日志并将其发送到 BMC Web 控制台英特尔 Customer Support
- 从面向英特尔®服务器系统 S2600BP、S2600WF 和 S2600ST的 BIOS 版本 02.01.0014 开始,在 BIOS 和固件堆栈中引入了高级内存测试 (AMT) 功能;并从适用于英特尔® 服务器系统 S9200WK的 BIOS 版本 22.01.0097 开始。对于这些产品,建议通过 BIOS 设置实用程序启用高级内存测试 (AMT) 和补丁后修复 (PPR) 功能,以执行内存健康状况的全面检查。有关详细信息,请参阅《 基于英特尔® 62X 芯片组的英特尔服务器产品的内存®更换指南和高级内存测试 – 白皮书》 第 5 章。
笔记 | 纠错码 (ECC) 错误是自我纠错的。根据内存的可靠性可用性可维护性 (RAS) 配置,集成内存控制器 (IMC) 可能会使受影响的 DIMM 脱机。 |
对于不同的英特尔服务器平台,其事件定义存在一些差异,请参阅适用于您的服务器平台的 系统事件日志故障排除指南 | |
英特尔建议您下载系统 BIOS 并将其更新到适用于您的服务器平台 的最新可用版本 。 | |
如果系统是面向 Nutanix* 企业云的英特尔®数据中心模块,请访问 Nutanix* 生命周期管理器 页面。有关硬件和固件兼容性的列表,请访问 Nutanix* 硬件和固件兼容性页面。 |
相关主题 |
基于英特尔® 62X 芯片组的英特尔服务器产品的内存更换指南和高级内存®测试 - 白皮书 |
ECC 内存的作用 |
如何从英特尔®服务器主板的 IERR 中恢复 |
我的服务器崩溃并显示此错误: 处理器 CPU 机器 chk |
固件更新和故障排除技巧 |
什么是内存纠错码 (ECC) 可纠错事件? |
SDLA 工具 如何统计 ECC 错误 |