内存 ECC 可纠正错误以及它触发事件时的指南
在处理记录在系统事件日志 (SEL) 中的 ECC 可纠正错误事件时需要遵循的步骤
ECC 可纠正错误代表给定时间内给定双列直插式内存模块 (DIMM) 的阈值溢出。
- 如果没有灾难性问题(紫色屏幕死机 (PSOD) 或意外重启),而可纠正的 ECC 错误(包括自适应双设备数据校正 (ADDDC) 错误(每个 DIMM 位置每 24 小时内不超过 10 个事件)是在阈值范围内,因此建议是监控 ECC 错误的每一个触发事件的 ECC 错误的重复性
- 如果存在灾难性问题(紫色屏幕死机 (PSOD) 或意外重启),以及可纠正的 ECC 错误(包括自适应双设备数据校正 (ADDDC) 错误,即在每个 DIMM 位置每 24 小时内发生 10 多起事件,建议按照以下步骤重新安装每个 DIMM 位置:
笔记 |
纠错码 (ECC) 错误是自纠正的。根据内存的可靠性可用性可维护性 (RAS) 配置,集成内存控制器 (IMC) 可能会将受影响的 DIMM 脱机。 |
对于不同的英特尔服务器平台,其事件定义存在一些差异,请参阅服务器平台的系统事件日志故障排除指南 | |
英特尔建议您将系统 BIOS 下载 并更新至服务器平台的最新可用版本。 | |
如果系统是经过 Nutanix* 企业云平台认证的英特尔®数据中心系统,请访问 Nutanix* 生命周期管理器 页面。如欲获取硬件和固件兼容性列表,请访问 Nutanix* 硬件和固件兼容性页面。 |