帮助查找有缺陷的内存模块的故障排除内容
当内存模块存在可疑故障时,如何确定正确的中央处理器 (CPU) 位置(1 或 2)和双列直插式内存模块 (DIMM) 组?
根据诊断步骤继续操作,以查找导致 IErr ECC_error的 DIMM:
注意 | 确保 ipmitool 工具(请参见 IPMI、V2.0,命令测试工具)已加载或可在该节点上运行。这将允许您检查系统事件日志(这是一个二进制文件)。 |
注意 |
通过以这种方式查看扩展列表来检查系统事件日志:
#sudo ipmitool sel elist |少
1c |08/24/2018 |22:51:49 |内存 MMRY ECC 传感器 |无法纠正的 ECC |断言
1D |08/24/2018 |22:51:49 |内存 MMRY ECC 传感器 |无法纠正的 ECC |断言 然后,您可以参照第一列中的十六进制 (HEX) 值来检查系统事件日志中的任何条目: #sudo ipmitool sel get 0x1c
SEL 记录 ID : 001c 记录类型 : 02 时间戳 : 08/24/2018 22:51:48 生成器 ID : 0033 EVM 修订版 : 04 传感器类型 : 内存 传感器编号 : 02 事件类型:特定于传感器的离散式 事件方向:断言事件 事件数据(RAW): a10103 事件解释:缺失 说明 : 无法纠正的 ECC 传感器 ID: 毫米级 ECC 传感器 (0x2) 实体 ID:32.1(存储设备) 传感器类型 : 内存 (0x0c) |
调试事件数据的日志位置 (RAW)
- 将该数字输入计算器:
- 查看二进制 (BIN) 值,特别是最后 8 个字节。在上图中,查看最右侧的部分(突出显示)。
- 将其转换为十进制,如下表所示,最右边的位代表 DIMM 插槽值:0=A、1=B、2=C、3=D 等等。
最右边的第二个位代表 CPU 插槽。
在本例中,b0000 = CPU1。b0001 等于 CPU2。
使用 IPMI 时,无法获得 底板管理控制器 (BMC) Web 图形用户界面 (GUI) 上显示的详细程度。但是,您可以通过运行下一个命令来使用 Redfish : curl -k -u <user>:<password> https://<ip>/redfish/v1/Systems/<serial #>/LogServices/SEL/Entries?$skiptoken=0。
注意 |
skiptoken 是从哪里开始。它通常会返回 50 条记录,因此 skiptoken 将为 0、50、100,依此类推。在响应结束时,它会告诉您下一个 跳过令牌 应该是什么才能继续阅读。 |
或者,您可以使用服务器管理器系统中运行 SDPtool <ipv4> <username> <password>debuglog <filename> 命令的服务器管理器系统中的 英特尔® Server Debug and Provisioning Tool (英特尔® SDP Tool)。