英特尔® 至强®处理器英特尔® Data Center Diagnostic Tool

文档

维护与性能

000058107

2021 年 11 月 18 日

介绍

英特尔® Data Center Diagnostic Tool是一种诊断软件工具,可以在您的数据中心平台上运行,以:

  • 验证英特尔® 至强®处理器中所有内核的功能。
  • 可作为常规系统维护计划的一部分使用。

数据中心的高可靠性和可用性需要合适的工具,并且需要对维护的承诺。英特尔坚信,将此类维护工具用于初始部署和定期测试是行业最佳实践,有助于确保最佳的系统体验。

    注意
    • 现代计算基础设施带来了不断增长的处理能力需求,以及业务期望,包括服务质量和高可用性(并保证服务级协议 [SLA])。这些期望开始需要强大的软件工具,以帮助预测、识别并减少意外的系统故障,这可能会损害服务质量或正常运行时间。阅读 IDC 的一篇论文 ,介绍对诊断工具(包括英特尔® Data Center Diagnostic Tool)的需求。

    系统要求

    英特尔 Data Center Diagnostic Tool是一个 Linux* 应用程序,可以在许多当前的 Linux 发行版上安装和运行。此工具没有 Windows* 版本。

    要获得最佳覆盖范围,在服务器根系统中运行该应用程序。可以在容器或虚拟机内运行,但请注意,某些功能可能会被禁用。

    支持的处理器:

    • 第三代英特尔® 至强®可扩展处理器(以前称为Ice Lake和Cooper Lake)
    • 第二代英特尔® 至强® 可扩展处理器(以前称为Cascade Lake)
    • 第一代英特尔® 至强®可扩展处理器(前身为 Skylake)
    • 英特尔® 至强® 处理器 E5 v4 家族(前身为 Broadwell)
    • 英特尔® 至强® 处理器 E7 v4 家族(此前称为 Broadwell)
    注意
    • 对于开发人员:英特尔启动了开放数据中心诊断项目,项目将打开英特尔的数据中心诊断框架并提供指定测试。这为开发人员提供了一致的测试开发框架,可激发开源社区的创造力,通过开发独特的测试屏幕和其他创新解决方案来增强云群管理。了解更多信息并访问此框架和测试

    安装

    笔记
    • 有关其他详细信息,请参阅安装中的 /usr/share/doc/dcdiag/README.rst 文件。
    • 我们建议您使用以下部分中的步骤链接到存储库,以确保您获得最新版本的英特尔® Data Center Diagnostic Tool。但是,如果您需要可下载的二进制文件,请使用RPM 文件DEB 文件

     

    Debian*/Ubuntu*

    要在基于 Debian* 的分发版上安装英特尔® Data Center Diagnostic Tool软件包,添加 英特尔 software 封装存储库,并安装相应的软件包。

    将+ 粘贴到控制台之前,您可能想运行 sudo ls 并输入密码,以防止命令被 sudo 密码提示符消耗:

    设置密钥以验证包裹签名

    curl https://repositories.intel.com/dcdt/dcdiag.pub | sudo apt-key add -

    设置存储库

    sudo apt-add-repository 'deb https://repositories.intel.com/dcdt/debian stable main'

    安装软件包

    sudo apt-get update
    sudo apt-get install dcdiag

    Fedora*/CentOS*/RHEL*

    要在基于 Fedora 的分发版上安装英特尔 Data Center Diagnostic Tool软件包,添加 英特尔 software 封装存储库并安装该软件包。

    第一次安装时,YUM 或 DNF 会提示您接受签名密钥。确认指纹如下,然后接受:
    Userid: "CN=Release Key"
    Fingerprint: 6226 CA48 AAB6 0900 2093 C7C4 0A04 4B42 CF00 5B79

    将+ 粘贴到控制台之前,您可能想运行 sudo ls 并输入密码,以防止命令被 sudo 密码提示符消耗:

    安装存储库文件

    sudo yum install https://repositories.intel.com/dcdt/dcdiag-repo.rpm

    安装软件包

    sudo yum install dcdiag

    OpenSUSE*/SUSE Linux Enterprise*:

    安装存储库文件

    sudo zypper ar https://repositories.intel.com/dcdt/dcdiag.repo

    安装软件包

    sudo zypper install dcdiag

    您将会是 回应.xml 没有签名的商品。回应是继续。您将有机会再次验证包裹的签名。确认指纹如下,然后接受:

    Repository: dcdiag
    Key Name: CN=Release Key
    Key Fingerprint: 6226CA48 AAB60900 2093C7C4 0A044B42 CF005B79
    Key Created: Tue 24 Nov 2020 01:47:38 PM PST
    Key Expires: Sat 25 Nov 2023 01:47:38 PM PST
    Rpm Name: gpg-pubkey-cf005b79-5fbd7f7a

     

    如何测试英特尔 至强 处理器

    安装后,英特尔 Data Center Diagnostic Tool将自动启用后台执行。您可以通过以下命令验证成功:

    # systemctl status dcdiag
    ● dcdiag.service - Intel® Data Center Diagnostic Tool
    Loaded: loaded (/usr/lib/systemd/system/dcdiag.service; enabled; vendor preset: disabled)
    Active: active (running) since Fri 2021-02-19 11:24:17 MST; 4 days ago
    Docs: file:///usr/share/doc/dcdiag/README.rst
    Main PID: 8777 (dcdiag)
    CGroup: /system.slice/dcdiag.service
    └─8777 /usr/bin/dcdiag --service

    如果检测到任何错误,工具将将其记录在系统日志中。该工具还可使用 --查询 参数,查询后台扫描中是否检测到任何错误。

    # dcdiag --query
    Intel® Data Center Diagnostic Tool Version 506
    Test completed successfully. No issues detected.

    该工具还可以通过在 Linux 命令提示符下执行在前景中手动运行:

    # dcdiag

    手动测试运行约 45 分钟,CPU 利用率高。

    诊断完成后,系统返回以下消息之一:

    • 测试已成功完成。未检测到问题。
       
    • 测试已成功完成。发生一个或多个机器检查错误。请检查系统日志。
       
    • 此工具版本不支持此处理器。

      检查系统的处理器型号和版本。如果英特尔 Data Center Diagnostic Tool无法检测到支持的处理器的生产版本,则会出现此消息。该工具不支持工程样品。

      识别处理器时 寻求帮助 。
       
    • 测试已完成。由于微代码版本过时,结果不确定。

      该微代码的最新版本解决了已知问题。请更新。Microcode 更新通常由 Linux 分发版供应商提供,并且提供针对各种组件的安全修复和其他固件更新。如果您的系统没有启用这些更新,我们建议您启用这些更新。该微代码由每个引导的 Linux 内核自动加载,可以在运行时以以下命令根重新加载:

      echo 1 > /sys/devices/system/cpu/microcode
       
    • 测试已完成。由于系统超出温度限制,结果不确定

      这可能是由于系统出现各种问题,无法为 CPU 提供足够的冷却功能以在所需的温度限制范围内运行。我们建议您检查系统,以确保所需的冷却操作正常。这可能包括风扇故障、气流不正确或其它一些环境问题。
       
    • 测试已完成。结果不确定,出现一个或多个机器检查错误。

      查看系统日志。
       
    • 测试失败。请联系您的系统制造商或处理器供应商以获取支持。

      如果测试结果表明失败,检查您的服务器节点的处理器是否仍在保修期内:

      • 如果您的盒装英特尔® 至强®处理器仍在 3 年保修期内,请联系 英特尔客户支持 以获得帮助。
      • 如果您拥有一个散装处理器,请联系您的系统或处理器供应商或购买处,以检查处理器是否仍在保修期内。
        注意散装处理器直接销售给系统制造商或英特尔授权分销商。英特尔不向最终用户提供纸盒处理器的直接保修服务,除非它们预安装在英特尔® 数据中心模块(英特尔® DCB)服务器系统中。除英特尔 DCB系统外,如果处理器已预装,则散装处理器的保修服务由处理器或购买处提供。英特尔建议从 英特尔授权总代理英特尔认证供应商英特尔®产品经销商 处购买。
      • 请注意,英特尔没有保修外更换计划。
         
    • 测试失败。

      测试完成后,在包含 /sys/devices/system/cpu/cpuXX 的物理处理器上检测到错误。

      请联系您的系统制造商或处理器供应商以获取支持。

    • 测试失败。

      测试无法确定是哪种物理处理器导致了故障。

      请联系您的系统制造商或处理器供应商以获取支持。
       

    版本历史记录

    日期版本描述
    2021 年 7 月 7 日540初始版本