第二代 Gaudi Al 深度学习夹层卡 HL-225B 专为数据中心实现大规模横向扩展而设计。该训练处理器基于第一代 Gaudi 的高效架构打造而成,目前采用 7 纳米制程工艺,在性能、可扩展性和能效方面均实现了飞跃。HL-225B 处理器符合美国工业与安全局 (Bureau of Industry and SecurityBIS) 在网站 www.regulationsgov/document/BIS-2022-0025-0002 上发布的有关规定。Gaudi2 夹层卡符合 OCP OAM1.1(开放计算平台之开放加速器模块)规范。这样一来,客户便可从符合规范的多种产品中做出选择,灵活地进行系统设计。HL-2080 处理器拥有 24 个完全可编程的第四代张量处理器核心 (TPC)。这些核心原生设计便能够为广泛的深度学习工作负载加速,同时还赋予用户按需进行优化和创新的灵活性。此外,它还集成了 96 GB HBM2e 内存和 48 MB SRAM,支持 600 瓦夹层卡级热设计功耗 (TDP)。
Gaudi2 处理器具备出色的 2.1 Tbps 网络容量可扩展性,原生集成 21 个 00GbpsRoCEv2RDMA 端口,可通过直接路由实现 Gaudi 处理器间通信。Gaudi2 处理器集成了专用媒体处理器,用于图像和视频解码及预处理。
技术创新
Gaudi2 处理器是一款高性能、完全可编程的 AL 处理器,它整合了多项技术创新,具有高内存带宽/容量和基于标准以大网技术的纵向扩展能力。它也支持使用外接网卡通过 PCle 接口实现横向扩展,满足多节点集群需要。
计算架构 |
内存 |
通过集成 RDMA 实现纵向扩展 |
---|---|---|
Gaudi2 采用经过验证的高性能深度学习 AI 训练处理器架构,利用 Habana 完全可编程的 TPC 和 GEMM 引擎,支持面向 AI 的高级数据类型:FP8、BF16、FP16、TF32 和 FP32。TPC 核心旨在支持深度学习训练和推理工作负载。TPC 是一款 VLIWSIMD 矢量处理器,其指令集和硬件经过定制,可高效处理上述工作负载。 |
内存带宽和容量与计算能力同样重要。Gaudi2 采用先进的 HBM 内存技术,内存容量高达 96 GB,内存带宽高达 2.4 TB/s。Gaudi 先进的 HBM 控制器已针对随机访问和线性访问进行了优化,在各种访问模式下均可提供高内存带宽。 |
Gaudi Al 训练处理器在芯片上集成了 RDMA (RoCEv2),可与成熟且广泛使用的以太网进行连接。HL-2080 芯片互连技术基于 42 对 56Gbps Tx/Rx PAM4SerDes(配置为21个100GbE端口)发挥作用。 |
SynapseAI 软件套件
SynapseAl® 软件套件旨在提高 Habana Al 处理器的易用性和支持高性能训练,能够将神经网络拓扑高效映射到 Gaudi 系列硬件上。该软件套件包括 Habana 的图编译器和运行时、经过性能优化的 TPC 算子库、固件和驱动程序以及开发工具,例如用于自定义核心开发的 TPC 编程工具套件和 SynapseAI 图编译器。SynapseAl 与 TensorFlow 和 PyTorch 等主流框架集成,并已针对基于 Gaudi Al 处理器家族产品的训练进行了优化。数据科学家和开发人员对代码进行少量修改即可将现有模型迁移到 Gaudi2 上运行。Habana 开发人员网站是一个资源中心,开发人员在这里可以找到开始基于 Gaudi Al 处理器进行训练所需的各类信息资料,包括教程、参考模型、操作指南、文档等。此网站还不时举行 Habana 开发人员社区论坛。