英特尔® FPGA AI Suite

了解英特尔® FPGA AI Suite 如何为嵌入式系统和数据中心添加 FPGA AI。

概述

英特尔 FPGA 可实现实时、低延迟、低功耗的深度学习推理，并具有以下优势：

I/O 灵活性
重新配置
易于集成到定制平台中
生命周期长

英特尔 FPGA AI Suite 的开发旨让英特尔 FPGA 上的人工智能 (AI) 推理简单易用。该套件让 FPGA 设计师、机器学习工程师和软件开发人员能够高效创建优化的 FPGA AI 平台。

英特尔 FPGA AI Suite 中的实用程序利用常见和流行的行业框架（如 TensorFlow、PyTorch 和 OpenVINO 工具套件）加速面向 AI 推理的 FPGA 开发，同时还通过英特尔 Quartus Prime 软件充分利用强大而成熟的 FPGA 开发流程。

英特尔 FPGA AI Suite 工具流与 OpenVINO 工具套件协同工作，后者是一个开源项目，用于优化各种硬件架构上的推理。OpenVINO 工具套件从各大深度学习框架（如 TensorFlow、PyTorch、Keras）中获取深度学习模型，并在各种硬件架构（包括各种 CPU、CPU+GPU 和 FPGA）上对其进行推理优化。

了解英特尔 FPGA AI Suite 如何为嵌入式系统和数据中心添加 FPGA AI。联系英特尔销售部门，获取定价和可用性信息 ›

立即开始

显示更多显示较少

主要功能

英特尔® Agilex™ 7 FPGA M 系列在 FPGA 利用率为 90% 的情况下，可以实现 88.5 INT8 TOPS 或每秒 3,679 Resnet-50 帧的最大理论性能。

支持与定制 IP（如 ADC/DAC、视频和以太网）集成，以尽可能减少空间占用和降低延迟。

借助高度可扩展、可定制的细粒度 AI 推理，在广泛的性能和批量范围内最大限度降低总拥有成本。

借助英特尔 Quartus Prime 软件或 Platform Designer，创建 AI 推理 IP 并将其添加到当前或全新的 FPGA 设计中。

可以使用您喜欢的 AI 前端，如 TensorFlow、Caffe、Pytorch、MXNet、Keras 和 ONNX。

OpenVINO 工具套件能够优化性能和功耗，同时最大限度减少逻辑和内存空间占用。

显示更多显示较少

FPGA AI 推理开发流程

AI 推理开发流程如图 1 所示。该流程将硬件和软件工作流程无缝整合成一个通用的端到端 AI 工作流程。步骤如下所示：

1.OpenVINO 工具套件中的模型优化器能够创建中间代表网络文件 (.xml) 以及权重和倾向文件 (.bin)。

2.英特尔 FPGA AI Suite 编译器用于：

为特定架构文件提供估算区域或性能指标，或生成优化的架构文件。（架构是指一系列推理 IP 参数，如 PE 阵列大小、精度、激活函数、界面宽度、窗口大小等。）
将网络文件与用于 FPGA 和 CPU（或两者）的网络分区以及权重和偏差一起编译成一个 .bin 文件。

3. 编译后的 .bin 文件在运行时由用户推理应用程序导入。

运行时应用程序编程接口 (API) 包括推理引擎 API（运行时分区 CUP 和 FPGA，调度推理）和 FPGA AI（DDR 内存、FPGA 硬件模块）。
参考设计演示了在具有配套主机 CPU（x86 和 Arm 处理器）的 FPGA 上导入 .bin 文件并运行推理的基本操作。

图 1：英特尔 FPGA AI Suite 开发流程

注意：

支持的设备：英特尔® Agilex™ 7 FPGA、英特尔® Cyclone® 10 GX FPGA、英特尔® Arria® 10 FPGA

经过测试的网络、层和激活功能¹：

ResNet-50、MobileNet v1/v2/v3、YOLO v3、TinyYOLO v3、UNET、i3d
2D Conv、3D Conv、Fully Connected、Softmax、BatchNorm、EltWise Mult、Clamp
ReLU、PReLU

系统级架构

英特尔 FPGA AI Suite 具有灵活性，可针对各种系统级用例进行配置。图 2 列出了将 FPGA AI Suite IP 集成到系统中的典型方法。这些用例涵盖了各种不同垂直领域的优化嵌入式平台，包括采用主机 CPU（智能英特尔® 酷睿™ 处理器、ARM 处理器）的应用、采用英特尔® 至强® 处理器的数据中心环境，以及无主机应用（或 Nios® V 等软核处理器）。

图 2：典型的英特尔 FPGA AI Suite 系统拓扑图

CPU 卸载

AI 加速器

多功能 CPU 卸载

AI 加速器 + 额外硬件功能

提取/内联处理 + AI

AI 加速器 + 直接提取和数据流式传输

嵌入式 SoC FPGA + AI

AI 加速器 + 直接提取和数据流式传输 + 硬件功能 +

嵌入式 ARM 或 Nios® II 或 Nios V 处理器

显示更多显示较少

演示视频