Intel® FPGA SDK for OpenCL™ Pro Edition: 最佳实践实践指南

ID 683521
日期 9/26/2022
Public
文档目录

5.8.5. 无停顿、高占用量百分比和低带宽

内核设计的结构可能会阻止其利用加速器板上提供的所有可用带宽。
切记: 理想的内核流水线条件是停顿百分比为0%,占用量百分比为100%,带宽等于板级可用带宽。
图 74. 示例OpenCL内核和Profiler分析

该示例中,加速器板可以提供25600兆字节/每秒(MB/s)的带宽。但是,vector_add内核正在请求的量是(2次读取+ 1次写入) x 4字节x 294 MHz = 12字节/周期x 294 MHz = 3528 GB/s,这只是可用带宽的14%。要增加带宽,请增加每个时钟周期中执行的任务数。

低带宽的解决方案:

  • 自动或手动矢量化内核以wider(加宽)请求
  • 展开最内层循环以在每个时钟周期发出更多请求
  • 将某些任务授权给另一个内核