Intel® FPGA SDK for OpenCL™ Pro Edition: 最佳实践实践指南

ID 683521
日期 9/26/2022
Public
文档目录

5.8.4. 无停顿、低占用量百分比和低带宽

循环携带的依赖项可能造成您设计中的瓶颈,从而导致占用量百分比较低和带宽较低。
切记: 理想的内核流水线条件是停顿百分比为0%,占用量百分比为100%,带宽等于板级可用带宽。
图 73. 示例OpenCL内核和Profiler分析

该示例中,FACTOR2循环的每20次迭代和FACTOR1循环的每4次迭代执行一次dst[]。因此,FACTOR2循环是该瓶颈的根源。

解决循环瓶颈的方案:

  • 均匀展开FACTOR1FACTOR2循环。简单地进一步展开FACTOR2循环并不能解决瓶颈。
  • 矢量化您的内核使得每次循环迭代期间执行多个work-item。