仅对英特尔可见 — GUID: saz1474984501691
Ixiasoft
产品终止通知
1. Intel® FPGA SDK for OpenCL™ Pro Edition最佳实践指南介绍
2. 查看您Kernel的report.html文件
3. OpenCL内核设计概念
4. OpenCL内核设计最佳实践
5. 分析(Profiling)您的内核来识别性能瓶颈
6. 提高单个Work-Item内核性能的策略
7. 提高NDRange内核数据处理效率的策略
8. 提高存储器访问效率的策略
9. 优化FPGA面积使用的策略
10. 优化英特尔 Stratix 10 OpenCL设计的策略
11. 提高主机应用程序性能的策略
12. Intel® FPGA SDK for OpenCL™ Pro版最佳实践指南存档
A. Intel® FPGA SDK for OpenCL™ Pro版最佳实践指南修订历史
仅对英特尔可见 — GUID: saz1474984501691
Ixiasoft
5.8.4. 无停顿、低占用量百分比和低带宽
循环携带的依赖项可能造成您设计中的瓶颈,从而导致占用量百分比较低和带宽较低。
切记: 理想的内核流水线条件是停顿百分比为0%,占用量百分比为100%,带宽等于板级可用带宽。
图 73. 示例OpenCL内核和Profiler分析
该示例中,FACTOR2循环的每20次迭代和FACTOR1循环的每4次迭代执行一次dst[]。因此,FACTOR2循环是该瓶颈的根源。
解决循环瓶颈的方案:
- 均匀展开FACTOR1和FACTOR2循环。简单地进一步展开FACTOR2循环并不能解决瓶颈。
- 矢量化您的内核使得每次循环迭代期间执行多个work-item。
相关信息