仅对英特尔可见 — GUID: ivu1504810590919
Ixiasoft
产品终止通知
1. Intel® FPGA SDK for OpenCL™ Pro Edition最佳实践指南介绍
2. 查看您Kernel的report.html文件
3. OpenCL内核设计概念
4. OpenCL内核设计最佳实践
5. 分析(Profiling)您的内核来识别性能瓶颈
6. 提高单个Work-Item内核性能的策略
7. 提高NDRange内核数据处理效率的策略
8. 提高存储器访问效率的策略
9. 优化FPGA面积使用的策略
10. 优化英特尔 Stratix 10 OpenCL设计的策略
11. 提高主机应用程序性能的策略
12. Intel® FPGA SDK for OpenCL™ Pro版最佳实践指南存档
A. Intel® FPGA SDK for OpenCL™ Pro版最佳实践指南修订历史
仅对英特尔可见 — GUID: ivu1504810590919
Ixiasoft
3.4.3.1. 使用loop_coalesce减少嵌套循环占用的面积
当循环嵌套的深度大于三时,会占用更多区域。
请参考以下实例,其中以orig和lc_test内核来说明如何减少嵌套循环中的延迟。
orig内核嵌套循环的深度为四。由于携带的变量,该嵌套循环创建了额外的块(Block 2,3,4,6,7和8),而这些块会占用面积,如以下报告中所示:
图 65. 循环合并前后的面积报告和系统查看器(系统视图)
由于循环合并,您可以看到lc_test中延迟减少。orig内核的Block 5,和lc_test内核的Block 12是最内层的循环。
图 66. lc_test和orig内核的面积报告