Intel® FPGA SDK for OpenCL™ Pro Edition: 最佳实践实践指南

ID 683521
日期 9/26/2022
Public
文档目录

3.4.3.1. 使用loop_coalesce减少嵌套循环占用的面积

当循环嵌套的深度大于三时,会占用更多区域。

请参考以下实例,其中以origlc_test内核来说明如何减少嵌套循环中的延迟。

orig内核嵌套循环的深度为四。由于携带的变量,该嵌套循环创建了额外的块(Block 2,3,4,6,7和8),而这些块会占用面积,如以下报告中所示:

图 65. 循环合并前后的面积报告和系统查看器(系统视图)

由于循环合并,您可以看到lc_test中延迟减少。orig内核的Block 5,和lc_test内核的Block 12是最内层的循环。

图 66.  lc_testorig内核的面积报告