英特尔® Stratix® 10 FPGA 和 SoC FPGA
英特尔® Stratix® 10 FPGA 和 SoC FPGA
英特尔® Hyperflex™ FPGA 架构
为解决下一代系统所遇到的难题,英特尔® Stratix® 10 FPGA 和 SoC 采用了全新的英特尔 Hyperflex™ FPGA 架构,与前一代高端 FPGA 相比,时钟频率提高了 2 倍,功耗降低了高达 70%。2
英特尔® Hyperflex™ FPGA 架构在整个 FPGA 结构中引入了额外的可旁路寄存器。每一互联布线段以及所有功能模块的输入上都有这些名为超级寄存器的寄存器。超级寄存器支持采用三种关键设计方法将内核性能提高 2 倍:
- 精细粒度超级重新定时,消除了关键路径。
- 零延时超级管线,消除了布线延迟。
- 灵活的超级优化,实现了最佳性能。
当您在设计中使用这些方法时,超感知设计工具会自动使用超级寄存器,以实现最大的内核时钟频率。
《使用英特尔® Hyperflex™ FPGA 架构优化设计》
英特尔® Hyperflex™ FPGA 架构支持可将性能提高 2 倍的三种关键设计方法:超级重新定时、超级管线和超级优化。阅读《英特尔® Stratix® 10 设备高性能设计手册》,了解如何结合这些性能优化技术来实现英特尔® Stratix® 10 设备中最高的时钟频率。
立即使用英特尔® Hyperflex™ FPGA 架构开始设计
英特尔® Hyperflex™ FPGA 架构采用超感知设计流程。该流程采用了创新的快速前向编译特性,支持设计人员执行快速设计性能探查,并达到突破性的性能水平。
快速前向编译特性现已上市,您可以使用面向英特尔® Stratix® 10 设备的英特尔® Hyperflex™ FPGA 架构开始进行设计。联系您的销售代表,以获得许可。
联系您当地的销售代表,以评估快速前向编译特性。
观看快速前向编译特性演示视频
请观看面向英特尔® Stratix® 10 设备设计的快速前向编译功能演示视频。这一视频向您介绍了快速前向编译功能如何提供创新的性能探查功能,以及实施面向英特尔® Hyperflex™ FPGA 架构的三项关键设计优化,包括:
- 怎样克服重新定时限制,以实现超级重新定时。
- 怎样优化设计,以实施超级管线。
- 怎样找到并克服超级优化的性能瓶颈。
异构 3D 系统级封装集成
英特尔® Stratix® 10 FPGA 和 SoC 采用了异构 3D 系统级封装 (SiP) 集成技术,在一个封装中集成了单片 FPGA 内核架构和 3D SiP 收发器块以及其他先进的组件。
阅读《使用英特尔 3D 系统级封装技术实现下一代平台白皮书》(PDF)›
灵活的可扩展解决方案
异构 3D SiP 集成支持通过灵活的可扩展路径提供多种产品变体,在单个封装内高效混合功能和/或制程节点。
混合功能和制程节点
异构 3D SiP 集成实现了多种主要的系统级优势,包括:
进一步了解异构 3D SiP 集成
请下载该白皮书,详细了解英特尔® Stratix® 10 FPGA 和 SoC FPGA 怎样利用异构 3D SiP 集成技术实现性能、功耗和外形封装的突破,同时提供更大的可扩展性与灵活性。此外,您还可以了解英特尔® EMIB 技术怎样为多管芯集成提供优异的解决方案。
面向英特尔® Stratix® 10 设备的英特尔 EMIB 封装技术
英特尔嵌入式多芯片互连桥接 (EMIB) 专利技术支持有效的系统关键组件封装内集成,如模拟装置、内存、ASIC、CPU 等。相比其他封装内集成技术,EMIB 技术提供了更简单的制造流程。此外,EMIB 不需要使用硅通孔 (TSV) 以及特殊的中介层芯片,其解决方案的性能更好,而且不复杂,还具有优异的信号和电源完整性。EMIB 使用了嵌入在基底中的小型芯片,在芯片之间提供了超高密度互联。标准的触发芯片装配将电源和用户信号从芯片连接至封装球角。这一方法最大限度地减小了来自内核开关噪声和交叉串扰的干扰,实现了优异的信号和电源完整性。
关于如何在即将推出的英特尔® Stratix® 10 设备产品家族中实施这一技术的详细信息,请参考收发器一节。
收发器
英特尔® Stratix® 10 FPGA 和 SoC FPGA 引入了创新的异构 3D 系统级封装 (SiP) 收发器,开启了收发器技术的新时代。收发器块使用系统级封装集成技术组合了单片可编程内核架构,以满足几乎所有细分市场日益增长的系统带宽需求。收发器块大幅度增加了 FPGA 的收发器通道数量,而且没有牺牲易用性。
特性 |
收发器块变体 |
|||
---|---|---|---|---|
L-Tile (17.4G) PCIe* Gen3x16 |
H-Tile (28.3G) PCIe* Gen3x16 |
E-Tile (30G/58G) 4x100GE |
P-Tile (16G) 或 |
|
英特尔® Stratix® 10 设备变体 | GX,SX | GX,SX,TX,MX | TX,MX | DX |
每块最大收发器数量* | 24 | 24 | 24 | 20 |
芯片至芯片最大数据速率 (NRZ/PAM4) | 17.4 Gbps/- | 28.3 Gbps/- | 28.9 Gbps/57.8 Gbps | 16 GT/s/- |
背板最大数据速率 (NRZ/PAM4) | 12.5 Gbps/- | 28.3 Gbps/- | 28.9 Gbps/57.8 Gbps | 16 GT/s/- |
数据速率最大时的插入损耗 | 最高 18 dB | 最高 30 dB | 最高 35 dB | 参阅 PCIe* Gen4 和 UPI 规格和条件 |
硬核 IP | PCIe* Gen1,2 和 3,包括 x1,x4,x8 和 x16 通道支持 10G 法尔码 FEC 硬核 IP |
PCIe* Gen1,2 和 3,包括 1 个,4 个,8 个和 16 个通道 SR-IOV, 包括 4 个物理功能和 2000 个虚拟功能 10G 法尔码 FEC 硬核 IP |
10/25/100 GbE MAC,支持 RS-FEC 和 KP-FEC | 英特尔® 超级通道互联(英特尔® UPI) PCIe* Gen1,2,3 和 4,包括 1 个,4 个,8 个和 16 个通道 SR-IOV, 8 个物理功能 2048 个虚拟功能 端口分叉支持 2x8 端点或 4x4 根端口 事务层 (TL) 旁路功能 通过协议配置 (CvP) 初始化 自主模式 VirtIO 可扩展 IOV 共享虚拟内存 |
*请参见英特尔® Stratix® 10 设备的产品表,了解设备和封装组合中可用的收发器数量。 |
异构 3D SiP 优势
前所未有的性能
- 英特尔® Stratix® 10 GX 和 SX 设备的数据速率可高达 28.3 Gbps,支持主流协议。
- 英特尔® Stratix® 10 TX 和 MX 设备的数据速率可高达 57.8 Gbps PAM4,支持主流和未来的协议,包括 PAM4 支持。
- 英特尔® Stratix® 10 DX 设备支持每通道高达 16 GT/秒的 PCIe* 数据速率和高达 11.2 GT/秒的 UPI 数据速率,可实现与未来特定英特尔® 至强® 可扩展处理器的主流一致连接。
收发器数量最多的产品家族
- 多达 144 个全双工通道。
- 多达 6 个提供 x16 硬核 IP 的 PCI Express (PCIe*) Gen3 实例。
- 多达 4 个提供 x16 硬核 IP 的 PCI Express* (PCIe*) Gen4 实例 (P-Tile)。
- 多达 3 个英特尔® Ultra Path Interconnect(英特尔® UPI)硬核 IP 实例。
- 硬核 IP 支持:100GE MAC 和 PHY、RS-FEC。
灵活性与可扩展性
- 四种不同的收发器块能够满足当前和未来协议的要求。
- 双模收发器支持在 PAM4 和 NRZ 调制方案之间切换。
- 高达 16GB 封装内 HBM2 DRAM 内存,速度为 512GBps。
易用性
- 自适应连续时间线性均衡 (CTLE) 和自适应决策反馈均衡 (DFE) 满足了远距离应用的需求。
- 高精度信号完整性校准引擎 (PreSICE)。
- 物理编码子层 (PCS) 和物理介质接入层 (PMA) 均拥有动态重新配置能力。
与 CPU、ASIC 和 ASSP 互连
英特尔® Stratix® 10 DX FPGA 具有支持 UPI 和 PCIe* Gen4 接口的硬核和软核知识产权模块,针对高性能加速应用,越来越多地应用于数据中心、网络、云计算以及测试和测量市场。
通过英特尔® Ultra Path Interconnect(英特尔® UPI)将 FPGA 连接到选定的英特尔® 至强® 可扩展处理器时,可实现低延迟、高性能的相干接口,而非相干接口则可利用任何支持 PCI Express* (PCIe*) Gen4 的设备。
英特尔® Stratix® 10 FPGA 和 SoC 互联解决方案的功能详情:
- 英特尔® Stratix® 10 设备中的硬核英特尔® UPI 知识产权模块,支持 Cache Agent 和 Home Agent 软核 IP。
- 硬 PCI Express Gen4 x16 知识产权模块,其功能包括:端点和根端口分叉模式、支持单根 I/O 虚拟化 (SR-IOV)、虚拟 I/O 设备 (VIRTIO)、英特尔® 可扩展 I/O 虚拟化(英特尔® 可扩展 IOV)和事务层旁路模式。
外部内存接口
英特尔® Stratix® 10 设备提供了内存接口支持,包括串行和并行接口。
了解详情
安全设备管理器
英特尔® Stratix® 10 设备产品家族在所有密度和设备产品家族变体中引入了新的安全设备管理器 (SDM) 功能。作为整个 FPGA 的中央命令中心,安全设备管理器控制配置、设备安全、单事件干扰 (SEU) 响应、电源管理等关键操作。安全设备管理器为整个设备建立了统一的安全管理系统,包括 FPGA 架构、 SoC 中的硬核处理器系统 (HPS)、嵌入式硬核 IP 模块,以及 I/O 模块。
安全器件管理器关键优点
用户可配置启动过程
借助专用处理器管理配置,英特尔® Stratix® 10 FPGA 用户能够控制 FPGA 或者 SoC 设备中内核逻辑的配置顺序。您还可以选择 FPGA 设计先启动还是处理器应用先启动,第一个系统是否管理第二个系统的配置控制。与前一代 FPGA 和 SoC 相比,安全设备管理器支持用户选择以更灵活的方式进行配置控制。
SEU 和篡改检测的用户脚本响应
您可以使用安全设备管理器中的专用处理器来控制 FPGA 或者 SoC 对 SEU 和篡改检测的响应。英特尔® Stratix® 10 设备还支持用户脚本设备擦除,将响应数据清零作为一种安全响应。
采用物理不可克隆函数提供密钥保护
英特尔® Stratix®10 设备实施物理不可克隆函数 (PUF),可为比特流加密密钥保护提供业界领先的安全性。
防篡改保护
英特尔® Stratix® 10 设备包括片内温度传感器和设备电压轨监视器,用于检测 FPGA 或者 SoC 上的篡改攻击。此外,安全设备管理器中的安全处理器支持您更新配置过程。如果发现某一配置过程对于威胁分析无效,那么,您可以部署不同的配置顺序或者在现场更新加密过程。
高级密钥管理方法
英特尔® Stratix® 10 设备支持复杂的非对称密钥身份验证和授权方案。您可以使用多个密钥来认证一个比特流部分,也可以使用不同的密钥来认证不同的比特流或比特流部分。您可以控制已认证的签名密钥的权限,也可以撤销和替换签名密钥。
英特尔® Stratix® 10 设备实施高级比特流加密方案,可最大限度地降低由任何单一密钥进行加密的数据量。您可以选择使用不同的密钥加密比特流部分,或启用密钥更新模式,从而自动在每个比特流部分中滚动加密密钥。
高级设备管理
安全设备管理器的用户和命令认证功能还支持为英特尔® Stratix® 10 设备产品家族提供一整套全新的安全设备维护功能。这些功能包括:
- 安全远程更新(经过认证的)。
- 没有公开用户密钥的设备安全返回材料认证 (RMA)。
- 设计和 ARM* 处理器代码的安全调试。
- 安全密钥管理。
数字信号处理(DSP)
采用英特尔® Stratix® 10 设备,数字信号处理 (DSP) 设计的 IEEE-754 单精度浮点操作能够达到每秒 10 万亿次浮点运算 (TFLOPS)。每个 DSP 模块中的强化浮点运算符能够使计算吞吐量达到前所未有的水平。最初,它在英特尔® Arria® 10 设备产品家族中推出,现在扩展到英特尔® Stratix® 10 FPGA 和 SoC,提供了高出几个数量级的吞吐量。
英特尔® Stratix® 10 设备 DSP 模块
前所未有的性能
英特尔® Stratix® 10 设备的定点性能高达 23 TMAC,IEEE-754 单精度浮点性能高达 10 TFLOPS。
突破性的每瓦特性能效率
除了高性能以外,英特尔® Stratix® 10 设备还可以实现高达 80 GFLOPS/瓦特的能效。这种浮点能效水平是浮点处理行业的一项巨大创新,以远远低于其他计算单元的功耗实现了如此高的性能。
优化和集成设计输入
通过多种设计流程实现了浮点运算设计,包括:
- 英特尔® FPGA IP 内核。
- DSP Builder 用于基于英特尔® FPGA 模型的设计流程。
- 基于 OpenCL* C 的设计流程。
- Verilog HDL 和 VHDL 中的 HDL 模板
人工智能 Tensor 模块
借助英特尔® Stratix® 10 NX FPGA ,人工智能加速设计可在 ~1 TOPS/W 达到 143 INT8/块浮点 16(Block FP16)TOPS/TFLOPS,或在 ~2 TOPS/W 达到 286 INT4/块浮点 12(Block FP12)3。这种计算吞吐量是通过人工智能优化的计算模块(名为人工智能 Tensor 模块)实现的。AI Tensor Block 的架构包含三个点积单元,每个单元有十个乘法器和十个累加器,每个块总共 30 个乘法器和 30 个累加器。人工智能 Tensor 模块的架构针对人工智能计算中使用的通用矩阵-矩阵乘法或矢量-矩阵乘法进行了调整,其功能旨在实现小型以及大型矩阵的高效工作。
英特尔® Stratix® 10 NX FPGA 人工智能 Tensor 模块
AI Tensor Block 乘法器具有 INT8 和 INT4 的基本精确度,并通过共享指数支持硬件支持块浮点 16(Block FP16)和块浮点 12(Block FP12)的数字格式。所有的加法或累计都可以通过 IN32 或 IEE754 单精度浮点 (FP32) 完成,并且可以将多个 AI Tensor Block 串联起来,从而支持更大的矩阵。
减小 SEU
单事件干扰 (SEU) 比较少见,它是由辐射效应导致的内部内存元件状态的意外变化。状态的变化会导致软错误,对设备不会有永久损害。
得益于英特尔的 14 纳米三栅极工艺实现的高 SEU 抗扰性,英特尔® Stratix® 10 设备具有低翻转率。而且,英特尔为确定设计中是否出现干扰而提供了精细粒度功能,因此,您设计的系统能够有很好的响应。
英特尔® Stratix® 10 FPGA 和 SoC 确保高可靠性,并提供减少 SEU 的功能。
- 高级 SEU 探测 (ASD)。
- 敏感度处理。
- 分层标记。
- 故障注入。
- 用于改进您的设计,发挥设计的特性。
硬核处理器系统
得益于英特尔在 SoC 领域的领先地位,英特尔® Stratix® 10 SoC 的下一代硬核处理器系统 (HPS) 提供了业界领先的性能和能效最高的 SoC。高效的 4 核 ARM* Cortex*-A53 处理器集群是 HPS 的核心。该处理器针对超高的每瓦性能而优化,相比前代 SoC FPGA,它的功耗降低了高达 50%。此外,HPS 含有系统内存管理单元、高速缓存一致性单元、硬核内存控制器,以及特性丰富的嵌入式外设。
英特尔® Stratix® 10 SoC 开发工具
配备 ARM* Development Studio* 5 (DS- 5*) 的英特尔® SoC FPGA 嵌入式开发套件 (SoC EDS) 支持英特尔® Stratix® 10 SoC,提供了异构调试、分析和整体芯片可视化。SoC EDS 统一了来自 CPU 和 FPGA 域的所有软件调试信息,在标准 DS-5 用户界面中以有组织的方式呈现这些信息。该工具套件为用户提供了前所未有的调试可见性和控制水平,从而极大地提高了工作效率。
更多信息敬请访问英特尔® Stratix® 10 SoC 页面。
产品和性能信息
利用英特尔® Quartus® Prime Pro 16.1 早期测试版对 Stratix® V 和英特尔® Stratix® 10 进行对比。借助包含超级重定时、超级管线和超级优化 3 个步骤的优化流程对 Stratix® V 设计进行优化,以充分利用英特尔® Stratix® 10 架构中对内核结构中的分布式寄存器的增强。借助英特尔® Quartus® Prime Pro Fast Forward Compile 性能探查工具对设计进行分析。有关更多详细信息,请参考英特尔® HyperFlex™ FPGA 架构概述白皮书:https://www.altera.com/content/dam/altera-www/global/en_US/pdfs/literature/wp/wp-01220-hyperflex-architecture-fpga-socs.pdf。实际性能根据设计优化级别的不同而有所差异。在特定系统中对组件性能进行特定测试。硬件、软件或配置的任何差异都可能影响实际性能。当您考虑采购时,请查阅其他信息来源评估性能。如欲了解有关性能及性能指标评测结果的更完整信息,请访问 http://www.intel.cn/benchmark。
测试考评特定系统上具体测试中的组件性能。硬件、软件或配置的任何不同都可能影响实际性能。当您考虑购买时,请参考其他信息资源以评估产品性能。有关性能和性能指标测评结果的更完整信息,请访问 www.intel.cn/content/www/cn/zh/benchmarks/benchmark.html。
根据英特尔内部估算。
测试考评特定系统上具体测试中的组件性能。硬件、软件或配置的任何不同都可能影响实际性能。当您考虑购买时,请参考其他信息资源以评估产品性能。有关性能和性能指标测评结果的更完整信息,请访问 www.intel.cn/content/www/cn/zh/benchmarks/benchmark.html。
英特尔® 技术可能需要支持的硬件、软件或服务激活。
没有任何产品或组件能够做到绝对安全。
结果已被估计或模拟。您的成本和结果可能会有所不同。
© 英特尔公司。英特尔、英特尔标志和其他英特尔标识是英特尔公司或其子公司的商标。文中涉及的其它名称及商标属于各自所有者资产。