介绍
此软件包包含适用于 Linux*、Windows* 和 macOS* 的OpenVINO™工具套件软件版本 2024.1 的英特尔® Distribution。
可供下载
- CentOS 7 (1908)*
- 大小:51.2 MB
- SHA256:8F1D8B7D51DD8364BEB330B8364C8C98B15AE70164E5D2843C6D0D71375B83FD
- Debian Linux*
- 大小:25 MB
- SHA256:916C33CA6902665F62DE80F25309E0B5BDC252225DA33213164C8E2000ABF035
- Red Hat Enterprise Linux 8*
- 大小:44.3 MB
- SHA256:A6EB3A623B1AEB252A10AC57AAD118871E2907B87C4DBE318CAEBC04519C7B5B
- Ubuntu 18.04 LTS*
- 大小:44.3 MB
- SHA256:BAC6A147EBD6D32A9E097C56652553663191FD5D784E5C11EE16A8D3C35A0718
- Ubuntu 20.04 LTS*
- 大小:47.2 MB
- SHA256:F6DAF300D235458B22A03789F8CB4BC81CA9108A0B72C18480090B4EF84BF751
- Ubuntu 20.04 LTS*
- 大小:33.3 MB
- SHA256:7B8A88ACC9EF8E65E6B896D4BE4BCCCB9FEE7AC19FC20C62B4F99DB18BF15084
- Ubuntu 22.04 LTS*
- 大小:48.3 MB
- SHA256:69F15878F54D7B61EB54EB5B2631741F147E85383539F5436A6672FB07C459D2
- macOS*
- 大小:126.4 MB
- SHA256:4FEB824F610D65D8218183D3453C8DA6DB5EA641F858B5CB98413B675554898F
- macOS*
- 大小:30.8 MB
- SHA256:6997E398DC14F0E52B7A286374CC7A02FE6B3285CE52E2F6324FB5D928050A95
- Windows 11*, Windows 10, 64-bit*
- 大小:99.1 MB
- SHA256:4EE0C4036C91A3C1423C14F47E31B5B4C15082A6CFF3A5B7A63CF12DA39B70E6
详细说明
新增内容
覆盖更多人工智能世代和框架集成,最大限度地减少代码更改。
- 针对英特尔® 至强®处理器的性能提升而优化的 Mixtral* 和 URLNet* 模型。
- 稳定 Diffusion* 1.5、ChatGLM3-6B* 和 Qwen-7B* 模型经过优化,可提高采用集成 GPU 的 英特尔® Core™ Ultra 处理器的推理速度。
- 支持 Falcon-7B-Instruct*,一款具有卓越性能指标的 GenAI 大型语言模型 (LLM) 即用型聊天/指导模型。
- 新增 Jupyter* Notebook:YOLO V9*、YOLO V8* 定向边界框检测 (OOB)、Stable Diffusion in Keras*、MobileCLIP*、RMBG-v1.4* 背景去除、Magika*、TripoSR*、AnimateAny*、LLaVA-NeXT* 以及采用 OpenVINO™ 和 LangChain* 的 RAG 系统。
更广泛的LLM模型支持和更多的模型压缩技术。
- 通过压缩嵌入的额外优化减少了 LLM 编译时间。改进了 LLM 在第 4 代和第 5 代具有英特尔® Advanced Matrix Extensions (英特尔® AMX) 的 英特尔® 至强® 处理器上的第一个令牌性能。
- 使用 oneDNN、INT4 和 INT8 对 英特尔® Arc™ GPU 的支持,实现更好的 LLM 压缩和性能提升。
- 在采用集成 GPU 的 英特尔® Core™ Ultra 处理器上,对部分较小的 GenAI 模型的内存显著减少。
更高的可移植性和性能,可在边缘、云端或本地运行人工智能。
- 除了 PyPI* 上的主 OpenVINO包外,英特尔® Core™ Ultra 处理器的预览版 NPU 插件现在已在OpenVINO开源 GitHub* 存储库中提供。
- 现在可以通过 npm 存储库更轻松地访问 JavaScript* API,从而使 JavaScript 开发人员能够无缝访问 OpenVINO API。
- ARM* 处理器上的 FP16 推理现在默认为卷积神经网络 (CNN) 启用。
OpenVINO™ 运行时
常见
- Windows* 现在支持缓存模型的 Unicode 文件路径。
- 填充预处理 API,用于使用常量在边缘扩展输入张量。
- 修复了某些图像生成模型的推理失败(转换后的融合 I/O 端口名称)。
- 编译器的“错误警告”选项现已启用,改进了编码标准和质量。不允许对新 OpenVINO 代码生成警告,并且现有警告已修复。
自动推理模式
- 现在支持从 ov::CompiledModel 返回 ov::enable_profiling 值。
CPU 设备插件
- LLM 的第 1 代令牌性能在第 4 代和第 5 代具有英特尔® Advanced Matrix Extensions (英特尔® AMX) 的英特尔® 至强®处理器上得到了改进。
- 通过压缩嵌入的额外优化,LLM 编译时间和内存占用空间得到了改善。
- MoE(如Mixtral),Gemma*和GPT-J的性能进一步提高。
- ARM 设备上的各种型号的性能已显著提高。
- FP16 推理精度现在是 ARM 设备上所有类型模型的默认精度。
- 已实施与 CPU 架构无关的构建,以便在不同的 ARM 设备上实现统一的二进制分发。
GPU 设备插件
- LLM 首个令牌延迟在集成和独立 GPU 平台上都得到了改进。
- 对于 ChatGLM3-6B* 模型,集成 GPU 平台上的平均令牌延迟已得到改善。
- 为实现稳定扩散 1.5 FP16 精度,英特尔® Core™ Ultra处理器的性能已得到提升。
NPU 设备插件
- NPU 插件现在是 OpenVINO GitHub 存储库的一部分。所有最新的插件更改都将在存储库中立即可用。请注意,NPU 是英特尔® Core™ Ultra处理器的一部分。
- 添加了新OpenVINO™笔记本“Hello,NPU!”,其中介绍了 NPU 与 OpenVINO 的用法。
- Microsoft Windows® 11 64 位需要 22H2 或更高版本才能在 NPU 上运行推理。
OpenVINO Python* API
- 现在使用 RemoteTensors 的免 GIL 创建 - 持有 GIL 意味着该进程不适合多线程,删除 GIL 锁将提高性能,这对于 RemoteTensors 的概念至关重要。
- 增加了 Python API 级别的紧缩数据类型 BF16,为支持 NumPy* 未处理的数据类型开辟了新途径。
- 增加了对 ov::p reprocess::P rePostProcessorItem 的 'pad' 运算符支持。
- Ov。提供了 PartialShape.dynamic(int) 定义。
OpenVINO C API
- 添加了两个新的用于缩放和平均值的预处理 API。
OpenVINO Node.js API
- 增加了使 JavaScript API 与 cpp API 保持一致的新方法,例如 CompiledModel.exportModel()、core.import_model()、Core set/get 属性和 Tensor.get_size() 和 Model.is_dynamic()。
- 文档已扩展,以帮助开发人员开始将 JavaScript 应用程序与 OpenVINO™ 集成。
TensorFlow 框架支持
- 现已支持 tf.keras.layers.TextVectorization tokenizer。
- 改进了使用变量和哈希表(字典)资源的模型的转换。
- 添加了 8 个新操作(请参阅此处的列表,标记为 NEW)。
- 10 个操作获得了复杂张量支持。
- TF1 模型的输入张量名称已调整为每个输入一个名称。
- Hugging Face* 模型支持覆盖范围显著扩大,原因如下:
- 内存中模型的输入签名提取已得到修复,
- 内存中模型变量值的读取已得到修复。
PyTorch* 框架支持
- 现在已支持 PyTorch 模型的新型扩展 ModuleExtension (PR #23536)。
- 添加了 22 个新操作。
- 增加了对 torch.export(FX graph)生成的模型的实验性支持 (PR #23815)。
OpenVINO 模型服务器
- 现在使用的OpenVINO™运行时后端是 2024.1
- 支持输出时数据类型为 String 数据类型的OpenVINO™模型。现在,OpenVINO™模型服务器可以支持输入和输出为 String 类型的模型,因此开发人员可以利用模型内置的标记化作为第一层。开发人员还可以依靠嵌入到仅返回文本的模型中的任何后处理。使用通用句子编码器模型和字符串输出模型查看有关字符串输入数据的演示。
- MediaPipe* Python 计算器已更新为支持所有相关配置和 Python 代码文件的相对路径。现在,完整的图形配置文件夹可以部署在任意路径中,而无需更改任何代码。
- KServe* REST API 支持已扩展为可以正确处理 JSON 正文中的字符串格式,就像与 NVIDIA Triton* 兼容的二进制格式一样。
- 添加了展示完全委派给模型服务器的完整 RAG 算法的演示。
神经网络压缩框架
- 现在可以在 INT8 训练后量化 (nncf.quantize() 的忽略范围内定义模型子图,这可以简化从量化中排除精度敏感层的过程。
- INT8 训练后量化现在部分支持超过 1 的批次大小,从而加快了流程。请注意,不建议对基于转换器的模型执行此操作,因为这可能会影响精度。下面是一个 示例演示。
- 现在可以在训练后量化后对 INT8 模型进行微调,以提高模型准确度,并更容易从训练后量化过渡到训练感知量化。下面是一个 示例演示。
OpenVINO词计算器
- 扩展了 TensorFlow 支持 - 文本矢量化层翻译:
- 将现有操作与 TF 操作对齐,并为其添加了转换器。
- 增加了新的粗糙张量运算和字符串运算。
- 现在支持 RWKV 这一新的分词器类型:
- 为参差不齐的张量添加了 Trie 分词器和 Fuse op。
- 获取 OV 分词器的新方法:从文件构建词汇。
- 标记器缓存经过重新设计,可与 OpenVINO™ 模型缓存机制配合使用。
其他更改和已知问题
Jupyter 笔记本
OpenVINO™笔记本存储库的默认分支已从“主”更改为“最新”。笔记本存储库的“主”分支现已弃用,将保留到 2024 年 9 月 30 日。
新分支“latest”提供了更好的用户体验,并通过重大重构和改进的目录命名结构简化了维护。
使用本地 README.md 文件和 GitHub Pages 上的OpenVINO™笔记本在内容中导航。
以下笔记本已更新或新添加:
- 接地段任何东西
- 使用 MobileCLIP 进行视觉内容搜索
- YOLO V8 导向边界框检测优化
- Magika:AI 驱动的快速高效的文件类型识别
- Keras 稳定扩散
- RMBG 背景去除
- AnimateAny:将引导图像摆成视频生成姿势
- LLaVA-Next 视觉语言助手
- TripoSR:单张图像 3D 重建
- 采用 OpenVINO 和 LangChain 的 RAG 系统
已知问题
组件 - CPU 插件
ID - 不适用
描述:
Windows 上的默认 CPU 固定策略已更改为遵循 Windows 的策略,而不是控制 OpenVINO 插件中的 CPU 固定。这在 Windows 上带来了一定的动态或性能差异。开发人员可以使用 ov::hint::enable_cpu_pinning 来显式启用或禁用 CPU 固定。
组件 - 硬件配置
ID - 不适用
描述:
在较新的 CPU 上可能会观察到 LLM 的性能降低。为了缓解这种情况,请修改 BIOS 中的默认设置,将系统更改为 2 NUMA 节点系统:
1. 进入 BIOS 配置菜单。
2. 选择 EDKII 菜单 -> 插槽配置 -> 非内核配置 -> 非内核通用配置 -> SNC。
3. SNC 设置默认设置为 自动 。将 SNC 设置更改为 禁用 ,以在引导时为每个处理器插槽配置一个 NUMA 节点。
4. 系统重启后,使用 numatcl -H 确认 NUMA 节点设置。预计在 a 上只能看到节点 0 和 1
具有以下映射的双插槽系统:
节点 - 0 - 1
0 - 10 - 21
1 - 21 - 10
系统要求
免责 声明。 某些硬件(包括但不限于 GPU 和 NPU)需要手动安装特定驱动程序和/或其他软件组件才能正常工作和/或发挥最佳硬件功能。这可能需要更新操作系统,包括但不限于 Linux 内核,有关详细信息,请参阅其文档。这些修改应由用户处理,不属于OpenVINO安装的一部分。这些修改应由用户处理,不属于OpenVINO安装的一部分。有关系统要求,请查看“发行说明”中的“系统要求”部分。
安装说明
您可以根据操作系统选择如何安装运行时OpenVINO™:
下载程序包中的内容
- OpenVINO™ C/C++ 的运行时/推理引擎
有用的链接
注意: 链接在新窗口中打开。
此下载对下面列出的产品有效。
免责声明1
产品和性能信息
英特尔正在从当前文档、用户界面和代码中移除非包容性语言。请注意,有些更改可能不具追溯力,某些非包容性语言可能仍存留在旧的文档、用户界面和代码中。
本页面上的内容是原始英文内容的人工翻译与计算机翻译的组合。我们提供此内容是为了您的便利并且仅供参考,未必完整或准确。如果本页面的英文版与翻译版之间存在任何冲突,应以英文版为准。 查看此页面的英语版本。