更轻松地访问和转换模型
我们使模型转换变得更加轻松。
|
主题
|
详细信息
|
|
全新模型支持
|
- 在 CPU 和 GPU 上:Qwen3 VL
- CPU 支持的新模型:GPT-OSS 120B
|
| Llama.cpp 集成 |
- 预览:为 Llama.cpp 推出 OpenVINO 后端,支持在英特尔 CPU、GPU 和 NPU 上优化推理。已在 Llama-3.2-1B-Instruct-GGUF、Phi-3-mini-4k-instruct-gguf、Qwen2.5-1.5B-Instruct-GGUF 和 Mistral-7B-Instruct-v0.3 等 GGUF 模型上进行验证。
|
| 新笔记本电脑 |
- 统一 VLM 聊天机器人,支持视频文件,可在 Qwen3-VL、Qwen2.5-VL 和 LLaVa-NeXT-Video 之间进行交互式模型切换。
|
生成式 AI 和 LLM 增强功能
我们扩展了模型支持,并加快了推理。
|
主题
|
详细信息
|
|
生成式 AI 增强功能
|
- OpenVINO™ 生成式 AI 为图像和视频生成添加了 TaylorSeer Lite 缓存,可以加速 Flux、SD3 和 LTX-Video 管道中的 Diffusion Transformer 推理,并与 Hugging Face Diffusers 保持一致。
- OpenVINO™ 生成式 AI 通过 LLM 为 Qwen3-VL 和 VL 模型添加了动态 LoRA 支持,使开发人员能够在运行时更换适配器,以便在生产中高效地提供多个模型变体,而无需重新加载基础模型。
- 消除分词 ICU DLL 依赖项后,OpenVINO™ 生成式 AI 的运行时占用空间更小,从而减少内存使用、加快启动速度并简化部署。
- OpenVINO™ 生成式 AI 通过其 NPM 包为 Node.js 引入 WhisperPipeline,通过单词级音频到文本转录功能提供生产就绪型语音识别。
|
更高的便携性和性能
一次开发,随处部署。OpenVINO 支持开发人员在边缘、云端或本地或运行 AI。
|
主题
|
详细信息
|
| 英特尔硬件更新 |
- 推出对英特尔® 酷睿™ 处理器(第三代)和配备 32GB 内存的英特尔锐炫™ 专业版 B70 显卡的支持,以在 20–30B 参数 LLM 上进行单个 GPU 推理。
- 将 Prompt Lookup Decoding 扩展至视觉语言管道,从而显著加快英特尔 CPU 和 GPU 上的多模态工作负载的令牌生成速度。
|
|
模型服务器更新
|
- OpenVINO™ 模型服务器增强了对 Qwen3-MOE 和 GPT-OSS-20b 模型的支持,通过连续批处理提高性能、准确性和稳健的并发请求处理能力。Hugging Face 上提供这些预优化模型,以便轻松部署。此外,模型服务器还通过 /image 端点引入图像内绘和外绘功能,用于 AI 图像编辑。
|
| 视频生成性能优化 |
- 通过融合 RMSNorm 和 RoPE 算子,在 GPU 上生成 LTX-Video 可实现端到端加速,从而显著提高视频生成性能。
|
| ov::Model 更新 |
- 预览:面向 ov::Model 的 release-weights API 支持在 NPU 上编译模型期间回收内存,从而大幅降低边缘和客户端部署的峰值内存消耗。用户必须在 ov::Model 中设置此属性,以便在编译期间应用。
|