跳转至主要内容
支持知识库

为什么量化模型格式仍然是 FP32,而不是 INT8?

内容类型: 产品信息和文件   |   文章 ID: 000095064   |   上次审核日期: 2023 年 06 月 13 日

说明

  • 采用 FP32 精密格式量化 ONNX 模型。
  • 执行后期训练量化后运行 compress_model_weights 功能以减小箱文件的大小。
  • 编译了模型,并注意到模型的输出为 FP32,而不是 INT8。

解决方法

在量化过程中,只能对性能而言需要的操作进行量化。剩余运算在输出中仍为 FP32。

其他信息:

相关产品

本文适用于 3 产品。
英特尔® 至强融核™ 处理器软件 OpenVINO™ 工具包 性能函数库

免责声明

本页面上的内容是原始英文内容的人工翻译与计算机翻译的组合。我们提供此内容是为了您的便利并且仅供参考,未必完整或准确。如果本页面的英文版与翻译版之间存在任何冲突,应以英文版为准。 查看此页面的英语版本。