英特尔® AMX 助力腾讯优化 BERT 模型加速搜索应用

腾讯与英特尔对 BERT 的性能优化主要分为三个部分：第一部分是采用 Fusion 方案优化 BERT 模型，第二部分是利用特征密集优化降低不必要的性能开销，第三部分是利用英特尔® AMX 特性将模型中的 FP32 运算转化为 BF16/INT8 运算进行加速。通过大幅提升 BERT 模型的性能，英特尔助力腾讯在进一步节省 TCO 的同时，为海量用户带来更高的服务质量。

下载 PDF 文档