SAYINT & 英特尔
面向神经网络文本转语音技术的优化

  • Tech Mahindra 与英特尔合作开发了以 Tacotron2 和 Fastspeech2 作为特征生成网络,Waveglow 作为声码器的模型架构。这些架构能在推理期间兼顾合成语音质量和实时率。所有模型架构均利用 PyTorch 实现。测试结果显示,在推理阶段,与基于原生 PyTorch 的模型相比,基于英特尔® Extension for PyTorch 的模型在 Tacotron2+Waveglow 和 Fastspeech2+Waveglow 的两种组合上分别实现了高达 2.7 倍和 1.75 倍的性能提升,且不影响语音质量。

author-image

作者

引言

自然、悦耳的语音响应是对话式 AI 系统不可或缺的一部分。虽然传统的单元选择或统计参数文本转语音 (TTS) 系统将提供的文本转换为语音的时延较低,但转换的语音听起来并不自然。而基于深度学习的 TTS 系统在生成自然的语音输出方面要好得多,但时延非常高,或者需要专门的硬件才能实现。

本白皮书总结了 Sayint 和英特尔团队基于英特尔的消费级桌面平台和服务器平台为上述工作负载带来的性能提升。

Sayint 平台概述

Sayint 是 Tech Mahindra 公司推出的对话式 AI 平台,利用自然语言处理 (NLP) 技术与客户进行对话式互动,以实现业务流程和功能自动化,同时提供个性化的客户体验。

采用 TTS 模型的深度学习方法

典型的神经网络文本转语音 (TTS) 模型由特征生成网络(将文本符号转换为梅尔频谱)和声码器(通过梅尔频谱合成时域音频)组成。近期提出的一些主要的特征生成网络架构包括 Tacotron2、Deepvoice3、Fastpitch、Fastspeech2 等,而声码器架构包括 Waveglow、WaveRNN、LPCNet 等。

我们的评估基于 Tacotron2 和 Fastspeech2 作为特征生成网络,Waveglow 作为声码器。所有这些架构均利用 pytorch 工具包来实现。选择这些网络架构的主要原因是,这些架构能在推理期间兼顾合成语音质量和实时率 (RTF)。特征生成网络和声码器的主要端到端组合如下:

1. Tacotron2+Waveglow 

2. FastSpeech2+Waveglow

模型架构概述

Tacotron2:

Tacotron2 是一个自回归序列到序列特征生成网络,可将字符嵌入映射到梅尔标度频谱。它属于位置敏感型的基于 attention 的模型,能学习梅尔频谱和字符嵌入之间的 attention 映射。(https://arxiv.org/pdf/1712.05884.pdf)

FastSpeech2:

FastSpeech2 是一种非自回归 TTS 模型,使用基于 transformer 的架构直接将字符映射到梅尔频谱,并将音高、音量和时长等多种可变信息作为除文本信息之外的条件输入。Fastspeech2 是 Fastspeech 的改进版。后者属于基于教师-学生模型的知识蒸馏管道,训练时间比 FS2 更长。(https://arxiv.org/abs/2006.04558

Waveglow:

Waveglow 是一种基于流的网络,用于从梅尔频谱合成高品质的时域音频。它结合了 Glow 和 Wavenet 模型架构的思路,以提供快速、高效和高质量的音频合成。Waveglow 一般推荐使用 GPU 配置,其在 GPU 上的推理是实时的,但借助面向英特尔® 架构的优化技术,我们在 CPU 上也实现了实时推理。(https://arxiv.org/abs/1811.00002)

面向英特尔® 架构的优化方法和性能结果

所有模型架构均利用 PyTorch 实现。我们比较了 Tacotron2 和 Fastspeech2 模型的性能,两者在原生 PyTorch 和英特尔® Extension for PyTorch (IPEX) 中都将 Waveglow 作为语音生成器。测试在第三代 (8380) 处理器上进行。我们发现,在推理阶段,与基于原生 PyTorch 的模型相比,基于 IPEX 的模型在 Tacotron2+Waveglow 和 Fastspeech2+Waveglow 的两种组合上分别实现了高达 2.7 倍和 1.75 倍的性能提升。利用 IPEX 实现了加速,且不影响语音质量。

配置详情


■    硬件配置

- CPU:英特尔® 至强® 8380 - 双路
- 测试时间:2021 年 8 月 20 日

■    软件配置

PyTorch v1.7 与英特尔® PyTorch Extension 1.2

■    测试配置

测试在基于第三代英特尔® 至强® 可扩展处理器的托管服务器上进行。

  • Linux* OS: Ubuntu* 18.04 LTS
  • 服务器硬件:S2600WF、480 GB 启动驱动、256 GB RAM、英特尔® 至强® 铂金 8380 处理器(双路服务器,每路 40 核,80 个 vCore,2.3 GHz) 
  • 英特尔® 至强® 处理器使用 SE5C6200.86B.0022.D08.2103221623 BIOS,并符合 Spectre/Meltdown 标准
  • 主访问 – 10 GbE 网络连接

结论

对话式 AI 解决方案必须让用户感觉自然且响应迅速,才能真正发挥作用。能够以自然的声音做出响应是理想的对话式 AI 解决方案的重要功能。虽然统计参数 TTS 系统响应迅速,但其输出的语音不够自然。当前基于深度学习的文本转语音 (TTS) 系统可以提供自然的声音,但往往需要密集的算力,并且要求 GPU 能够以 > 1 的实时率提供 TTS 输出。

通过与英特尔合作,我们成功开发了面向对话式 AI 的 TTS 解决方案,该解决方案甚至达到了比实时更快的速度,并且能在从入门级桌面处理器到英特尔® 至强® 可扩展架构的广泛英特尔® 解决方案中实现扩展。这使现有的交互式语音应答 (IVR) 系统无需投资专门的深度学习硬件解决方案即可在其当前运行的英特尔®  平台上实现更自然的声音。

适用的解决方案

基于对话式 AI 的 Sayint 语音助手可利用 TTS 系统以自然的声音回复客户并与之交谈。以下是部分将使用该 TTS 系统的解决方案:

●    用于分析财务报表的多语言语音助手 

Sayint 语音助手可帮助 CXO 通过神经语音从各类财务报表(如资产负债表和损益表)中获取洞察,还能分地区、财政年度和季度筛选数据,并将结果导出为 Word、Excel、PDF 文件。

●    支持自动化电商体验的多语言语音助手 

Sayint 语音助手可在整个购买或订购过程中以自然的声音与客户交互,提升客户购买体验,减少客户决定时间,从而帮助提高客户满意度并节省服务成本。

●    变革汽车采购 (ETBR) 流程的多语言语音助手 

Sayint 对话机器人可帮助客户根据自己的喜好选择车辆、预约试驾、提供试驾协助,并以类似人类的自然声音与客户对话,收集他们的反馈信息。收集到的洞察可用于帮助销售主管提供个性化的服务,从而促进提高销售额。

●    支持 IT 服务管理/电信/客服实现客户咨询自动化响应的会话语音助手 

Sayint 语音机器人可全天候响应客户咨询,并以自然的声音与客户交谈,从而减少客户的周转时间并提高客户满意度。


您可通过以下网站从解决方案目录中进一步了解上述解决方案: 

https://builders.intel.com/ai/solutionscatalog/tech-mahindra-sayint-conversational-ai-platform-799

https://builders.intel.com/ai/solutionscatalog/tech-mahindra-sayint-e-commerce-voice-assistant-764

通过会话获取智慧洞察

了解 Sayint 可如何为您带来全新客户体验,请联系:

Nitin Somalaraju(
Sayint 产品经理)
NS00692375@TechMahindra.com
移动电话:+91.9966241108

以下人员共同参与了该解决方案的开发:

•    Anand Joseph https://www.linkedin.com/in/anand-joseph
•    Sagar Raikar https://www.linkedin.com/in/raikarsagar/
•    Kannan Keeranam https://www.linkedin.com/in/kannankeeranam/
•    Imran Sheik Monhamed https://www.linkedin.com/in/sheikmohdimran
•    Nitin Somalaraju https://www.linkedin.com/in/nitinsomalaraju/