SoVITS自学
论文翻译
Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
用于端到端语音合成的条件变分自编码器与对抗学习
摘要
近年来,已有多种端到端的文本到语音(TTS)模型被提出,它们支持单阶段训练和并行采样,但其生成的语音质量仍不及传统的两阶段TTS系统。在本研究中,我们提出了一种并行的端到端TTS方法,其生成的语音比现有的两阶段模型更自然。我们的方法采用了结合正规化流(normalizing flows)的变分推断,并引入了对抗训练过程,从而提升了生成模型的表达能力。我们还提出了一种随机时长预测器(stochastic duration predictor),可以从输入文本中合成出节奏多样的语音。通过对潜在变量的不确定性建模以及随机时长预测器,我们的方法能够体现自然存在的“一对多”关系——即同一段文本可以以不同的语调和节奏被表达。我们在单说话人数据集LJ Speech上进行了主观人类评价(平均意见评分,MOS),结果显示我们的方法优于目前公开可用的最佳TTS系统,并且达到了与真实语音相当的MOS分数。
1. 引言
文本到语音(TTS)系统通过多个组件将给定文本合成为原始语音波形。随着深度神经网络的快速发展,除了文本预处理(如文本规范化和音素化)外,TTS系统的流程已简化为两阶段的生成建模。第一阶段是从预处理后的文本生成中间语音表示,如梅尔频谱图(Shen 等,2018)或语言特征(Oord 等,2016);第二阶段则是在这些中间表示的条件下生成原始波形(Oord 等,2016;Kalchbrenner 等,2018)。这两阶段中的模型通常是独立开发的。
基于神经网络的自回归TTS系统已显示出生成逼真语音的能力(Shen 等,2018;Li 等,2019),但其顺序生成过程限制了现代并行处理器的充分利用。为克服这一限制并提高合成速度,已经提出了若干非自回归方法。在从文本到频谱图的生成阶段,一些方法尝试从预训练的自回归教师网络中提取注意力图(Ren 等,2019;Peng 等,2020),以降低学习文本与频谱图对齐关系的难度。
最近,一些基于似然的方法更进一步地消除了对外部对齐器的依赖,通过估计或学习能最大化目标梅尔频谱图似然的对齐方式(Zeng 等,2020;Miao 等,2020;Kim 等,2020)。与此同时,生成对抗网络(GAN)(Goodfellow 等,2014)也被用于第二阶段模型的研究中。使用多个判别器的GAN型前馈网络——每个判别器在不同尺度或周期上区分样本——实现了高质量的原始波形合成(Kumar 等,2019;Bieńkowski 等,2019;Kong 等,2020)。
尽管并行TTS系统取得了一定进展,但两阶段流程仍存在问题,因为为了实现高质量的语音生成,后续阶段的模型需要使用前一阶段生成的样本进行顺序训练或微调(Shen 等,2018;Weiss 等,2020)。此外,它们依赖于预定义的中间特征,这限制了利用学习到的隐藏表示来进一步提升性能的可能性。
近年来,一些工作,如 FastSpeech 2s(Ren 等,2021)和 EATS(Donahue 等,2021),提出了高效的端到端训练方法,比如:
- 使用短音频片段替代整个波形进行训练,
- 引入梅尔频谱图解码器来辅助文本表示学习,
- 设计专门的频谱图损失函数,以缓解目标语音与生成语音之间的长度不匹配问题。
然而,尽管这些方法有可能通过学习到的表示提升性能,它们的合成质量仍然落后于两阶段系统。
在本研究中,我们提出了一种并行端到端TTS方法,能够生成比当前两阶段模型更自然的语音。我们使用变分自编码器(VAE)(Kingma 和 Welling,2014),通过潜在变量连接TTS系统的两个模块,从而实现高效的端到端学习。为了提升模型的表达能力,使其能够合成高质量语音波形,我们在条件先验分布中引入正规化流(normalizing flows),并在波形域中应用对抗训练。
除了生成精细语音之外,TTS系统还需具备表达一对多关系的能力,即同一文本输入可以以多种方式表达,如不同的音高和时长变化。为了解决这一问题,我们还提出了一个随机时长预测器(stochastic duration predictor),从输入文本中合成节奏多样的语音。通过对潜在变量建模不确定性以及引入随机时长预测器,我们的方法能够捕捉文本无法表示的语音变异性。
我们的模型在生成语音的自然度和采样效率方面,均优于当前公开最好的TTS系统——Glow-TTS(Kim 等,2020)配合 HiFi-GAN(Kong 等,2020)。我们已将演示页面和源码公开发布。