深度学习语音合成

深度学习语音合成用深度神经网络（DNN）从文本（TTS）或频谱（声码器）生成人工语音。DNN使用大量录制语音进行训练，若是TTS系统，则要使用相关标签和/或输入文本。

有些基于DNN的语音合成器已经接近人声的自然度。

表述编辑

给定输入文本或语言单位序列 $Y$ ，目标语音 $X$ 可如下求得

X=\arg \max P(X|Y,\theta )

其中 $\theta$ 是模型参数。

一般来说输入文本会先传给声学特征生成器，声学特征再传给神经声码器。对前者，损失函数通常是L1或L2损失，它们施加了约束条件：输出必须遵循高斯分布或拉普拉斯分布。在实际应用中，由于人声频率约在300到4000 Hz之间，因此损失函数会对这一范围有更多惩罚：

loss=\alpha {\text{loss}}_{\text{human}}+(1-\alpha ){\text{loss}}_{\text{other}}

其中 ${\text{loss}}_{\text{human}}$ 是人声频段的损耗， $\alpha$ 是0.5附近的标量。声学特征通常是梅尔刻度的时频谱，捕捉了语音信号的时域关系，因此足够输出智能输出。用于语音识别的梅尔倒频谱特征信息太少，不适合用于语音合成。

简史编辑

2016年9月，DeepMind推出了基于原始音频波形的深度生成模型WaveNet，证明基于深度学习的模型能对原始波形进行建模，并从时频谱梅尔时频谱等声学特征生成语音。WaveNet最初被认为计算成本高、速度慢，无法用于当时的消费类产品，但一年后，DeepMind推出了“并行WaveNet”，生成速度比原模型快一千倍。^[1]

2017 年初，Mila提出了char2wav （页面存档备份，存于互联网档案馆），一种以端到端方法生产原始波形的模型。同年，谷歌和Facebook分别推出了Tacotron （页面存档备份，存于互联网档案馆）和VoiceLoop （页面存档备份，存于互联网档案馆），直接从输入文本生成声学特征；几个月后，谷歌又提出了Tacotron2 （页面存档备份，存于互联网档案馆），将WaveNet声码器与修改后的Tacotron架构相结合，进行端到端语音合成。Tacotron2可以生成接近人声的高质量语音。那时起，端到端方法成了最热门的研究课题，世界各地的许多研究人员开始注意到端到端语音合成的强大性能。^[2]^[3]

半监督学习编辑

目前，自监督学习因能更好利用无标注数据而备受关注。研究表明，^[4]^[5]在自监督损失的帮助下，对配对数据的需求会减少。

零样本语者调适编辑

零样本语者调适很有前景，因为一个模型就能生成具有各种风格和特征的语音。2018年6月，谷歌提出使用预训练语者验证模型作为语者编码器，提取语者嵌入。^[6]然后，语者编码器成为神经TTS模型的一部分，可以确定输出语音的风格和特征。这表明，只用一个模型就能生成多种风格的语音。

神经声码器编辑

使用HiFi-GAN神经声码器的语音合成示例

在基于深度学习的语音合成中，神经声码器在根据声学特征生成高质量语音方面发挥重要作用。2016年提出的WaveNet模型在语音质量方面表现出色。Wavenet将波形 $\mathbf {x} =\{x_{1},...,x_{T}\}$ 的联合概率因子化为为条件概率的乘积，如下所示

$p_{\theta }(\mathbf {x} )=\prod _{t=1}^{T}p(x_{t}|x_{1},...,x_{t-1})$

其中 $\theta$ 是模型参数，包括许多扩张卷积层。因此，每个音频样本 $x_{t}$ 都以之前所有时间步的样本为条件。然而，WaveNet的自回归性质使得推理过程非常缓慢。为解决这个问题，提出了并行WaveNet^[7]，是一种基于逆自回归流的模型，通过知识蒸馏和预先训练好的教师WaveNet模型一起训练出来。由于这种模型在推理时不是自回归的，因此推理速度比实时推理更快。同时，Nvidia提出了基于流的WaveGlow^[8]模型，生成语音的速度也比实时模型快。不过，并行WaveNet虽然推理速度快，但也有需要预训练WaveNet模型的局限性，因此在计算设备有限的情况下，WaveGlow需要数周时间才能收敛。并行WaveGAN解决了这一问题，^[9]通过多分辨率频谱损失和GAN策略学习生成语音。

Synthesis example The Chaos (short version) synthesized by VITS, a research deep-learning-based end-to-end text-to-speech method, using the LJ Speech dataset.
播放此文件有问题？请参见媒體幫助。

参考文献编辑

^ 引证错误：没有为名为deepmind的参考文献提供内容
^ Hsu, Wei-Ning. Hierarchical Generative Modeling for Controllable Speech Synthesis. 2018. arXiv:1810.07217  [cs.CL].
^ Habib, Raza. Semi-Supervised Generative Modeling for Controllable Speech Synthesis. 2019. arXiv:1910.01709  [cs.CL].
^ Chung, Yu-An. Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis. 2018. arXiv:1808.10128  [cs.CL].
^ Ren, Yi. Almost Unsupervised Text to Speech and Automatic Speech Recognition. 2019. arXiv:1905.06791  [cs.CL].
^ Jia, Ye. Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis. 2018. arXiv:1806.04558  [cs.CL].
^ van den Oord, Aaron. Parallel WaveNet: Fast High-Fidelity Speech Synthesis. 2018. arXiv:1711.10433  [cs.CL].
^ Prenger, Ryan. WaveGlow: A Flow-based Generative Network for Speech Synthesis. 2018. arXiv:1811.00002  [cs.SD].
^ Yamamoto, Ryuichi. Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram. 2019. arXiv:1910.11480  [eess.AS].

[deepmind-1] 引证错误：没有为名为deepmind的参考文献提供内容

[2] Hsu, Wei-Ning. Hierarchical Generative Modeling for Controllable Speech Synthesis. 2018. arXiv:1810.07217  [cs.CL].

[3] Habib, Raza. Semi-Supervised Generative Modeling for Controllable Speech Synthesis. 2019. arXiv:1910.01709  [cs.CL].

[4] Chung, Yu-An. Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis. 2018. arXiv:1808.10128  [cs.CL].

[5] Ren, Yi. Almost Unsupervised Text to Speech and Automatic Speech Recognition. 2019. arXiv:1905.06791  [cs.CL].

[6] Jia, Ye. Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis. 2018. arXiv:1806.04558  [cs.CL].

[7] van den Oord, Aaron. Parallel WaveNet: Fast High-Fidelity Speech Synthesis. 2018. arXiv:1711.10433  [cs.CL].

[8] Prenger, Ryan. WaveGlow: A Flow-based Generative Network for Speech Synthesis. 2018. arXiv:1811.00002  [cs.SD].

[9] Yamamoto, Ryuichi. Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram. 2019. arXiv:1910.11480  [eess.AS].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

深度学习语音合成

表述 编辑

简史 编辑

半监督学习 编辑

零样本语者调适 编辑

神经声码器 编辑

参考文献 编辑