音频合成发展阶段

音频生成随着计算机技术的发展，逐渐形成了以“文本分析-声学模型-声码器”为基本结构的语音合成方法。

基于对这个结构部分模块的替代或优化，音频生成的关键技术大致经历了拼接合成阶段、参数合成阶段、端到端合成阶段三个时期。

1. 波形拼接语音合成

顾名思义，波形拼接法是通过对语句的音素、音节、单词等进行特征标注和切分之后，在已有的语音数据库中查找基本单位，拼接合成语音。

其背后需要录制大量的音频，尽可能覆盖全所有的音节、音素等，数据库中的录音量（样本）越多，最后合成的音频效果越好。

优点：基于真人录制的语音音质较好，听觉上比较真实。

缺点：拼接效果依赖于语音库的数据量，需要录制大量的语音才能保证覆盖率；字词的衔接过渡较为生硬，不够自然。

2. 参数语音合成技术

参数合成法是主要是通过数学方法对已有声音数据进行声学特征参数建模，构建文本序列映射到语音特征的映射关系，生成参数合成器。

训练好的模型对输入数据进行分词、断句、韵律分析等，映射出对应的声学特征，再由声学模型（声码器）合成音频。

优点：原始录音数据量小；字间协同过渡平滑，自然。

缺点：存在音质损失，没有波形拼接的好；机械感强，有杂音。

3. 端到端语音合成技术

端到端语音合成技术是目前最为主流的技术，通过神经网络学习的方法，采用编码器-注意力机制-解码器（Encoder-Attention-Decoder）的声学模型，实现直接输入文本或者注音字符。

中间为黑盒部分，最后输出频谱和声音波形合成音频，简化了复杂的语言分析部分和特征抽取过程。

端到端合成大大降低了对语言学知识的要求，可以实现多种语言的语音合成。通过端到端合成的音频，效果得到的进一步的优化，更加自然，趋近真人发声效果。

目前，语音生成领域应用广泛且效果优秀的产品均基于端到端合成框架实现的，模型性能和应用能力的提升使其逐渐成为主流。

优点：对语言学知识要求降低；合成的音频自然，趋近人声，效果好；同参数合成一样所需录音量小。

缺点：黑盒模型，合成的音频不能人为调优；复杂合成任务需要较多资源。

当前的开源模型在不断迭代更新，端到端合成目前比较火的有Tacotron2、Transformer-TTS、WavLM等模型。

导航菜单