组成声音的结构包括音素、音节、音位、语素等,音频生成是对这些基本单位进行预测和组合,通过频谱逼近或波形逼近的合成策略来生成对应的声音波形。
语音合成的本质是通过对于语句结构和关系的学习来预测其声学特征,还原声音波形的过程。语音+音频结合后才得到我们常见的歌曲、朗读等形态。
音频生成目前主要包括:根据文本合成语音(text-to-speech),进行不同语言之间的语音转换,音色克隆(Singing Voice Conversion),根据视觉内容(图像或视频)进行语音描述,以及生成旋律、音乐等。