查看“音频合成发展阶段”的源代码
←
音频合成发展阶段
跳到导航
跳到搜索
因为以下原因,您没有权限编辑本页:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
音频生成随着计算机技术的发展,逐渐形成了以“文本分析-声学模型-声码器”为基本结构的语音合成方法。 基于对这个结构部分模块的替代或优化,音频生成的关键技术大致经历了拼接合成阶段、参数合成阶段、端到端合成阶段三个时期。 1. 波形拼接语音合成 顾名思义,波形拼接法是通过对语句的音素、音节、单词等进行特征标注和切分之后,在已有的语音数据库中查找基本单位,拼接合成语音。 其背后需要录制大量的音频,尽可能覆盖全所有的音节、音素等,数据库中的录音量(样本)越多,最后合成的音频效果越好。 优点:基于真人录制的语音音质较好,听觉上比较真实。 缺点:拼接效果依赖于语音库的数据量,需要录制大量的语音才能保证覆盖率;字词的衔接过渡较为生硬,不够自然。 2. 参数语音合成技术 参数合成法是主要是通过数学方法对已有声音数据进行声学特征参数建模,构建文本序列映射到语音特征的映射关系,生成参数合成器。 训练好的模型对输入数据进行分词、断句、韵律分析等,映射出对应的声学特征,再由声学模型(声码器)合成音频。 优点:原始录音数据量小;字间协同过渡平滑,自然。 缺点:存在音质损失,没有波形拼接的好;机械感强,有杂音。 3. 端到端语音合成技术 端到端语音合成技术是目前最为主流的技术,通过神经网络学习的方法,采用编码器-注意力机制-解码器(Encoder-Attention-Decoder)的声学模型,实现直接输入文本或者注音字符。 中间为黑盒部分,最后输出频谱和声音波形合成音频,简化了复杂的语言分析部分和特征抽取过程。 端到端合成大大降低了对语言学知识的要求,可以实现多种语言的语音合成。通过端到端合成的音频,效果得到的进一步的优化,更加自然,趋近真人发声效果。 目前,语音生成领域应用广泛且效果优秀的产品均基于端到端合成框架实现的,模型性能和应用能力的提升使其逐渐成为主流。 优点:对语言学知识要求降低;合成的音频自然,趋近人声,效果好;同参数合成一样所需录音量小。 缺点:黑盒模型,合成的音频不能人为调优;复杂合成任务需要较多资源。 当前的开源模型在不断迭代更新,端到端合成目前比较火的有Tacotron2、Transformer-TTS、WavLM等模型。
返回至“
音频合成发展阶段
”。
导航菜单
个人工具
登录
命名空间
页面
讨论
大陆简体
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
基础知识
正则表达式
Markdown
分布式
项目管理
系统集成项目管理基础知识
云原生
Docker
云原生安全
云原生词汇表
十二因素应用
Kubernetes
音频处理
音频合成
Edge-tts
CMS系统
Docsify
VuePress
Mediawiki
自动生成
Marp
CI/CD
GitLab
设计
颜色
平面设计
AI
数字人
操作系统
GNU/Linux
数据库
Mysql
工具
链入页面
相关更改
特殊页面
页面信息