查看“音频合成效果指标”的源代码
←
音频合成效果指标
跳到导航
跳到搜索
因为以下原因,您没有权限编辑本页:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
1. MOS值 定义:找一些业内专家,对合成的音频效果进行打分,分值在1-5分之间,通过平均得到最后的分数。 这是一个相对主观的评分,没有具体的评分标准。根据个人对音色的喜好,对合成音频内容场景的掌握情况,以及对语音合成的了解程度是强相关的。 虽然mos值是一个比较主观的测试方式,但也有一些可评判的标准。例如在合成的音频中,多音字的读法、当前场景下数字的播报方式、英语的播报方式,以及在韵律方面,词语是否连在一起播报、应该重读的地方是否有重读、停顿的地方是否合理、音色是否符合应用于当前的这个场景。都可以在打分的时候做为得分失分的依据。 2. ABX测评 定义:熟知的AB测试,选择相同的文本以及相同场景下的音色,用不同的模型合成来对比哪个的效果较好,也是人为的主观判断。 但是具有一定的对比性,哪个模型更适合当前的场景,合成的效果更好。 3. 其他指标 围绕合成音频的可懂性、自然度、相似度。以中文为例,还有些指标包括PER(拼音-不包含声调-错误率,越低越好)、PTER(拼音-包含声调-错误率,越低越好)、Sim(与真人声音的相似度,越高越好)等。
返回至“
音频合成效果指标
”。
导航菜单
个人工具
登录
命名空间
页面
讨论
大陆简体
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
基础知识
正则表达式
Markdown
分布式
项目管理
系统集成项目管理基础知识
云原生
Docker
云原生安全
云原生词汇表
十二因素应用
Kubernetes
音频处理
音频合成
Edge-tts
CMS系统
Docsify
VuePress
Mediawiki
自动生成
Marp
CI/CD
GitLab
设计
颜色
平面设计
AI
数字人
操作系统
GNU/Linux
数据库
Mysql
工具
链入页面
相关更改
特殊页面
页面信息