音频合成效果指标

来自泡泡学习笔记
跳到导航 跳到搜索

1. MOS值

定义:找一些业内专家,对合成的音频效果进行打分,分值在1-5分之间,通过平均得到最后的分数。

这是一个相对主观的评分,没有具体的评分标准。根据个人对音色的喜好,对合成音频内容场景的掌握情况,以及对语音合成的了解程度是强相关的。

虽然mos值是一个比较主观的测试方式,但也有一些可评判的标准。例如在合成的音频中,多音字的读法、当前场景下数字的播报方式、英语的播报方式,以及在韵律方面,词语是否连在一起播报、应该重读的地方是否有重读、停顿的地方是否合理、音色是否符合应用于当前的这个场景。都可以在打分的时候做为得分失分的依据。


2. ABX测评

定义:熟知的AB测试,选择相同的文本以及相同场景下的音色,用不同的模型合成来对比哪个的效果较好,也是人为的主观判断。

但是具有一定的对比性,哪个模型更适合当前的场景,合成的效果更好。


3. 其他指标

围绕合成音频的可懂性、自然度、相似度。以中文为例,还有些指标包括PER(拼音-不包含声调-错误率,越低越好)、PTER(拼音-包含声调-错误率,越低越好)、Sim(与真人声音的相似度,越高越好)等。