查看“音频合成效果指标”的源代码

1. MOS值

定义：找一些业内专家，对合成的音频效果进行打分，分值在1-5分之间，通过平均得到最后的分数。

这是一个相对主观的评分，没有具体的评分标准。根据个人对音色的喜好，对合成音频内容场景的掌握情况，以及对语音合成的了解程度是强相关的。

虽然mos值是一个比较主观的测试方式，但也有一些可评判的标准。例如在合成的音频中，多音字的读法、当前场景下数字的播报方式、英语的播报方式，以及在韵律方面，词语是否连在一起播报、应该重读的地方是否有重读、停顿的地方是否合理、音色是否符合应用于当前的这个场景。都可以在打分的时候做为得分失分的依据。


2. ABX测评

定义：熟知的AB测试，选择相同的文本以及相同场景下的音色，用不同的模型合成来对比哪个的效果较好，也是人为的主观判断。

但是具有一定的对比性，哪个模型更适合当前的场景，合成的效果更好。


3. 其他指标

围绕合成音频的可懂性、自然度、相似度。以中文为例，还有些指标包括PER（拼音-不包含声调-错误率，越低越好）、PTER（拼音-包含声调-错误率，越低越好）、Sim（与真人声音的相似度，越高越好）等。