主要观点总结
本文主要介绍了AI语音技术的最新进展,通过测试多款AI语音模型在直播带货、语音陪伴、有声书等不同场景的表现,发现AI语音在情感传达和场景适配方面仍有待提升。文章还提到了AI语音生成技术的广泛应用和未来发展前景。
关键观点总结
关键观点1: AI语音模型在情感表达上仍有不足,但有一定进步
通过测试多款AI语音模型在特定场景的表现,发现它们在情感传达上仍有困难,尤其是在复杂情感和需要强烈情感表达的场景中。但与上次测试相比,AI语音在情感表达方面有一定进步。
关键观点2: AI语音模型在场景适配方面有待提升
在直播带货、语音陪伴、有声书等场景中,AI语音模型的表现参差不齐。虽然一些模型在情感传达方面合格,但与真实场景的适配性较差,尤其是在需要强烈情感表达的场景中。
关键观点3: 工程化设计对AI语音模型的表现有影响
除了模型本身,工程化设计也是影响AI语音模型表现的重要因素。一些模型通过更丰富的情感标签和工程优化,在特定场景中表现更好。
关键观点4: AI语音生成技术广泛应用,未来前景广阔
AI语音生成技术已广泛应用于各个领域,如AI陪伴、直播带货等。随着技术不断发展,AI语音生成将开拓出更丰富的落地应用场景,未来前景广阔。
正文
用作客观测试的标准|图片来源:modelscope
在生成测试音频后,会先使用阿里推出的开源语音理解模型 SenseVoice(在 modelscope 平台上使用)进行客观测试,输出符合预设即为通过。然后,再邀请编辑部的 5 位同事进行主观评测,测评者将针对 AI 的表现进行 1-5 分的评分,平均分超过 3 才算及格。
注 1:受试产品(模型)中,MiniMax、DubbingX、ElevenLabs、Sesame 均通过各自官网生成测试语音,阿里的 CosyVoice2 由于是开源模型,所以使用接入了 CosyVoice2 的第三方平台“书梦”。
注 2:由于对 ElevenLabs、Sesame 预测试中,这两款模型在中文场景的表现较差,所以我们在有声书场景设计了英文测试,专门测试这两款产品的表现。
上次针对《甄嬛传》的测试中,各模型在“高兴”情绪的表现相对好,“愤怒、悲伤”两个情绪中比较拉胯。所以,本次在有声书场景的测试中,我们用水浒传中两大知名桥段,“林教头风雪山神庙”和“武松哭兄”中最具情感张力的桥段改写成有声书的形式,来测试各 AI 模型分别在“愤怒”和“悲伤”情绪中的表现。
愤怒情绪测试内容:高衙内!你欺人太甚!我林冲纵是个教头,也不是你们这等宵小欺辱的!我忍你三分,是敬你权势;你再敢污我清白、害我性命,今日,我便与你拼了!
悲伤情绪测试内容:哥哥!你死得好惨啊!你这一生忍气吞声、辛苦操劳,结果却落得被人害死,连个说理的地方都没有!我武松一定为哥哥报仇!
注:分数标注红色的即为模型通过测试
从结果看,愤怒情绪当中,三款产品都通过了客观测试,主观测试中也仅有 CosyVoice2 的平均分低于三分,而从海螺、DubbingX 两款模型表现看,笔者认为是显著优于上一次测试的,这两款模型都能将林冲层层递进的愤怒情绪还原出来,虽然与真人仍有差距,但应该已经到了“能用”的地步了。读者们也可以自己听一听几款产品的表现,来给他们打打分。
悲伤场景中,笔者选择了武松在哥哥墓前的一段自白,情绪上前半段偏向于伤心,后半段悲伤+愤怒,算是拥有复合情感的片段。但在这个片段中,仅有 DubbingX 能够在这个场景里达到及格的水平,之前表现一贯很好的 MiniMax 甚至都没有通过客观测试。
DubbingX 能表现得相对优秀,可能得益于它在情绪方面的深度优化,其他产品的情感标签无外乎是高兴、悲伤、愤怒等粗颗粒度的情感,而 DubbingX 则在大情感分类下,还有适配不同小场景的情绪标签,专门针对复合情感的场景。在这类场景中,DubbingX 的表现显然会更好。
而在英文场景中,我们选择了《基督山伯爵》中,主角得知自己被陷害入狱后,内心愤怒,并渴望复仇的一段独白。
“Fourteen years—trapped in that dungeon, freezing, starving, forgotten. I whispered your name in the dark, Mercedes. I begged for justice. And now, I will have my revenge. No mercy. No forgiveness. Only justice—my way.”