专栏名称: 白鲸出海
白鲸出海,泛互联网出海服务平台,白鲸专注于具备互联网属性的行业、公司、产品和服务的出海,包括应用、游戏、电商、区块链、智能手机及硬件、旅游、网络文学、影视、动漫、教育、体育和金融等。
目录
相关文章推荐
百度智能云  ·  AI圈也迎来高考?看看这位学霸成绩单… ·  18 小时前  
白鲸出海  ·  半年冲刺500万美元ARR,华裔00后打造永 ... ·  19 小时前  
白鲸出海  ·  Cursor完成9亿美元融资,创维联合研发的 ... ·  19 小时前  
白鲸出海  ·  MiniMax登顶、多家创企融资,AI语音离 ... ·  昨天  
海外独角兽  ·  5 万行代码 Vibe Coding ... ·  昨天  
51好读  ›  专栏  ›  白鲸出海

MiniMax登顶、多家创企融资,AI语音离“现实场景”还有多远?

白鲸出海  · 公众号  · 科技公司  · 2025-06-05 22:01

主要观点总结

本文主要介绍了AI语音技术的最新进展,通过测试多款AI语音模型在直播带货、语音陪伴、有声书等不同场景的表现,发现AI语音在情感传达和场景适配方面仍有待提升。文章还提到了AI语音生成技术的广泛应用和未来发展前景。

关键观点总结

关键观点1: AI语音模型在情感表达上仍有不足,但有一定进步

通过测试多款AI语音模型在特定场景的表现,发现它们在情感传达上仍有困难,尤其是在复杂情感和需要强烈情感表达的场景中。但与上次测试相比,AI语音在情感表达方面有一定进步。

关键观点2: AI语音模型在场景适配方面有待提升

在直播带货、语音陪伴、有声书等场景中,AI语音模型的表现参差不齐。虽然一些模型在情感传达方面合格,但与真实场景的适配性较差,尤其是在需要强烈情感表达的场景中。

关键观点3: 工程化设计对AI语音模型的表现有影响

除了模型本身,工程化设计也是影响AI语音模型表现的重要因素。一些模型通过更丰富的情感标签和工程优化,在特定场景中表现更好。

关键观点4: AI语音生成技术广泛应用,未来前景广阔

AI语音生成技术已广泛应用于各个领域,如AI陪伴、直播带货等。随着技术不断发展,AI语音生成将开拓出更丰富的落地应用场景,未来前景广阔。


正文

请到「今天看啥」查看全文


用作客观测试的标准|图片来源:modelscope

在生成测试音频后,会先使用阿里推出的开源语音理解模型 SenseVoice(在 modelscope 平台上使用)进行客观测试,输出符合预设即为通过。然后,再邀请编辑部的 5 位同事进行主观评测,测评者将针对 AI 的表现进行 1-5 分的评分,平均分超过 3 才算及格。

注 1:受试产品(模型)中,MiniMax、DubbingX、ElevenLabs、Sesame 均通过各自官网生成测试语音,阿里的 CosyVoice2 由于是开源模型,所以使用接入了 CosyVoice2 的第三方平台“书梦”。

注 2:由于对 ElevenLabs、Sesame 预测试中,这两款模型在中文场景的表现较差,所以我们在有声书场景设计了英文测试,专门测试这两款产品的表现。

中文有声书:
配音垂类产品DubbingX表现更好

上次针对《甄嬛传》的测试中,各模型在“高兴”情绪的表现相对好,“愤怒、悲伤”两个情绪中比较拉胯。所以,本次在有声书场景的测试中,我们用水浒传中两大知名桥段,“林教头风雪山神庙”和“武松哭兄”中最具情感张力的桥段改写成有声书的形式,来测试各 AI 模型分别在“愤怒”和“悲伤”情绪中的表现。

愤怒情绪测试内容:高衙内!你欺人太甚!我林冲纵是个教头,也不是你们这等宵小欺辱的!我忍你三分,是敬你权势;你再敢污我清白、害我性命,今日,我便与你拼了!

悲伤情绪测试内容:哥哥!你死得好惨啊!你这一生忍气吞声、辛苦操劳,结果却落得被人害死,连个说理的地方都没有!我武松一定为哥哥报仇!

注:分数标注红色的即为模型通过测试

从结果看,愤怒情绪当中,三款产品都通过了客观测试,主观测试中也仅有 CosyVoice2 的平均分低于三分,而从海螺、DubbingX 两款模型表现看,笔者认为是显著优于上一次测试的,这两款模型都能将林冲层层递进的愤怒情绪还原出来,虽然与真人仍有差距,但应该已经到了“能用”的地步了。读者们也可以自己听一听几款产品的表现,来给他们打打分。

悲伤场景中,笔者选择了武松在哥哥墓前的一段自白,情绪上前半段偏向于伤心,后半段悲伤+愤怒,算是拥有复合情感的片段。但在这个片段中,仅有 DubbingX 能够在这个场景里达到及格的水平,之前表现一贯很好的 MiniMax 甚至都没有通过客观测试。

DubbingX 能表现得相对优秀,可能得益于它在情绪方面的深度优化,其他产品的情感标签无外乎是高兴、悲伤、愤怒等粗颗粒度的情感,而 DubbingX 则在大情感分类下,还有适配不同小场景的情绪标签,专门针对复合情感的场景。在这类场景中,DubbingX 的表现显然会更好。

英文有声书:简单设定下,全军覆没

而在英文场景中,我们选择了《基督山伯爵》中,主角得知自己被陷害入狱后,内心愤怒,并渴望复仇的一段独白。

“Fourteen years—trapped in that dungeon, freezing, starving, forgotten. I whispered your name in the dark, Mercedes. I begged for justice. And now, I will have my revenge. No mercy. No forgiveness. Only justice—my way.”







请到「今天看啥」查看全文