专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了

机器之心  · 公众号  · AI  · 2025-05-15 14:04

主要观点总结

国产大模型MiniMax的TTS语音大模型Speech-02在国际权威语音评测榜单Artificial Analysis上登顶,击败OpenAI、ElevenLabs等巨头。Speech-02采用了自回归Transformer架构,通过两大技术创新实现零样本语音克隆和全新的Flow-VAE架构,增强了语音生成过程中的信息表征能力。此外,MiniMax还提出了可选增强功能及T2V框架,促进了高度灵活且可控的音色生成。Speech-02在语音克隆保真度、多语言与跨语言语音合成等方面表现优异,支持32种语言。总结为三大关键点:超拟人、个性化、多样性。MiniMax是一家强调模型即产品理念的大模型厂商,其语音大模型领域的技术领先只是第一步,能落地才能发挥价值,正在加速商业化进程并构建智能交互生态。

关键观点总结

关键观点1: Speech-02在国际语音评测榜单上取得第一

国产大模型MiniMax的TTS语音大模型Speech-02在权威国际语音评测榜单Artificial Analysis上强势登顶,击败了OpenAI、ElevenLabs等巨头。

关键观点2: Speech-02技术创新

Speech-02采用了自回归Transformer架构,通过零样本语音克隆和全新的Flow-VAE架构等技术创新,实现了高度自然的语音生成。

关键观点3: Speech-02的多语言支持

Speech-02支持多达32种语言,并在多语言及跨语言语音合成方面表现优异,尤其在中文、粤语、葡萄牙语、法语等语种上表现突出。

关键观点4: 个性化与多样性

Speech-02支持个性化音色生成,只需提供一段示范音频,即可学会这种声音并用它演绎内容。此外,它还支持多种情感选择,使用户能够根据自己想要的效果来指导'演员'表演。这些都是其个性化和多样化的体现。

关键观点5: MiniMax的商业化和生态构建

MiniMax作为模型即产品的理念倡导者,在语音大模型领域持续探索不同场景的落地方案,并加速商业化进程。他们正在依托其语音大模型构建智能交互生态,透露出语音大模型技术正迎来从技术成熟走向规模应用的关键拐点的迹象。


正文

请到「今天看啥」查看全文




性能更强之外,Speech-02 还极具性价比,成本仅为 ElevenLabs 竞品模型(multilingual_v2)的 1/4。



Speech-02 的登顶,再次展现出了国产大模型超越国外顶级竞争对手的技术实力与底蕴。


那么,Speech-02 究竟有哪些魔力才取得了这样亮眼的成绩。随着本周技术报告的公布,我们对模型背后的技术展开了一番深挖。


屠榜背后

MiniMax 做了哪些技术创新?


当前,主流的文本转语音(TTS)模型在建模策略上主要分为两类,即自回归( AR)语言模型和非自回归(NAR)扩散模型,两者在建模难度、推理速度、合成质量等方面各有其优劣势。


其中,非自回归模型有点类似于批量生产,生成速度很快,就像一家快餐店出餐快但口味普通,生成的语音不够生动、逼真。


自回归模型可以生成韵律、语调和整体自然度等多个方面更好的语音。不过,这类模型在语音克隆过程中需要参考语音和转录文本作为提示词,就像高级餐厅味道好但需要顾客提供详细食谱才能复刻菜品一样。这种单样本(one-shot)学习范式往往导致生成质量不佳。


作为一个采用自回归 Transformer 架构的 TTS 模型,Speech-02 的强大源于两大技术上的创新:


一是实现了 真正意义上的零样本(zero-shot)语音克隆 。所谓零样本,就是给定一段参考语音,无需提供文本,模型很快就可以生成高度相似的目标语音。


二是 全新的 Flow-VAE 架构 ,既增强了语音生成过程中的信息表征能力,又进一步提升了合成语音的整体质量和相似度。


零样本语音克隆


首先, Speech-02 引入了一个可学习的 speaker 编码器 ,该编码器会专门学习对合成语音最有用的声音特征,比如更关注说话人的独特发音习惯,而不是无关的背景噪音。


正是在此模式下,Speech-02 只需要听一段目标说话人的声音片段(几秒即可),就能模仿出这个人的音色、语调、节奏等特征,不会有机器人念稿的那种割裂感。而且整个过程是零样本的,不需要额外训练或调整。


这就为语音合成技术节省了大量宝贵时间,我们不难发现,传统方法需要大量数据,比如先录制 1 小时的声音。此外,数据的多样性也是一个问题,模型需要能够处理不同国家、年龄、性别等说话人信息。而 Speech-02 完全克服了这些挑战,直接听音学样,且一听就是你。


此外,MiniMax 还提出了可选增强功能,即单样本语音克隆。在此设置下,需要提供一个文本 - 音频配对样本作为上下文提示,从而指导语音合成。



Flow-VAE 架构


MiniMax 还提出了用于生成连续语音特征的关键组件,即基于 Flow-VAE 架构 的流匹配模型。从而进一步提升了音频质量,使得生成的音频更加接近真人。


在 Speech-02 中,流匹配模型旨在模拟连续语音特征(潜在)的分布,这些特征是从音频训练的编码器 - 解码器模块架构中提取的,而不是梅尔频谱图。


通常来讲,传统的 VAE 假设其潜在空间服从简单的标准高斯分布,相比之下,Flow-VAE 引入了一个流模型,该模型可以灵活地使用一系列可逆映射来变换潜在空间,从而更准确地捕捉数据中的复杂模式。







请到「今天看啥」查看全文