专栏名称: 娱乐资本论
这里是“娱乐资本论”。我们关注文化的产业融合,影视的真挚表达,互联网娱乐的时代精神,我们也是中国演出行业协会理事单位,北京文化产业投融资协会理事单位以及金鸡奖、上海电影节、北京电影节、网络视听大会等的重点合作单位。
目录
相关文章推荐
会计雅苑  ·  深圳辖区2024年103家上市公司变更审计机 ... ·  11 小时前  
会计雅苑  ·  中国证监会2025年度拟补充录用公务员名单 ·  14 小时前  
马靖昊说会计  ·  跳出财报 ·  2 天前  
51好读  ›  专栏  ›  娱乐资本论

冲破短剧出海天花板:谁掌握了AI译制的最强密码?

娱乐资本论  · 公众号  ·  · 2025-04-07 19:31

正文

请到「今天看啥」查看全文


但成本只是一方面,外包多语种短剧译制成本高,译制周期长,也会导致内容过时的风险。

对人力资源的刚性需求,也催生了一些人力驱动或者混合驱动,做精细翻译的专门事务所,例如长沙的TXV短剧出海目前已经翻译了超过1000部短剧,将今年的目标定为一万部。仅从该头部工作室的产能来看,要想满足国内海量短剧译制出海的需求,恐怕也是杯水车薪。

技术加速落地,AI成为“多快好省”最强密码

不过, AI对一些人类能力的取代,有可能是在一夜之间发生的 。某个业务看起来牢不可破的壁垒,有可能在新技术出现之后就突然崩塌。

在GPT-4o图像能力升级之后,一条流传很广的推文写道,这直接干翻了之前很多创业公司的产品,他们花了那么多时间、人力、投资人的钱去调优的算法、工作流、模型,直接被一次大模型的更新就取代了。他写道,“今天情绪非常低落,压力非常大,我不清楚我现在做什么,是从现在开始到将来都还有价值的。”

同样的,长达七十余年发展史的配音译制行业,也正在经历这种“崩塌感”。

过去的语音模型在生成语音时,通常需要将文本分解成短句,然后逐句合成,再拼接起来。然而这种方法在处理长文本或需要多人对话的场景时,显得力不从心,难以保证语音的连贯性和自然度。

现在如ChatGPT、豆包等的语音模型都在尝试文本到语音的端到端合成,可以直接对原始的音频语料进行建模,生成更为自然的语音。

在海外,ElevenLabs开发的语音合成技术以其高质量和多样化的声音选择而著称,广泛应用于有声读物、播客和游戏等领域;也有进一步把工作流包装为一站式自动化流程的RaskAI等产品。但是这些技术在国内受到合规性和访问上的限制。

面对海外工具的局限性,国内企业积极研发适合本土需求的AI语音合成模型。 2024年10月,香港中文大学(深圳)和科创独角兽公司趣丸科技联合推出了一个新的语音大模型“MaskGCT”。

MaskGCT在语音质量、相似度和可控性等方面做到了“全球SOTA”也就是行业最先进水平,一经推出便在海内外获得广泛关注,更被机器之心等媒体誉为“国产最强AI语音模型”。即使之前没有听过某个人的声音, MaskGCT能3秒“克隆”,音色、语调、风格与情感都能精确复刻。

4月7日,基于该模型的商业化产品“趣丸千音(All Voice Lab)”正式上线,零门槛人人可用 。拥有文本转语音、声音克隆、变声等多元能力,可进行多语种、多音色互换,同时支持字幕无痕擦除,还将上线对口型等功能。

在结合工作流和短剧行业经验的调优之下,“趣丸千音”的表现已经接近近期热炒的“智能体”(Agents)概念:只需一键上传视频,AI就会自主完成工作,直接交付自带外语字幕与配音的完整译制片。

同时,在有声书、播客、新闻播报等方面,工作流的自动化程度也同样强悍。目前支持中、英、日、韩、德、法多种语言互译,几十种音色可选,支持多角色分配和语速调节。

前述的翻译工作室负责人也跟小娱提到了趣丸千音,她形容“这个软件给短剧翻译带来的变化,就像是大模型对Grammarly这种翻译工具带来的变化一样猛烈。”

他们测试使用趣丸千音,对一位客户交办的短剧翻译重做了一次,结果把一周的工作压缩到了一天。首先在文案翻译上,一些上下文和跨文化翻译的问题都得到了改善。不仅如此,配音质量显著提高,语调、情感、特殊口音都能复刻,与角色形象也很吻合。

这个产品的另一个重要改进,是把字幕对时间轴也给做了。 权衡之下,该工作室还是决定保留之前人工翻译的全流程业务,但是新增一个AI的产品选项,定价便宜一半。虽然趣丸千音实际上的成本节省远不止一半——甚至可能是纯人工的1/15;但是“现阶段还是得花时间在人工的复校上面。”她说,即使最终一个字都没有改,作为人工精校的业务,审核过程也不可以跳过。

趣丸千音视频翻译效果展示







请到「今天看啥」查看全文