我用字节最强的 AI 数字人，让《银魂》主角出演了赵本山的经典小品

APPSO · 公众号 · app · 2025-03-01 11:59

主要观点总结

本文介绍了使用字节的AI数字人技术OmniHuman-1演绎春晚经典小品的情况。OmniHuman-1能够让AI对口型更逼真，过程也变得简单，一张图片、一段音频就能生成视频。文章详细描述了OmniHuman-1的技术特点，如支持多种形式的口型对接、动态表情和动作等，同时分析了其应用场景和未来趋势。

OmniHuman-1是字节的AI数字人技术，能够生成逼真的对口型视频。使用一张图片和一段音频就能制作视频，过程简单。

OmniHuman-1支持多种形式的口型对接，包括正脸、侧脸、多人、单人、非人、全身、半身等。除了口型，还能匹配表情、手势、身体动作和背景的动态。但有时口型会过于夸张或不准确，当嘴唇被遮挡时可能无法对口型。

OmniHuman-1可应用于整活视频制作、小品、MV等领域，使视频制作更加简单自然。此外，还可应用于演讲、直播、演唱会等场景，实现AI数字人的规模化应用。

随着AI技术的发展，我们可能会迎来AI数字人的规模化应用，现实与想象的界限将越来越模糊，AI将创造更多的不可能。

如果没有合适的选择，即梦还支持创建音色，只需 5 秒的音频素材，于是我上传了马斯克的演讲片段，生成了他的音色。

然后，再随便找一张马斯克的图片，输入文案「全世界最聪明的 AI，Grok 3，现在免费，直到我们的服务器崩溃」。

接下来我们就可以看到，马斯克摇头晃脑地讲着歪果仁味道的中文，语气还怪礼貌的，背景里隐隐约约有汽车开过。

真人正脸，属于挑战性最低的测试了，动漫正脸，即梦也能轻松驾驭。

我上传了之前用 AI 生成的一张图片，让主角演绎《武林外传》郭芙蓉的经典台词，「姑奶奶今天不把你打得桃花满天红，你就不知道姑奶奶心花为谁开」。

表情的变化和台词的语气是对应的，主角甚至还会耸肩，演技至少在小鲜肉的及格线水平。

继续上强度，如果一张图片里有多个人，而且是难度更高的全身，AI 基本都能让他们参演，但离画面较远的，或者嘴巴被遮盖的，可能就在状况外。

虽然美中不足，但即梦的细节又弥补了这一点：背景的火光和烟雾是自然运动的。

刁钻角度的侧脸图片，即梦也能对上口型。少女的珍珠耳环自然地晃动，因为说话才完整露出的牙齿也很清晰，但她的脖子和嘴唇有些用力过猛。

推荐文章

APPSO · 前苹果设计师公布iOS 26概念图/OpenAI「宫斗」电影曝光/总价5亿，迅雷收购虎扑母公司

8 小时前

小众软件 · 另外两件事[250604]

昨天

小众软件 · 著名开源文件同步工具 Syncthing 2 即将推出

昨天

APPSO · 全球首款 SDC 安卓内测福利

昨天

APPSO · 最新必读！互联网女皇340页AI报告解读：AI岗位暴涨，这些职业面临最大危机|附中文版

昨天

韩国me2day · 就是很想和阴间使者一样穿黑色~

8 年前

经典人生感悟 · 遇上了，就珍惜；分开了，道珍重

8 年前

煮娱星球 · 2017明星权力榜人气榜四月份投票结果揭晓！

8 年前

36氪 · 和韩寒搭档做出《独唱团》和ONE后，他又想造一个「线下豆瓣」 | 早起看早期

8 年前

海外掘金 · 解析人民币汇率趋势，寻找更好的投资区域

7 年前