主要观点总结
本文介绍了使用字节的AI数字人技术OmniHuman-1演绎春晚经典小品的情况。OmniHuman-1能够让AI对口型更逼真,过程也变得简单,一张图片、一段音频就能生成视频。文章详细描述了OmniHuman-1的技术特点,如支持多种形式的口型对接、动态表情和动作等,同时分析了其应用场景和未来趋势。
关键观点总结
关键观点1: OmniHuman-1技术介绍
OmniHuman-1是字节的AI数字人技术,能够生成逼真的对口型视频。使用一张图片和一段音频就能制作视频,过程简单。
关键观点2: OmniHuman-1的技术特点
OmniHuman-1支持多种形式的口型对接,包括正脸、侧脸、多人、单人、非人、全身、半身等。除了口型,还能匹配表情、手势、身体动作和背景的动态。但有时口型会过于夸张或不准确,当嘴唇被遮挡时可能无法对口型。
关键观点3: OmniHuman-1的应用场景
OmniHuman-1可应用于整活视频制作、小品、MV等领域,使视频制作更加简单自然。此外,还可应用于演讲、直播、演唱会等场景,实现AI数字人的规模化应用。
关键观点4: 未来展望
随着AI技术的发展,我们可能会迎来AI数字人的规模化应用,现实与想象的界限将越来越模糊,AI将创造更多的不可能。
正文
如果没有合适的选择,即梦还支持创建音色,只需 5 秒的音频素材,于是我上传了马斯克的演讲片段,生成了他的音色。
然后,再随便找一张马斯克的图片,输入文案「全世界最聪明的 AI,Grok 3,现在免费,直到我们的服务器崩溃」。
接下来我们就可以看到,马斯克摇头晃脑地讲着歪果仁味道的中文,语气还怪礼貌的,背景里隐隐约约有汽车开过。
真人正脸,属于挑战性最低的测试了,动漫正脸,即梦也能轻松驾驭。
我上传了之前用 AI 生成的一张图片,让主角演绎《武林外传》郭芙蓉的经典台词,「姑奶奶今天不把你打得桃花满天红,你就不知道姑奶奶心花为谁开 」。
表情的变化和台词的语气是对应的,主角甚至还会耸肩,演技至少在小鲜肉的及格线水平。
继续上强度,如果一张图片里有多个人,而且是难度更高的全身,AI 基本都能让他们参演,但离画面较远的,或者嘴巴被遮盖的,可能就在状况外。
虽然美中不足,但即梦的细节又弥补了这一点:背景的火光和烟雾是自然运动的。
刁钻角度的侧脸图片,即梦也能对上口型。少女的珍珠耳环自然地晃动,因为说话才完整露出的牙齿也很清晰,但她的脖子和嘴唇有些用力过猛。