专栏名称: 管理智慧AI+
专注商业管理,每日发布管理、职场、互联网转型、社区实践方面的优秀文章,超过116万商业人士订阅。倾力打造的“千禾会”社区——汇聚国内数十位顶尖社区实践先行者,做你的社区实践伙伴,目前已正式上线!
目录
相关文章推荐
51好读  ›  专栏  ›  管理智慧AI+

a16z重磅预测:AI虚拟人将孕育众多市值达数十亿美元的行业巨头

管理智慧AI+  · 公众号  · 职场  · 2025-04-28 07:00

正文

请到「今天看啥」查看全文


过去几年,从研究视角看,这一领域发生了显著变化。自2017年起,我研读了70多篇有关AI会说话头像的论文,清晰地看到模型架构的发展脉络:从卷积神经网络(CNNs)和生成对抗网络(GANs),到基于三维的神经辐射场(NeRFs)和三维可变形模型等方法,接着演进到变换器(transformers)和扩散模型,而近期则发展为基于变换器架构的扩散模型(DiT)。以下时间轴标注了每年引用量最高的论文。

图片来源:a16z

在AI领域,虚拟人相关模型的生成质量与能力实现了飞跃式提升, 和早期相比,简直不可同日而语。早期方法极为受限,以单张人物照片为例,先将照片人物脸部下半部分遮住,再依据音频输入的目标面部特征点,生成新的嘴部动作。但这些模型训练所依赖的高质量口型同步数据语料库规模有限,且其中大多数数据都只是紧紧框定人物面部进行裁剪。就拿“让奥巴马对口型说话”这类效果来说,要实现相对逼真的呈现,需要收集目标人物长达数小时的视频素材,并且最终输出的结果在多样性和表现力上都大打折扣。

反观当下,模型的灵活性与强大程度令人惊叹。同一视频里,它们既能生成半身乃至全身动作,塑造栩栩如生、会说话的人脸形象,还能让背景呈现动态变化。这些新型模型的训练方式,与传统文本转视频模型更为相似,并且依托海量数据集展开。为了在各种动态中始终保持口型同步的精准度,模型运用了丰富多样的技术手段。

早在今年2月,字节跳动推出的OmniHuman-1模型便率先展现出这种前沿趋势 (该模型近期已在Dreamina平台上线供用户使用)。整个行业发展势头迅猛,3月,Hedra发布Character-3模型,经我们直接对比测试,该模型在大多数实际应用场景中表现堪称顶尖。Hedra的强大之处不止于人类角色,像为Waymo(知名自动驾驶公司)打造会说话的虚拟形象也不在话下,用户还能通过输入文本,灵活设定角色的情感状态与动作表现。

随着吉卜力工作室风格热潮等行业趋势的推动,围绕AI动画的全新应用场景如雨后春笋般不断涌现。

02

AI虚拟人在现实世界中的多元应用

AI虚拟人的应用场景可谓包罗万象。不妨设想,但凡涉及与角色交互,或是观看人物讲话视频的场景,都有其用武之地。 目前,从个人消费者到中小企业,乃至大型企业,各个领域都已开始应用AI虚拟人。

图片来源:a16z

这是一张早期的市场格局图。该领域正飞速发展,产品之间的差异界定仍较为宽泛。理论上,许多产品都能为大多数乃至所有这些应用场景打造虚拟人。然而在实际操作中,构建一套高效工作流程,并精准调校模型,使其在各个方面都能出类拔萃,绝非易事。以下,我们将逐一梳理市场各细分领域利用AI虚拟人的具体实例。

03

个人消费者领域:角色创作新风尚






请到「今天看啥」查看全文