专栏名称: 管理智慧AI+

专注商业管理，每日发布管理、职场、互联网转型、社区实践方面的优秀文章，超过116万商业人士订阅。倾力打造的“千禾会”社区——汇聚国内数十位顶尖社区实践先行者，做你的社区实践伙伴，目前已正式上线！

a16z重磅预测：AI虚拟人将孕育众多市值达数十亿美元的行业巨头

管理智慧AI+ · 公众号 · 职场 · 2025-04-28 07:00

正文

请到「今天看啥」查看全文

过去几年，从研究视角看，这一领域发生了显著变化。自2017年起，我研读了70多篇有关AI会说话头像的论文，清晰地看到模型架构的发展脉络：从卷积神经网络（CNNs）和生成对抗网络（GANs），到基于三维的神经辐射场（NeRFs）和三维可变形模型等方法，接着演进到变换器（transformers）和扩散模型，而近期则发展为基于变换器架构的扩散模型（DiT）。以下时间轴标注了每年引用量最高的论文。

图片来源：a16z

在AI领域，虚拟人相关模型的生成质量与能力实现了飞跃式提升， 和早期相比，简直不可同日而语。早期方法极为受限，以单张人物照片为例，先将照片人物脸部下半部分遮住，再依据音频输入的目标面部特征点，生成新的嘴部动作。但这些模型训练所依赖的高质量口型同步数据语料库规模有限，且其中大多数数据都只是紧紧框定人物面部进行裁剪。就拿“让奥巴马对口型说话”这类效果来说，要实现相对逼真的呈现，需要收集目标人物长达数小时的视频素材，并且最终输出的结果在多样性和表现力上都大打折扣。

反观当下，模型的灵活性与强大程度令人惊叹。同一视频里，它们既能生成半身乃至全身动作，塑造栩栩如生、会说话的人脸形象，还能让背景呈现动态变化。这些新型模型的训练方式，与传统文本转视频模型更为相似，并且依托海量数据集展开。为了在各种动态中始终保持口型同步的精准度，模型运用了丰富多样的技术手段。

早在今年2月，字节跳动推出的OmniHuman-1模型便率先展现出这种前沿趋势 （该模型近期已在Dreamina平台上线供用户使用）。整个行业发展势头迅猛，3月，Hedra发布Character-3模型，经我们直接对比测试，该模型在大多数实际应用场景中表现堪称顶尖。Hedra的强大之处不止于人类角色，像为Waymo（知名自动驾驶公司）打造会说话的虚拟形象也不在话下，用户还能通过输入文本，灵活设定角色的情感状态与动作表现。

随着吉卜力工作室风格热潮等行业趋势的推动，围绕AI动画的全新应用场景如雨后春笋般不断涌现。

AI虚拟人在现实世界中的多元应用

AI虚拟人的应用场景可谓包罗万象。不妨设想，但凡涉及与角色交互，或是观看人物讲话视频的场景，都有其用武之地。 目前，从个人消费者到中小企业，乃至大型企业，各个领域都已开始应用AI虚拟人。

图片来源：a16z

这是一张早期的市场格局图。该领域正飞速发展，产品之间的差异界定仍较为宽泛。理论上，许多产品都能为大多数乃至所有这些应用场景打造虚拟人。然而在实际操作中，构建一套高效工作流程，并精准调校模型，使其在各个方面都能出类拔萃，绝非易事。以下，我们将逐一梳理市场各细分领域利用AI虚拟人的具体实例。

个人消费者领域：角色创作新风尚