正文
过去几年,从研究视角看,这一领域发生了显著变化。自2017年起,我研读了70多篇有关AI会说话头像的论文,清晰地看到模型架构的发展脉络:从卷积神经网络(CNNs)和生成对抗网络(GANs),到基于三维的神经辐射场(NeRFs)和三维可变形模型等方法,接着演进到变换器(transformers)和扩散模型,而近期则发展为基于变换器架构的扩散模型(DiT)。以下时间轴标注了每年引用量最高的论文。
图片来源:a16z
在AI领域,虚拟人相关模型的生成质量与能力实现了飞跃式提升,
和早期相比,简直不可同日而语。早期方法极为受限,以单张人物照片为例,先将照片人物脸部下半部分遮住,再依据音频输入的目标面部特征点,生成新的嘴部动作。但这些模型训练所依赖的高质量口型同步数据语料库规模有限,且其中大多数数据都只是紧紧框定人物面部进行裁剪。就拿“让奥巴马对口型说话”这类效果来说,要实现相对逼真的呈现,需要收集目标人物长达数小时的视频素材,并且最终输出的结果在多样性和表现力上都大打折扣。
反观当下,模型的灵活性与强大程度令人惊叹。同一视频里,它们既能生成半身乃至全身动作,塑造栩栩如生、会说话的人脸形象,还能让背景呈现动态变化。这些新型模型的训练方式,与传统文本转视频模型更为相似,并且依托海量数据集展开。为了在各种动态中始终保持口型同步的精准度,模型运用了丰富多样的技术手段。
早在今年2月,字节跳动推出的OmniHuman-1模型便率先展现出这种前沿趋势
(该模型近期已在Dreamina平台上线供用户使用)。整个行业发展势头迅猛,3月,Hedra发布Character-3模型,经我们直接对比测试,该模型在大多数实际应用场景中表现堪称顶尖。Hedra的强大之处不止于人类角色,像为Waymo(知名自动驾驶公司)打造会说话的虚拟形象也不在话下,用户还能通过输入文本,灵活设定角色的情感状态与动作表现。
随着吉卜力工作室风格热潮等行业趋势的推动,围绕AI动画的全新应用场景如雨后春笋般不断涌现。
AI虚拟人的应用场景可谓包罗万象。不妨设想,但凡涉及与角色交互,或是观看人物讲话视频的场景,都有其用武之地。
目前,从个人消费者到中小企业,乃至大型企业,各个领域都已开始应用AI虚拟人。
图片来源:a16z
这是一张早期的市场格局图。该领域正飞速发展,产品之间的差异界定仍较为宽泛。理论上,许多产品都能为大多数乃至所有这些应用场景打造虚拟人。然而在实际操作中,构建一套高效工作流程,并精准调校模型,使其在各个方面都能出类拔萃,绝非易事。以下,我们将逐一梳理市场各细分领域利用AI虚拟人的具体实例。