救命！腾讯这款Video-Avatar让AI虚拟人“戏精”上身了！

计算广告 · 公众号 · 广告 · 2025-06-03 18:36

正文

请到「今天看啥」查看全文

这么做的目的是为了接下来的操作：Hunyuan Video-Avatar回先把参考图复制好几份，跟视频的每一帧画面“叠”在一起，再用一个工具处理；同时，单独处理参考图，最后再把两边的结果拼起来。

在视频生成领域，实现角色的动态表现与身份一致性之间的平衡一直是个核心难题。让角色动起来不难，难的是动起来之后还能保持原来的样子，不出现奇奇怪怪的变形或者“画风突变”。Hunyuan Video-Avatar的关键在于其独特的条件注入策略：它并非简单地将参考图像的特征与噪声视频的特征在初始阶段进行拼接或相加，而是采用了更为精细的特征融合方式。

这样做的好处是，既能牢牢锁住角色的核心特征，保证“神似”和“形似”，又能给动态动作留出足够的发挥空间，让角色动起来更自然、更有活力。论文里提到，他们尝试了好几种注入方法，最后发现一种把参考图像复制多份，然后通过一个投影模块直接加到视频潜在特征上的方式效果最好。

这种“后期添加”式的注入，避免了在扩散模型的早期去噪阶段就过强地引入静态的图像约束，从而为模型学习和生成时间上连贯的动态变化保留了更大的灵活性。同时，由于参考图像的特征始终作为条件信息存在于模型的后续处理流程中，模型在生成每一帧时都会受到该身份信息的引导，确保了角色核心视觉特征（如面部拓扑结构、关键的纹理细节、整体画风等）在整个视频序列中的高度一致性。