阿里开源的新视频模型，没准会成为中国 Adobe

知危 · 公众号 · · 2025-05-15 19:24

主要观点总结

阿里巴巴正式开源了视频编辑大模型通义万相Wan2.1-VACE，此模型具备多项功能如图像参考能力、视频重绘能力、局部编辑能力等，可实现视频生成与编辑的碎片化问题的解决。模型具备生产级别的多任务能力，可以支持最基础的文生视频功能，同时实现多种功能而无需为单一功能训练新的专家模型。其通过VCU（Video Condition Unit）实现统一表征和多任务统一，以应对数据构建的挑战。通义万相团队表示面临众多挑战，包括多任务统一建模、细粒度控制以及数据与训练复杂性等。未来视频生成AI模型的发展将更注重提高生成现实度、扩展时长、增强交互性等方面。Wan2.1-VACE的出现标志着AI视频生成进入了一个新的阶段，其生产范式有可能彻底改变视频后期制作的工作流。

关键观点总结

关键观点1: Wan2.1-VACE模型的功能特点

Wan2.1-VACE具备图像参考能力、视频重绘能力、局部编辑能力等，解决了视频生成与编辑的碎片化问题。通过单一模型支持最基础的文生视频功能，同时实现多种功能。

关键观点2: Wan2.1-VACE模型的多任务能力

Wan2.1-VACE具备生产级别的多任务能力，通过VCU（Video Condition Unit）实现统一表征和多任务统一，以应对数据构建的挑战。

关键观点3: 通义万相团队面临的挑战

通义万相团队在实现Wan2.1-VACE模型的过程中面临多任务统一建模、细粒度控制以及数据与训练复杂性等挑战。

关键观点4: 未来视频生成AI模型的发展趋势

未来视频生成AI模型的发展将更注重提高生成现实度、扩展时长、增强交互性等方面，结合物理和3D知识以避免失真。

正文

请到「今天看啥」查看全文

以专业 P 图软件为例，一款设计软件之所以能在紧张的生产流程中真正派上用场，关键在于它提供了种类繁多、可按需组合的工具生态：从修补画笔、内容感知填充，到通道混合器、位图 / 矢量蒙版，再到动作脚本和第三方插件，几乎每一种创意诉求都能找到对应 “ 利器 ” 。

这让设计师能够在不同项目阶段灵活切换思路与技法，无需跳出工作界面就能完成。

而昨晚，阿里巴巴正式开源的通义万相 Wan2.1-VACE ，就在 AI 视频领域实现了生产级别的多任务能力。

开源地址如下：

GitHub ： https://github.com/Wan-Video/Wan2.1

HuggingFace ： https://huggingface.co/Wan-AI

魔搭社区： https://www.modelscope.cn/organization/Wan-AI?tab=model

Wan2.1-VACE 拥有 1.3B 和 14B 两个版本，其中 1.3B 版本适合本地部署和玩法微调，可在消费级显卡运行（此前已发布 Preview 版），支持 480P 分辨率， 14B 版本生成质量更高，支持 480P 和 720P 分辨率。

现在，开发者可在 GitHub 、 Huggingface 及魔搭社区下载体验。该模型还将逐步在通义万相官网和阿里云百炼上线。

Wan2.1-VACE 主打 “ 功能最全 ” 与 “ 可编辑性 ” ，单一模型不仅支持最基础的文生视频，还同时支持多种功能。不必再为了单一功能训练一个新的专家模型，也省去了部署多个模型的开销。通义万相团队表示： Wan2.1-VACE 是第一个基于视频 DiT 架构的同时支持如此广泛任务的一体化模型。

文本条件大幅提升了视频生成的可编辑性，但却不足以精准控制视频中的所有细节（例如精确的布局、对象形状等），因此 Wan2.1-VACE 扩展了多任务能力以实现更加精细的可编辑性。

总体而言， Wan2.1-VACE 的多任务能力包括：

图像参考能力，给定参考主体（人脸或物体）和背景，生成元素一致的视频内容。

视频重绘能力，包括姿态迁移、运动控制、结构控制、重新着色等（基于深度图、光流、布局、灰度、线稿和姿态等控制）；

局部编辑能力，包括主体重塑、主体移除、背景延展、时长延展等。

比如图像参考生成，在示例中， Wan2.1-VACE 基于小蛇和女孩的参考图生成了一个视频，女孩在视频里轻轻摸了摸小蛇。图像参考生成对于添加新元素很重要，并能保证多镜头视频中的元素一致性。

提示词：在一个欢乐而充满节日气氛的场景中，穿着鲜艳红色春服的小女孩正与她的可爱卡通蛇嬉戏。她的春服上绣着金色吉祥图案，散发着喜庆的气息，脸上洋溢着灿烂的笑容。蛇身呈现出亮眼的绿色，形状圆润，宽大的眼睛让它显得既友善又幽默。小女孩欢快地用手轻轻抚摸着蛇的头部，共同享受着这温馨的时刻。周围五彩斑斓的灯笼和彩带装饰着环境，阳光透过洒在她们身上，营造出一个充满友爱与幸福的新年氛围。

局部编辑是高效可编辑性也不可或缺的，能实现删除、替换原有元素以及加入新元素的能力。在下图中， Wan2.1-VACE 用视频局部编辑能力将女士手里的平板电脑不留痕迹地移除了。

提示词：纪实摄影风格，房产自媒体博主站在一间现代化的客厅中央。博主穿着简洁时尚的衣物，面带微笑，两只手举在身前，手上空无一物正对着镜头介绍房屋情况。背景是一间宽敞明亮的客厅，家具简约现代，落地窗外是绿意盎然的花园。房间内光线充足，温馨舒适。中景全身人像，平视视角，轻微的运动感，如手指轻点屏幕。

此外，通过进一步结合视频重绘，