主要观点总结
阿里巴巴正式开源了视频编辑大模型通义万相Wan2.1-VACE,此模型具备多项功能如图像参考能力、视频重绘能力、局部编辑能力等,可实现视频生成与编辑的碎片化问题的解决。模型具备生产级别的多任务能力,可以支持最基础的文生视频功能,同时实现多种功能而无需为单一功能训练新的专家模型。其通过VCU(Video Condition Unit)实现统一表征和多任务统一,以应对数据构建的挑战。通义万相团队表示面临众多挑战,包括多任务统一建模、细粒度控制以及数据与训练复杂性等。未来视频生成AI模型的发展将更注重提高生成现实度、扩展时长、增强交互性等方面。Wan2.1-VACE的出现标志着AI视频生成进入了一个新的阶段,其生产范式有可能彻底改变视频后期制作的工作流。
关键观点总结
关键观点1: Wan2.1-VACE模型的功能特点
Wan2.1-VACE具备图像参考能力、视频重绘能力、局部编辑能力等,解决了视频生成与编辑的碎片化问题。通过单一模型支持最基础的文生视频功能,同时实现多种功能。
关键观点2: Wan2.1-VACE模型的多任务能力
Wan2.1-VACE具备生产级别的多任务能力,通过VCU(Video Condition Unit)实现统一表征和多任务统一,以应对数据构建的挑战。
关键观点3: 通义万相团队面临的挑战
通义万相团队在实现Wan2.1-VACE模型的过程中面临多任务统一建模、细粒度控制以及数据与训练复杂性等挑战。
关键观点4: 未来视频生成AI模型的发展趋势
未来视频生成AI模型的发展将更注重提高生成现实度、扩展时长、增强交互性等方面,结合物理和3D知识以避免失真。
正文
以专业
P
图软件为例,
一款设计软件之所以能在紧张的生产流程中真正派上用场,关键在于它提供了种类繁多、可按需组合的工具生态
:从修补画笔、内容感知填充,到通道混合器、位图
/
矢量蒙版,再到动作脚本和第三方插件,几乎每一种创意诉求都能找到对应
“
利器
”
。
这让设计师能够在不同项目阶段灵活切换思路与技法,无需跳出工作界面就能完成。
而昨晚,阿里巴巴正式开源
的
通义万相
Wan2.1-VACE
,就在
AI
视频领域实现了生产级别的多任务能力。
开源地址如下:
GitHub
:
https://github.com/Wan-Video/Wan2.1
HuggingFace
:
https://huggingface.co/Wan-AI
魔搭社区:
https://www.modelscope.cn/organization/Wan-AI?tab=model
Wan2.1-VACE
拥有
1.3B
和
14B
两个版本,其中
1.3B
版本适合本地部署和玩法微调,可在消费级显卡运行
( 此前已发布
Preview
版 )
,支持
480P
分辨率,
14B
版本生成质量更高,支持
480P
和
720P
分辨率。
现在,开发者可在
GitHub
、
Huggingface
及魔搭社区下载体验。该模型还将逐步在通义万相官网和阿里云百炼上线。
Wan2.1-VACE
主打
“
功能最全
”
与
“
可编辑性
”
,单一模型不仅支持最基础的文生视频,还同时支持多种功能。不必再为了单一功能训练一个新的专家模型,也省去了部署多个模型的开销。通义万相团队表示:
Wan2.1-VACE
是第一个基于视频
DiT
架构的同时支持如此广泛任务的一体化模型。
文本条件大幅提升了视频生成的可编辑性,但却不足以精准控制视频中的所有细节
( 例如精确的布局、对象形状等 )
,因此
Wan2.1-VACE
扩展了多任务能力以实现更加精细的可编辑性。
总体而言,
Wan2.1-VACE
的多任务能力包括:
比如图像参考生成,在示例中,
Wan2.1-VACE
基于小蛇和女孩的参考图生成了一个视频,女孩在视频里轻轻摸了摸小蛇。图像参考生成对于添加新元素很重要,并能保证多镜头视频中的元素一致性。
提示词:在一个欢乐而充满节日气氛的场景中,穿着鲜艳红色春服的小女孩正与她的可爱卡通蛇嬉戏。她的春服上绣着金色吉祥图案,散发着喜庆的气息,脸上洋溢着灿烂的笑容。蛇身呈现出亮眼的绿色,形状圆润,宽大的眼睛让它显得既友善又幽默。小女孩欢快地用手轻轻抚摸着蛇的头部,共同享受着这温馨的时刻。周围五彩斑斓的灯笼和彩带装饰着环境,阳光透过洒在她们身上,营造出一个充满友爱与幸福的新年氛围。
局部编辑是高效可编辑性也不可或缺的,
能实现删除、替换原有元素以及加入新元素的能力。
在下图中,
Wan2.1-VACE
用视频局部编辑能力将女士手里的平板电脑不留痕迹地移除了。
提示词:纪实摄影风格,房产自媒体博主站在一间现代化的客厅中央。博主穿着简洁时尚的衣物,面带微笑,两只手举在身前,手上空无一物正对着镜头介绍房屋情况。背景是一间宽敞明亮的客厅,家具简约现代,落地窗外是绿意盎然的花园。房间内光线充足,温馨舒适。中景全身人像,平视视角,轻微的运动感,如手指轻点屏幕。
此外,通过进一步结合视频重绘,