专栏名称: 知危
提供敏锐、独到的商业信息与参考,重点关注TMT、出海、新消费、新能源。
目录
相关文章推荐
阿里云云栖号  ·  阿里云全栈AI技术引擎驱动SaaS企业全球化 ... ·  2 天前  
码农翻身  ·  对阿里离职员工万字长文,我的一点儿想法 ·  2 天前  
阿里技术  ·  浅析 rust 大明星 Tokio ·  4 天前  
程序员的那些事  ·  12 ... ·  3 天前  
阿里云云栖号  ·  亚太唯一!阿里云Serverless计算产品 ... ·  3 天前  
51好读  ›  专栏  ›  知危

阿里开源的新视频模型,没准会成为中国 Adobe

知危  · 公众号  ·  · 2025-05-15 19:24

主要观点总结

阿里巴巴正式开源了视频编辑大模型通义万相Wan2.1-VACE,此模型具备多项功能如图像参考能力、视频重绘能力、局部编辑能力等,可实现视频生成与编辑的碎片化问题的解决。模型具备生产级别的多任务能力,可以支持最基础的文生视频功能,同时实现多种功能而无需为单一功能训练新的专家模型。其通过VCU(Video Condition Unit)实现统一表征和多任务统一,以应对数据构建的挑战。通义万相团队表示面临众多挑战,包括多任务统一建模、细粒度控制以及数据与训练复杂性等。未来视频生成AI模型的发展将更注重提高生成现实度、扩展时长、增强交互性等方面。Wan2.1-VACE的出现标志着AI视频生成进入了一个新的阶段,其生产范式有可能彻底改变视频后期制作的工作流。

关键观点总结

关键观点1: Wan2.1-VACE模型的功能特点

Wan2.1-VACE具备图像参考能力、视频重绘能力、局部编辑能力等,解决了视频生成与编辑的碎片化问题。通过单一模型支持最基础的文生视频功能,同时实现多种功能。

关键观点2: Wan2.1-VACE模型的多任务能力

Wan2.1-VACE具备生产级别的多任务能力,通过VCU(Video Condition Unit)实现统一表征和多任务统一,以应对数据构建的挑战。

关键观点3: 通义万相团队面临的挑战

通义万相团队在实现Wan2.1-VACE模型的过程中面临多任务统一建模、细粒度控制以及数据与训练复杂性等挑战。

关键观点4: 未来视频生成AI模型的发展趋势

未来视频生成AI模型的发展将更注重提高生成现实度、扩展时长、增强交互性等方面,结合物理和3D知识以避免失真。


正文

请到「今天看啥」查看全文



以专业 P 图软件为例, 一款设计软件之所以能在紧张的生产流程中真正派上用场,关键在于它提供了种类繁多、可按需组合的工具生态 :从修补画笔、内容感知填充,到通道混合器、位图 / 矢量蒙版,再到动作脚本和第三方插件,几乎每一种创意诉求都能找到对应 利器


这让设计师能够在不同项目阶段灵活切换思路与技法,无需跳出工作界面就能完成。


而昨晚,阿里巴巴正式开源 通义万相 Wan2.1-VACE ,就在 AI 视频领域实现了生产级别的多任务能力。


开源地址如下:

GitHub https://github.com/Wan-Video/Wan2.1

HuggingFace https://huggingface.co/Wan-AI

魔搭社区: https://www.modelscope.cn/organization/Wan-AI?tab=model


Wan2.1-VACE 拥有 1.3B 14B 两个版本,其中 1.3B 版本适合本地部署和玩法微调,可在消费级显卡运行 ( 此前已发布 Preview 版 ) ,支持 480P 分辨率, 14B 版本生成质量更高,支持 480P 720P 分辨率。


现在,开发者可在 GitHub Huggingface 及魔搭社区下载体验。该模型还将逐步在通义万相官网和阿里云百炼上线。



Wan2.1-VACE 主打 功能最全 可编辑性 ,单一模型不仅支持最基础的文生视频,还同时支持多种功能。不必再为了单一功能训练一个新的专家模型,也省去了部署多个模型的开销。通义万相团队表示: Wan2.1-VACE 是第一个基于视频 DiT 架构的同时支持如此广泛任务的一体化模型。


文本条件大幅提升了视频生成的可编辑性,但却不足以精准控制视频中的所有细节 ( 例如精确的布局、对象形状等 ) ,因此 Wan2.1-VACE 扩展了多任务能力以实现更加精细的可编辑性。


总体而言, Wan2.1-VACE 的多任务能力包括:


  • 图像参考能力 ,给定参考主体 ( 人脸或物体 ) 和背景,生成元素一致的视频内容。

  • 视频重绘能力 ,包括姿态迁移、运动控制、结构控制、重新着色等 ( 基于深度图、光流、布局、灰度、线稿和姿态等控制 )

  • 局部编辑能力 ,包括主体重塑、主体移除、背景延展、时长延展等。


比如图像参考生成,在示例中, Wan2.1-VACE 基于小蛇和女孩的参考图生成了一个视频,女孩在视频里轻轻摸了摸小蛇。图像参考生成对于添加新元素很重要,并能保证多镜头视频中的元素一致性。


提示词:在一个欢乐而充满节日气氛的场景中,穿着鲜艳红色春服的小女孩正与她的可爱卡通蛇嬉戏。她的春服上绣着金色吉祥图案,散发着喜庆的气息,脸上洋溢着灿烂的笑容。蛇身呈现出亮眼的绿色,形状圆润,宽大的眼睛让它显得既友善又幽默。小女孩欢快地用手轻轻抚摸着蛇的头部,共同享受着这温馨的时刻。周围五彩斑斓的灯笼和彩带装饰着环境,阳光透过洒在她们身上,营造出一个充满友爱与幸福的新年氛围。


局部编辑是高效可编辑性也不可或缺的, 能实现删除、替换原有元素以及加入新元素的能力。 在下图中, Wan2.1-VACE 用视频局部编辑能力将女士手里的平板电脑不留痕迹地移除了。


提示词:纪实摄影风格,房产自媒体博主站在一间现代化的客厅中央。博主穿着简洁时尚的衣物,面带微笑,两只手举在身前,手上空无一物正对着镜头介绍房屋情况。背景是一间宽敞明亮的客厅,家具简约现代,落地窗外是绿意盎然的花园。房间内光线充足,温馨舒适。中景全身人像,平视视角,轻微的运动感,如手指轻点屏幕。


此外,通过进一步结合视频重绘,







请到「今天看啥」查看全文