主要观点总结
本文介绍了开源视频生成模型Magi-1的相关信息和特点,包括其物理真实性、自回归架构、全球首个高质量自回归视频模型等。同时,文章还提到了Magi-1的团队背景和创始人曹越的相关信息,以及Magi-1的技术原理、解决思路、训练方法、模型结构等。最后,文章强调了Magi-1的目标是让视频生成符合规律,构建更真实的物理世界模拟器。
关键观点总结
关键观点1: Magi-1是全球首个高质量自回归视频模型,为开源形式,给中国开源涨了波脸。
Magi-1在物理真实性上表现优秀,特别是在物理真实性测试中高于谷歌的VideoPoet。其采用自回归架构,遵循现实的因果律,使模型在相关推理任务中遥遥领先。
关键观点2: Magi-1背后的团队是Sand.ai,创始人曹越具有深厚的科研背景。
Sand.ai团队在视频生成领域有着出色的表现,团队人员构成主要是技术人员,其中包括科研出身的算法专家。团队从底层通信元语到上层调度算法都进行了全栈创新。
关键观点3: Magi-1的技术原理包括chunk-by-chunk的自回归生成方法、block-causal attention机制等。
Magi-1采用chunk-by-chunk的自回归生成方式处理视频数据,通过block-causal attention机制保证每一段的生成都带着「记忆」,并且不会被未来的信息干扰。
正文
各类相关量表
然后,这个 Magi 开源了,从4.5B到24B:
https://huggingface.co/sand-ai/MAGI-1
4.5B 模型预计4月底上,最低 4090 就能跑
再然后,他们还上线了一个可以开箱即用的产品:
https://sand.ai/magi
Magi-1 背后的团队,是 Sand.ai
创始人是曹越,「光年之外」联合创始人。
之前,在他办公室里聊了半个下午,
问了大量私货,有了这篇文章
本篇,应是对 Sand.ai 最全面的介绍了
是谁做的?
创始人是
曹越
。
清华特等奖学金,ICCV 马尔奖(Marr Prize),
Swin Transformer 共同一作,博士毕业后加入微软亚洲研究院,后任智源研究院视觉中心负责人
。
2023 年年初,他和王慧文、袁进辉共同创立了大模型公司「
光年之外
」,担任
算法联创
。
之后,光年之外被收购。
袁进辉成立了「硅基流动」,而曹越则继续深耕视频生成方向,
并 2024 年正式创立 Sand.ai(三呆科技...这名字太抽象了)
,Magi-1 便是团队推出的首个模型产品。
我眼中的曹越
曹越非常
敏锐
,思维
极为清晰
,不讲玄虚,
会把一个个概念拆成因果
讲清楚。
有一天,在 Sand.ai 的办公室,我们就视频生成的未来,聊了整个下午。
主题很直接
视频能不能被真正「生成」?
如果能,路径应该是怎样的?
我们聊了视频生成的各类方法,比如 DiT。看起来高效、效果也不错,但它本质上是
把几秒钟的视频,一次性生成
。
生成视频的时候,
过去和未来是同时出现,不存在时间
。
因此,在视频生成的 AI 中:
控制「场景」容易,控制「发生」很难
。
问题很直白
如果视频是时间的表达,那生成它的方式,就必须能处理时间。
这也是 Magi-1 的起点:
如果想让视频更符合人的认知,就要有时间因果性,就不能假装时间是静态的
。
于是,Magi-1 便开始了此路径上的探索:
秒内 Dit,秒外自回归,每一段视频都是基于前面的内容,往下推进
。
这也便有了后面会看到的
chunk-by-chunk 结构
,也是为什么
它可以精确到每一秒发生什么
、能接着拍下去,而不是只是「画出一段动图」。
团队不大,出身很硬
Sand.ai 的团队不大,
三十人的团队,几乎都是技术人员,其中不乏科研出身的算法专家
。
联合创始人
张拯
,也是 Swin Transformer 的作者之一,ACM 亚洲金牌,MSRA 老同事。他和曹越在微软合作了五年,一起打磨过不少视觉模型。Google Scholar 引用接近 5 万,算是这条路线里默默干活、极少抛头露面的那种人。