专栏名称: AI科技评论
点评学术,服务 AI !
目录
相关文章推荐
庞门正道  ·  很反感30多岁失业言论。 ·  11 小时前  
微讯江苏  ·  官宣!“苏超”篮球赛来了 ·  16 小时前  
字体设计  ·  第71届纽约字体指导俱乐部展今日开幕 ·  3 天前  
51好读  ›  专栏  ›  AI科技评论

拳打可灵,脚踢 Veo 3,谁是物理世界的「懂王」?

AI科技评论  · 公众号  ·  · 2025-06-19 20:03

正文

请到「今天看啥」查看全文


Hailuo 02

相比之下,对标的测试模型便出现“马浅跳,但人高飞”的情况,起跳过程也完全发生在了障碍物以外。

可灵2.1大师版

类似的场景还有“hellokitty打网球”,大量的模型在这个prompt测试词上翻了大车。

海螺基本能实现球拍与球之间的互动:

Hailuo 02

但有些对标测试模型则出现了“精灵球”的情况,有点像哈利波特的场景,球很有自己的想法:

vidu

同样的球与拍之间出现了神秘磁场:

luma

大变活“球”:

即梦:视频3.0 pro

而对世界物理规律具体而微的理解,只是复杂动作的难点之一。在一些快速移动的运动中,往往会面临背景的快速变化。相比于人的动作,背景视野的大范围移动意味着模型优秀的空间感知能力。

其中最典型的莫过于滑雪运动:镜头固定在快速变化的人体动作的同时,雪景可能随着人的拍摄角度和速度移动而不断迁移,场地本身则会随着雪橇板的移动而掀起雪浪、留下移动轨迹。

Hailuo 02基本重建了滑雪场的环境视觉效果,滑雪板会留下仿真的雪痕,雪浪飞舞的方向与大小也随着动作和轨迹的变化而变化。

Hailuo 02

相比之下,同类模型的雪道缺乏动态,在快速移动收尾时,雪橇板会在高速运动中,出现从双脚“脱落”的穿模现象。

可灵2.1大师版

如果你看完了以上两段雪场视频,或许会发现,在第二段视频中,镜头其实是没有保持一致性的。其整个5秒视频,总计是由一段3秒和一段2秒的视频组合起来的,画面从近景切换到全景,从而达到某种类似蒙太奇的视觉效果。

这其实是由于“跨帧连贯性” 长期困扰视频生成模型的痛点,视频的连续画面每增加一秒,对于时序一致性的处理难度便会几何级地提升,更遑论保持长镜头、高强度的运动画面中的画面稳定。

这也是为何,绝大部分的大模型视频长度都被设计在10秒以内,同时在10秒的选项之外,还会给出能力更稳健、成本更友好的5秒选项。

但一些快速的运动轨迹,意味着模型必须在短时间内产生大量的动作与物体交互,这些高强度交互,相当于在有限时间内快速提高了保持视频时序一致性的难度。因此即便一些交互看起来并不复杂,但一旦频次超过阈值,模型也可能会摆烂。

例如在经典的抛多个小球的杂技场景里,Hailuo 02演示了很稳定的镜头表现。画面中六个小球的大小和颜色虽然都很相似,但观众依然可以分辨出每一个小球的运行轨迹,其中绝大部分的小球也在运动中保持了稳定的形态。

提示词:画面中人物快速抛接球体,彩带飘动落下,人物不停抛接球体——







请到「今天看啥」查看全文