拳打可灵，脚踢 Veo 3，谁是物理世界的「懂王」？

AI科技评论 · 公众号 · · 2025-06-19 20:03

正文

Hailuo 02

相比之下，对标的测试模型便出现“马浅跳，但人高飞”的情况，起跳过程也完全发生在了障碍物以外。

可灵2.1大师版

类似的场景还有“hellokitty打网球”，大量的模型在这个prompt测试词上翻了大车。

海螺基本能实现球拍与球之间的互动：

Hailuo 02

但有些对标测试模型则出现了“精灵球”的情况，有点像哈利波特的场景，球很有自己的想法：

vidu

同样的球与拍之间出现了神秘磁场：

luma

大变活“球”：

即梦：视频3.0 pro

而对世界物理规律具体而微的理解，只是复杂动作的难点之一。在一些快速移动的运动中，往往会面临背景的快速变化。相比于人的动作，背景视野的大范围移动意味着模型优秀的空间感知能力。

其中最典型的莫过于滑雪运动：镜头固定在快速变化的人体动作的同时，雪景可能随着人的拍摄角度和速度移动而不断迁移，场地本身则会随着雪橇板的移动而掀起雪浪、留下移动轨迹。

Hailuo 02基本重建了滑雪场的环境视觉效果，滑雪板会留下仿真的雪痕，雪浪飞舞的方向与大小也随着动作和轨迹的变化而变化。

Hailuo 02

相比之下，同类模型的雪道缺乏动态，在快速移动收尾时，雪橇板会在高速运动中，出现从双脚“脱落”的穿模现象。

可灵2.1大师版

如果你看完了以上两段雪场视频，或许会发现，在第二段视频中，镜头其实是没有保持一致性的。其整个5秒视频，总计是由一段3秒和一段2秒的视频组合起来的，画面从近景切换到全景，从而达到某种类似蒙太奇的视觉效果。

这其实是由于“跨帧连贯性” 是长期困扰视频生成模型的痛点，视频的连续画面每增加一秒，对于时序一致性的处理难度便会几何级地提升，更遑论保持长镜头、高强度的运动画面中的画面稳定。

这也是为何，绝大部分的大模型视频长度都被设计在10秒以内，同时在10秒的选项之外，还会给出能力更稳健、成本更友好的5秒选项。

但一些快速的运动轨迹，意味着模型必须在短时间内产生大量的动作与物体交互，这些高强度交互，相当于在有限时间内快速提高了保持视频时序一致性的难度。因此即便一些交互看起来并不复杂，但一旦频次超过阈值，模型也可能会摆烂。

例如在经典的抛多个小球的杂技场景里，Hailuo 02演示了很稳定的镜头表现。画面中六个小球的大小和颜色虽然都很相似，但观众依然可以分辨出每一个小球的运行轨迹，其中绝大部分的小球也在运动中保持了稳定的形态。

提示词：画面中人物快速抛接球体，彩带飘动落下，人物不停抛接球体——