专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

AI生成视频总不符合物理规律?匹兹堡大学团队新作PhyT2V:不重训练模型也能让物理真实度狂飙2.3...

机器之心  · 公众号  · AI  · 2025-05-19 12:03

正文

请到「今天看啥」查看全文



然而,尽管单帧视频质量很高,当前的 T2V 模型在遵守现实世界常识和物理规则方面存在显著不足。例如,它们可能无法正确处理物体的数量、材质特性、流体动力学、重力、运动、碰撞和因果关系。



现有让 T2V 模型生成内容更符合物理规则的方法主要存在以下局限性,尤其是在处理训练数据未涵盖的分布外(out-of-distribution,OOD)场景时:


  • 数据驱动方法局限:大多数现有方法是数据驱动的,依赖于大规模多模态 T2V 数据集来训练扩散模型。然而,这高度依赖于数据集的数量、质量和多样性。由于物理规则并未在训练过程中被显式嵌入,这些方法在训练数据未覆盖的分布外领域泛化能力受限,视频生成质量会大幅下降。真实世界场景的巨大多样性进一步限制了这些模型的通用性。


  • 注入物理知识方法的局限:也有研究尝试使用现有的 3D 引擎(如 Blender、Unity3D、Unreal)或数学模型将物理知识注入到 T2V 模型中。但这些方法通常受限于固定的物理类别和模式,如预定义的物体和运动,同样缺乏通用性。


  • 现有提示增强方法的局限:虽然有研究表明通过细化提示可以改善分布外提示下的视频生成质量,但现有许多提示增强方法仅仅是基于主观经验简单地增强或修改提示,而缺乏一个有效的反馈机制来判断生成的视频在多大程度上偏离了现实世界知识和物理规则,以及当前的提示增强是否有效提升了视频的物理真实度。


  • 额外输入方法的局限:一些方法尝试通过提供额外输入模态为 T2V 模型提供反馈。但这会引入大量的额外计算开销并且缺乏通用性。


为了实现可泛化的物理真实的 T2V 生成,匹兹堡大学的研究人员提出了 PhyT2V。


PhyT2V 不通过扩展数据集或复杂化模型架构,而是通过将现实世界知识和物理规则嵌入到文本提示中,提供足够的上下文,从而将现有 T2V 模型的生成能力扩展到分布外领域。








请到「今天看啥」查看全文