专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
相关文章推荐
新浪科技  ·  【老外急了!#Labubu成跨境电商搜索TO ... ·  昨天  
虎嗅APP  ·  暴跌的榴莲 ·  昨天  
51好读  ›  专栏  ›  DeepTech深科技

AI一次性生成63秒《猫和老鼠》动画片,采用测试时训练层,无编辑无拼接剧情100%全新

DeepTech深科技  · 公众号  · 科技媒体  · 2025-04-09 16:44

正文

请到「今天看啥」查看全文



研究中,他们从一个预训练的扩散

Transformer CogVideo-X 5B )开始,原本其只能以 16 帧每秒的速度生成 3 秒的短片段,或以 8 帧每秒的速度生成 6 秒的短片段。


但是,研究人员添加了从头初始化的测试时训练层,并对该模型进行微调,以便根据文本分镜脚本生成一分钟的视频。


他们将自注意力层限制在

3 秒的片段内,以便将研究成本保持在可控范围内。整个训练过程运行在 256 个英伟达 H100 上,相当于消耗了 50 小时的训练时长。


为了快速进行迭代, 研究人员基于约

7 小时的《猫和老鼠》动画片,并辅以人工标注的分镜脚本,整理了一个文本到视频的数据集。


作为概念验证,本次研究中的数据集侧重于复杂、多场景、长镜头且充满动态动作的叙事。而对于视觉和物理真实感方面,此前人们已经取得显著进展,所以本次研究未作重点强调。


(来源:资料图)


从宏观层面来看,本次方法只是在预训练的扩散

Transformer Diffusion Transformer )上添加了测试时训练层,并在带有文本注释的长视频上进行微调。


他们采用了预先添加测试时训练层、然后再进行微调的方法,这种方法原则上适用于任何主干架构。


研究中,他们选择扩散

Transformer 作为初步演示,因为它是视频生成中最流行的架构。由于在视频上预训练扩散 Transformer 的成本过高,所以研究人员从 CogVideo-X 5B 的预训练检查点开始。


他们将视频设计为包含多个场景,

每个场景包含一个或多个 3 秒的片段,并采用 3 秒片段作为文本与视频配对的最小单位,之所以这样做的原因有三个:


第一,原始预训练的

CogVideo-X 的最大生成长度为 3 秒。第二,在《猫和老鼠》的剧集中,大多数场景的时长至少为 3 秒。第三,以 3 秒为一段构建多阶段数据集最为方便。


在推理阶段,研究人员按照以下三种格式中的任何一种,以详细程度递增的顺序来编写长视频的文本提示。


• 格式

1 :用 5-8 句话简短概述情节。


• 格式 2 :用大约 20 句话详细描述情节,每句话大致对应 3 秒的片段。


• 格式 3 :分镜脚本。每一个 3 秒钟的片段都由一段 3 5 句话来描述,内容包含背景颜色和镜头移动等细节。一个或多个段落组成的脚本组,会被严格地界定为属于某些场景,并且要使用关键词







请到「今天看啥」查看全文