专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
爱可可-爱生活  ·  晚安~ #晚安# -20250604230448 ·  16 小时前  
量子位  ·  Manus新功能一手实测!10分钟8页PPT ... ·  昨天  
爱可可-爱生活  ·  【[87星]forge-gfx/forge: ... ·  2 天前  
人工智能那点事  ·  日本女歌手滨崎步否认孩子生父是马斯克 ·  2 天前  
机器之心  ·  字节跳动 2025 奖学金计划启动!每人 ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

机器之心  · 公众号  · AI  · 2025-05-29 11:04

正文

请到「今天看啥」查看全文



虽然当前已有技术能够分别实现从图像生成视频或音频,但将两者「拼接」在一起往往难以自然融合,常见的问题包括语义错位与节奏失调:比如视频中的小狗并未张嘴,却配上了汪汪的叫声;又或是吠叫的动作刚发生,声音却慢半拍甚至不协调。


图像生成有声视频示例:上:图生视频(SVD)+ 图生音频(Im2Wav),下:本工作 JointDiT


因此,如何从一张图片出发,生成同时具备视觉动态性与听觉一致性的完整「视听视频」,成为多模态生成领域亟待突破的关键挑战。


JointDiT:实现图像 → 同步音视频的联合生成


任务定义 :这项研究把图像转有声视频任务(I2SV)定义为:以静态图像作为输入条件(并看作输出视频首帧),生成一个语义匹配、时序同步的「视频 + 音频」(有声视频)片段。


解决方案 :论文提出了一种全新架构 JointDiT,探讨了如何利用两个强大的单模态预训练扩散模型(一个视频生成器,一个音频生成器),在其上构建统一的联合生成框架实现多模态协同生成。


其主要设计包括:


分解与重组预训练模型,实现联合生成框架


为了构建高效的图像转声音视频模型,JointDiT 采用了「重组 + 协同」的创新思路:首先,作者对预训练的音频和视频扩散模型进行层级解构,将每个模型划分为三大模块:输入层(负责模态嵌入)、专家层(模态内部理解与压缩)、输出层(解码生成)。随后,在两个模态的专家层之间引入联合注意力机制与前向模块,形成核心的「Joint Block」,实现音视频间的深层交互。最终,通过共享 Joint Block、独立输入输出层的设计,JointDiT 在保持模态差异处理能力的同时,实现了真正协同的多模态生成,创新性地实现了从一张图片直接生成同步音视频内容。







请到「今天看啥」查看全文