专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
目录
相关文章推荐
浙江经信  ·  两部门发文!涉及智能机器人 ·  5 小时前  
浙江经信  ·  两部门发文!涉及智能机器人 ·  5 小时前  
上海人力资源和社会保障  ·  上交会倒计时ing!招聘会彩蛋等你来解锁,报名入! ·  7 小时前  
上海人力资源和社会保障  ·  上交会倒计时ing!招聘会彩蛋等你来解锁,报名入! ·  7 小时前  
中科院之声  ·  200万年前岩芯,暗藏未来气候走向 | 科技前线 ·  14 小时前  
中科院之声  ·  200万年前岩芯,暗藏未来气候走向 | 科技前线 ·  14 小时前  
Java知音  ·  SpringBoot3终极武器!国产Folk ... ·  昨天  
Java知音  ·  SpringBoot3终极武器!国产Folk ... ·  昨天  
51好读  ›  专栏  ›  将门创投

BAGEL:更聪明的统一生成理解模型

将门创投  · 公众号  · 科技创业  · 2025-05-30 08:22

正文

请到「今天看啥」查看全文


文本、图像、视频 tokens 在同一 Transformer 层中直接交互,避免信息压缩;且 扩展性强 支持大规模交错数据训练,兼容长上下文和复杂任务;最重要的是通过共享参数,理解与生成能力可协同优化,促进复杂推理能力的涌现。但存在的挑战很明显, 训练成本高 需同时优化语言建模与扩散生成,计算资源需求显著高于前两类方案。

Mo T架构

我们最终在BAGEL里选择了BAGEL 选择 一集成 Transformer 的架构。考虑到以往方案理解模块与生成模块的参数独立优化,导致跨模态对齐不足。我们使用 混合 Transformer 专家(MoT) ,让理解专家(处理Text / ViT tokens)与生成专家(处理 VAE tokens)共享自注意力层,实现语义信息的无损传递(如下图所示,MoT 架构的 MSE 损失收敛更快,CE Loss也稳定更低)。

同架构收 敛对比

更重要的是,MoT架构能 支持 复杂能力的 涌现 。大规模交错数据(如视频帧序列、网页图文段落)需要模型具备 时间 - 空间联合建模能力 。MoT集成架构允许模型学习跨模态的长期关联,而外接扩散模型因瓶颈限制难以捕捉此类细节。再者集成架构可扩展性强,BAGEL 后续可通过 RL 优化导航、物理模拟等需要端到端推理的任务。

三、Data

训练数据

如图所述, BAGEL 的数据 体系以「 跨模 态交错 」和「 语义丰富性 」为核心,覆盖 文本、图像、视频、网页 四大模态,总量达 数万亿token 。除了基础的文本数据和图文数据对外,我们采集构造了大量的交错数据:

交错数据构造流程

  • 频-文本交 错数据 来自公开视频库(如 YouTube 教育视频、科普短片)+ 开源数据集 Koala36M(含交互场景) MVImgNet2.0( 多视角物体数据)。

  • 网页 - 文本交错数据 来自OmniCorpus 网页数据集(含教程、百科、设计文档)+ 结构化编辑数据集(如 OmniEdit、UltraEdit)。

  • 以及推理以增强数据:包括文生图、自由图像操控和智能编辑,使用开源VLM/LLM辅助构建推理过程。

四、Training

训练超参

我们采用 四阶段







请到「今天看啥」查看全文