专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
爱可可-爱生活  ·  人人能懂的AI前沿解读(6.3)网页链接 ... ·  2 天前  
宝玉xp  ·  //@Rex牙醫://@鱼姜:认证账号-20 ... ·  2 天前  
爱可可-爱生活  ·  【[31星]Chatterbox-TTS-S ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

ETT:打破原生多模态学习视觉瓶颈,重塑视觉tokenizer优化范式

机器之心  · 公众号  · AI  · 2025-05-27 14:38

正文

请到「今天看啥」查看全文



ETT 的出现彻底改变了这一局面。我们巧妙地引入视觉 tokenizer 的码本嵌入,取代了以往仅使用离散索引的方式,并结合 token 级别的字幕损失函数,对视觉 tokenizer 和下游任务进行联合优化。这样一来,ETT 不仅能够充分利用视觉 tokenizer 内部的丰富特征表示,还能让视觉 tokenizer 根据下游任务的反馈不断调整自身参数,从而更好地适应多模态理解与生成任务的需求。



ETT 的核心架构与训练策略


ETT 的核心架构基于改进的 IBQ 框架。我们通过精心调整码本大小至 131,072 并将特征维度设置为 256,成功构建了一个高效的视觉 tokenizer。


在训练初期,我们利用编码器将输入图像映射到特征空间,经量化器将特征映射到离散码本后,再由解码器重建图像,这一过程奠定了视觉 tokenizer 的基础重构能力。我们还引入了多层感知机作为投影层,将视觉嵌入与预训练大型语言模型的隐藏层维度相匹配,从而实现视觉信息到语言模型的有效映射。


ETT 的训练策略层次分明且重点突出。前期对齐学习阶段,我们在保持预训练的大型语言模型和视觉 tokenizer 参数冻结的状态下,仅训练视觉投影层,利用图像到文本的 caption 损失函数,使语言模型能够从视觉 tokenizer 中直接获取视觉概念和实体,从而建立起视觉与语言模态之间的初步联系。


紧接着,在语义学习阶段,我们解冻大型语言模型、投影层以及视觉 tokenizer 的权重,通过联合优化 caption 损失函数和重建损失函数,对它们进行端到端的训练,使视觉 tokenizer 能够在保持图像重建能力的同时,学习到更强大的感知能力,以支持多模态理解和重建任务。


第二阶段是 ETT 方法的核心创新,让视觉 tokenizer 得以根据下游任务需求深度调优,大幅提升其感知和表征能力。最后是后训练阶段,我们进一步对两个专业模型进行微调,以增强其在特定多模态任务中的表现。








请到「今天看啥」查看全文