主要观点总结
本文介绍了Thinking with Generated Images的理念和技术实现,这是一种让大模型能够自发生成视觉中间步骤,像人类一样用「脑内图像」进行跨模态推理的方法。文章详细阐述了视觉思维在多专业领域和日常生活中的重要性,以及实现Thinking with Generated Images的技术细节,包括数据收集、训练策略、推理策略等。文章还讨论了该技术的实验设计和结果分析,以及未来展望。
关键观点总结
关键观点1: Thinking with Generated Images的概念和重要性
Thinking with Generated Images是一种让大模型能够像人类一样用「脑内图像」进行跨模态推理的方法。视觉思维在多专业领域和日常生活中扮演着不可替代的核心角色。该技术旨在实现模型的自发性视觉思考,使其能够创造概念间的独特组合和新颖连接,发现仅通过纯文本推理无法获得的洞察和创意。
关键观点2: Thinking with Generated Images的技术实现
实现Thinking with Generated Images需要采用自发原生多模态长思维链的技术框架。这包括设计专门的数据收集流程、训练策略和推理策略。研究团队提出了两种自发原生多模态长思维链模式:视觉子目标分解和视觉假设的自我反思迭代。这两种模式分别模拟了人类在处理复杂视觉任务时的分而治之策略和创作过程中的「草稿-修改-完善」循环机制。
关键观点3: 实验结果和分析
实验结果表明,采用自发原生多模态长思维链的模型在视觉生成任务上的性能得到了显著提升。视觉子目标分解和视觉自我批判模式的评估结果证明了该方法的有效性。与基线模型相比,TwGI-Anole-7b-Obj在GenEval和DPGBench两个基准上的表现均优于基线模型,显示了其在处理复杂视觉任务时的更强能力。
关键观点4: 未来展望
Thinking with Generated Images的能力有望推动AI在需要空间想象和动态规划的领域实现突破,如创造性设计、科学发现和战术规划等。随着技术的不断进步,AI将获得更多类似于人类的视觉想象力,从而实现更高级别的智能推理。
正文
-
跨模态原生思维能力:通过单次推理过程即可「原生」地生成多模态的 tokens,使模型能够自然无缝地跨模态进行「思考」。
-
统一生成式任务执行:通过生成式范式原生地执行多样化的多模态任务。
-
自然测试时扩展机制:通过生成的「长」思维过程提供自然跨模态的测试时扩展,使模型能够通过生成更长、更详细的多模态长思维过程,在推理时投入更多计算来提升性能质量。
-
未来技术集成兼容性和可扩展性:单一模型集成的架构便于未来与强化学习等训练后扩展技术的集成,简化了训练和推理持续扩展的复杂度。
两种自发原生多模态长思维链模式
研究团队深入分析人类多模态长思维的认知模式,据此设计并提出了两种原生多模态长思维链模式,应用于视觉生成任务上,最大的体现 Thinking with Generated Images 的优势:
-
视觉子目标分解(Vision Generation with Intermediate Visual Subgoals)
:视觉子目标分解模拟了人类在处理复杂视觉任务时的分而治之策略。面对较为复杂或多物体的视觉生成任务(如「一张沙发和一个酒杯」),模型首先进行整体性的分析,将大的视觉任务拆解成小的目标,分步生成沙发和酒杯的独立图像,再组合成最终结果。每个中间图像都承载了特定的子目标语义,不仅是视觉内容的载体,更是推理过程中的「思维节点」。视觉子目标分解允许模型在处理复杂视觉生成任务时保持对细节的精确控制,避免了直接生成复杂图像时可能出现的元素遗漏、比例失调或风格不一致等问题。
图 3:原生多模态长思维链在GenEval上的例子。
-
提出视觉假设并自我反思迭代(Vision Generation with Self-Critique):
提出视觉假设并自我反思迭代体现了人类创作过程中的「草稿-修改-完善」循环机制。模型首先基于输入提示生成一个初始的视觉假设图像,这个假设通常包含了对任务的基本理解但可能存在各种不完善之处。模型随后以文本反思形式对自己生成的图像进行深入的多角度分析,包括内容完整性检查(如「图像缺乏雨伞」)、视觉质量评估(如「更清晰的海景化」)、语义一致性验证(如「更清楚的展示冰淇淋的融化」)、构图合理性判断(如「增强图像对比度」)等等。模型通过建立视觉假设、批判性分析、策略性改进的迭代过程来逐步优化生成结果,实现了视觉和文本模态之间的深度协同,形成了一个有效的自我改进反馈循环,显著提升了生成图像的质量和准确性。
图 4:原生多模态长思维链在DPG-Bench上的例子。
自发原生多模态长思维链在多模态统一理解生成模型的实现
研究团队选择在自回归 next-token-prediction 的多模态统一理解生成模型上开发原生多模态长思维链,这一决策基于几个层次的技术考虑:
-
自回归架构与人类思维过程的天然契合性。
人类的思维过程本质上是序列化的——我们在思考复杂问题时,会逐步构建想法,从一个概念过渡到另一个概念,在文本思考和视觉想象之间自然切换。自回归模型通过逐 token 生成的方式,能够最自然地模拟这种渐进式、序列化的思维展开过程。
-
统一架构的简洁性和可扩展性优势。
相比于需要协调多个独立组件的复杂系统架构,自回归统一模型提供了一个优雅的解决方案。在这种架构下,文本推理、视觉生成、自我批判等所有能力都统一在同一个模型中,避免了多组件系统中常见的信息传递损失、同步协调复杂性等问题。
-
与现有技术生态的深度兼容性。
当前大语言模型领域已经在自回归架构上积累了丰富的训练技巧、优化方法和推理技术。选择这一架构使得研究团队能够直接继承和利用这些成熟的技术成果,而不需要从零开始构建全新的技术栈。
-
未来发展的技术路径一致性。
随着计算能力的不断提升和算法的持续优化,自回归架构展现出了强大的扩展潜力。选择这一技术路径确保了研究成果能够与未来的技术发展趋势保持一致,具备长期的技术价值。
在确定了自回归架构的技术路线后,团队选择 Anole 作为基础模型。目前大多数模型都缺乏真正的交错多模态生成能力,而这正是实现「原生多模态长思维过程」的关键技术瓶颈。Anole 相比其他多模态模型具有两个关键优势:
-
原生交错生成能力:
Anole 直接在交错的文本-图像 token 上进行预训练和后训练,具备了交错生成多模态 token 的固有能力,这是实现本研究目标的基础前提。
-
高效的视觉表示机制:
Anole 采用相对高效的图像表示方案,使得基于原生多模态长思维过程的测试时扩展在合理的推理预算内成为可能。