正文
,让 VLM 生成
:
在 ActRe 标注过程中,作者促使 VLM 呈现出更高级的、系统 2 的推理,这包含了深思熟虑、逐步进行的决策与反思。通过推动这些推理模式,作者鼓励模型去进行深思熟虑的、长期的规划与反思,以解决复杂的任务。正如下图所示,作者让 VLM 遵循的推理模式有:
-
•
任务分解
:引导模型把复杂任务拆解为更小的、可管理的子任务,让其能够一步步地处理复杂的工作流程。
-
•
长期一致性
:保证模型在整个任务中保持一致的目标,参考整体目标和操作历史,避免在复杂的多步骤任务中出现偏离。
-
•
里程碑识别
:让模型能够识别中间目标的达成,助力顺利过渡到后续目标。
-
•
试错
:让模型能够假设、测试和评估潜在的动作,特别是在模糊的情形下,比如在不直接交互的情况下核实搜索结果。
-
•
反思
:让模型能够在操作失败时识别并纠正错误,通过反思性推理鼓励适应性和错误恢复。
(2) Thought Bootstrapping
Thought Bootstrapping
:基于真实动作的条件对想法进行反向标注(即 ActRe)可能会产生误报,原因是
生成的想法可能在表面上看似与相应动作相符,却未确立真正的因果关系
。具体而言,动作背后的推理过程或许会被忽视,致使想法与动作的一致仅仅是巧合,而非通过逻辑推理达成。此问题之所以产生,是因为标注过程依赖于事先知晓动作,这可能会使想法倾向于与动作一致,而非反映出导致该动作的实际决策过程。
为解决此问题,作者采取了一种
bootstrapping
方式,在不具备真实动作的先验知识的情况下生成想法。通过对多个想法-动作对进行采样,如下式中所示,作者找出得到正确动作的想法,确保推理与所选动作存在因果关联。这种方法生成了更高质量的标注,因为它迫使模型模拟真实的决策流程,而不仅仅是为预先确定的动作进行辩解(
表示早期的模型 checkpoint)。
📌
ActRe 和 Thought Bootstrapping
这两阶段是怎么组合使用的?先利用 ActRe 的结果训练初版的
?
作者
以中文和英文对想法进行标注
,拓展了语言的多样性。
虽然作者为所有的轨迹都增添了想法(thought),但
在训练过程中也包含了原始的动作轨迹(不含想法)
。这个应该是通过不同的prompt来控制输出中是否包含想法。
跨平台统一的动作空间
从长期记忆的过往经验进行学习(利用已有模型迭代收集更多训练数据)
作者让 UI-TARS 能够从与真实世界设备的交互中动态学习。
借助半自动的数据收集、过滤和完善,在最大程度降低人工干预需求的同时模型持续改进。
Online Trace Bootstrapping
给定指令集合