专栏名称: CraftWarmAI

智能聊天机器人（Chatbots）是交互的新趋势，Google、Facebook、Microsoft、百度、阿里等众多公司已加入此阵列，就等你了！我们会定期发布聊天机器人的各种信息，其中使用的机器学习/深度学习技术、产品、分享活动等等

UI-TARS：利用长期记忆和反思调整迭代优化

CraftWarmAI · 公众号 · 机器人 · 2025-01-24 18:18

正文

请到「今天看啥」查看全文

，让 VLM 生成：

在 ActRe 标注过程中，作者促使 VLM 呈现出更高级的、系统 2 的推理，这包含了深思熟虑、逐步进行的决策与反思。通过推动这些推理模式，作者鼓励模型去进行深思熟虑的、长期的规划与反思，以解决复杂的任务。正如下图所示，作者让 VLM 遵循的推理模式有：

• 任务分解 ：引导模型把复杂任务拆解为更小的、可管理的子任务，让其能够一步步地处理复杂的工作流程。
• 长期一致性 ：保证模型在整个任务中保持一致的目标，参考整体目标和操作历史，避免在复杂的多步骤任务中出现偏离。
• 里程碑识别 ：让模型能够识别中间目标的达成，助力顺利过渡到后续目标。
• 试错：让模型能够假设、测试和评估潜在的动作，特别是在模糊的情形下，比如在不直接交互的情况下核实搜索结果。
• 反思：让模型能够在操作失败时识别并纠正错误，通过反思性推理鼓励适应性和错误恢复。

(2) Thought Bootstrapping

Thought Bootstrapping ：基于真实动作的条件对想法进行反向标注（即 ActRe）可能会产生误报，原因是 生成的想法可能在表面上看似与相应动作相符，却未确立真正的因果关系 。具体而言，动作背后的推理过程或许会被忽视，致使想法与动作的一致仅仅是巧合，而非通过逻辑推理达成。此问题之所以产生，是因为标注过程依赖于事先知晓动作，这可能会使想法倾向于与动作一致，而非反映出导致该动作的实际决策过程。

为解决此问题，作者采取了一种 bootstrapping 方式，在不具备真实动作的先验知识的情况下生成想法。通过对多个想法-动作对进行采样，如下式中所示，作者找出得到正确动作的想法，确保推理与所选动作存在因果关联。这种方法生成了更高质量的标注，因为它迫使模型模拟真实的决策流程，而不仅仅是为预先确定的动作进行辩解（表示早期的模型 checkpoint）。

📌 ActRe 和 Thought Bootstrapping 这两阶段是怎么组合使用的？先利用 ActRe 的结果训练初版的？

作者 以中文和英文对想法进行标注 ，拓展了语言的多样性。

虽然作者为所有的轨迹都增添了想法（thought），但 在训练过程中也包含了原始的动作轨迹（不含想法） 。这个应该是通过不同的prompt来控制输出中是否包含想法。

跨平台统一的动作空间

从长期记忆的过往经验进行学习（利用已有模型迭代收集更多训练数据）

作者让 UI-TARS 能够从与真实世界设备的交互中动态学习。 借助半自动的数据收集、过滤和完善，在最大程度降低人工干预需求的同时模型持续改进。

Online Trace Bootstrapping

给定指令集合