专栏名称: CraftWarmAI
智能聊天机器人(Chatbots)是交互的新趋势,Google、Facebook、Microsoft、百度、阿里等众多公司已加入此阵列,就等你了!我们会定期发布聊天机器人的各种信息,其中使用的机器学习/深度学习技术、产品、分享活动等等
目录
相关文章推荐
51好读  ›  专栏  ›  CraftWarmAI

UI-TARS:利用长期记忆和反思调整迭代优化

CraftWarmAI  · 公众号  · 机器人  · 2025-01-24 18:18

正文

请到「今天看啥」查看全文


,让 VLM 生成

在 ActRe 标注过程中,作者促使 VLM 呈现出更高级的、系统 2 的推理,这包含了深思熟虑、逐步进行的决策与反思。通过推动这些推理模式,作者鼓励模型去进行深思熟虑的、长期的规划与反思,以解决复杂的任务。正如下图所示,作者让 VLM 遵循的推理模式有:

  • 任务分解 :引导模型把复杂任务拆解为更小的、可管理的子任务,让其能够一步步地处理复杂的工作流程。
  • 长期一致性 :保证模型在整个任务中保持一致的目标,参考整体目标和操作历史,避免在复杂的多步骤任务中出现偏离。
  • 里程碑识别 :让模型能够识别中间目标的达成,助力顺利过渡到后续目标。
  • 试错 :让模型能够假设、测试和评估潜在的动作,特别是在模糊的情形下,比如在不直接交互的情况下核实搜索结果。
  • 反思 :让模型能够在操作失败时识别并纠正错误,通过反思性推理鼓励适应性和错误恢复。

(2) Thought Bootstrapping

Thought Bootstrapping :基于真实动作的条件对想法进行反向标注(即 ActRe)可能会产生误报,原因是 生成的想法可能在表面上看似与相应动作相符,却未确立真正的因果关系 。具体而言,动作背后的推理过程或许会被忽视,致使想法与动作的一致仅仅是巧合,而非通过逻辑推理达成。此问题之所以产生,是因为标注过程依赖于事先知晓动作,这可能会使想法倾向于与动作一致,而非反映出导致该动作的实际决策过程。

为解决此问题,作者采取了一种 bootstrapping 方式,在不具备真实动作的先验知识的情况下生成想法。通过对多个想法-动作对进行采样,如下式中所示,作者找出得到正确动作的想法,确保推理与所选动作存在因果关联。这种方法生成了更高质量的标注,因为它迫使模型模拟真实的决策流程,而不仅仅是为预先确定的动作进行辩解( 表示早期的模型 checkpoint)。

📌 ActRe 和 Thought Bootstrapping 这两阶段是怎么组合使用的?先利用 ActRe 的结果训练初版的

作者 以中文和英文对想法进行标注 ,拓展了语言的多样性。

虽然作者为所有的轨迹都增添了想法(thought),但 在训练过程中也包含了原始的动作轨迹(不含想法) 。这个应该是通过不同的prompt来控制输出中是否包含想法。

跨平台统一的动作空间

从长期记忆的过往经验进行学习(利用已有模型迭代收集更多训练数据)

作者让 UI-TARS 能够从与真实世界设备的交互中动态学习。 借助半自动的数据收集、过滤和完善,在最大程度降低人工干预需求的同时模型持续改进。

Online Trace Bootstrapping

给定指令集合







请到「今天看啥」查看全文