GraspCorrect：通过视觉-语言模型引导反馈进行机器人抓握矫正

大语言模型和具身智体及自动驾驶 · 公众号 · · 2025-06-12 13:25

正文

请到「今天看啥」查看全文

预训练的 VLM 为这项任务提供了丰富的常识性知识库。然而，将其直接应用于空间推理面临两大挑战。首先，VLM 针对生成文本输出进行了优化，使其不适合生成坐标或动作等连续值。其次，即使是最先进的 VLM 也难以进行复杂的空间推理（Wang，2024；Chen，2024；Tang，2024b）。

为了克服这些限制，采用一种迭代的 VQA 方法，逐步优化抓取候选点，而不是尝试直接生成精确的空间坐标。基于 PIVOT (Nasiriany，2024) 的迭代改进策略，引入两项关键改进：（1）抓握引导提示，其中纳入特定于任务的约束；（2）目标-觉察采样，确保生成的抓握候选在物理上是可行的。

该方法始于自上而下的二维观测 o^Top_t(g)−W，即在抓取时刻之前捕获的 W 帧图像。由于 t(g) 时刻的近距离抓取姿势可能仅部分捕捉到物体，因此较早的帧提供了物体几何形状的全面视图。时间窗口大小 W 固定为 10。使用根据任务需求定制的提示，VLM 生成稳定抓取配置的文本描述，作为迭代优化过程的先验。

为了确保精准定位，用 LangSAM，这是一个零样本文本-到-分割掩码的框架，它结合 GroundingDINO（Liu，2025）和 Segment-Anything（Kirillov，2023）。此分割步骤将抓取建议限制在实际物体上，避免了可能针对背景元素的幻觉。

抓取候选点最初沿物体轮廓进行采样（如图所示圆圈）。VLM 评估这些点，以识别可能支持稳定抓取的候选点（红色圆圈）。然后，通过以这些有希望的点为中心的一维高斯分布沿物体轮廓进行采样，生成新的候选点。迭代次数 T 固定为 4，在最后一次迭代中，选择一个候选点。

视觉目标生成

此阶段基于输入观测值{o_t(g), o_t(g)−W}以及抓取检测阶段识别的抓取点，合成目标抓取姿态图像o^∗_t(g)，该图像描绘了机器人抓取器（左和右）、目标物体及其空间关系。

该过程首先使用 LaMa 修复模型（Suvorov，2022）恢复被遮挡的背景区域，以创建完整的背景图像。然后，通过融合恢复的背景、抓取器和变换后的前景物体来构建合成图像。物体与抓取器的对齐是通过在抓取检测阶段的接触点信息引导下进行常规图像变换（旋转和平移）来实现的。生成的目标状态图像真实地表示所需的抓取姿态，并为后续的动作生成步骤奠定了基础。