该方法始于自上而下的二维观测 o^Top_t(g)−W,即在抓取时刻之前捕获的 W 帧图像。由于 t(g) 时刻的近距离抓取姿势可能仅部分捕捉到物体,因此较早的帧提供了物体几何形状的全面视图。时间窗口大小 W 固定为 10。使用根据任务需求定制的提示,VLM 生成稳定抓取配置的文本描述,作为迭代优化过程的先验。
该过程首先使用 LaMa 修复模型(Suvorov,2022)恢复被遮挡的背景区域,以创建完整的背景图像。然后,通过融合恢复的背景、抓取器和变换后的前景物体来构建合成图像。物体与抓取器的对齐是通过在抓取检测阶段的接触点信息引导下进行常规图像变换(旋转和平移)来实现的。生成的目标状态图像真实地表示所需的抓取姿态,并为后续的动作生成步骤奠定了基础。