专栏名称: 大语言模型和具身智体及自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
刀法研究所  ·  从亏钱风口到出海逆袭,他如何靠种蘑菇6个月营 ... ·  20 小时前  
字节跳动技术团队  ·  IJCAI 25 | ... ·  23 小时前  
架构师之路  ·  美团的童鞋,有个问题麻烦您帮忙看一下... ·  昨天  
刀法研究所  ·  看完200+个618黑马品牌,我们发现了新消 ... ·  昨天  
刀法研究所  ·  if椰子水通过港交所聆讯;优衣库联名LABU ... ·  昨天  
51好读  ›  专栏  ›  大语言模型和具身智体及自动驾驶

GeoDrive:基于三维几何信息有精确动作控制的驾驶世界模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-06-11 00:10

正文

请到「今天看啥」查看全文



从参考图像中提取 3D 表示

为了利用 3D 信息进行 3D 一致性生成,首先从单幅输入图像 I_0 构建 3D 表示。采用 MonST3R [81],这是一个现成的密集立体视觉模型,可以同时预测 3D 几何形状和相机姿态,这与训练范式一致。在推理过程中,复制参考图像以满足 MonST3R 的跨视图匹配要求。

给定 RGB 帧 {I_t},MonST3R 通过跨帧跨视图特征匹配来预测每像素 3D 坐标 {O_t} 和置信度得分 {D_t}。

将 D_0 设置为 τ(通常 τ = 0.65),第 t 个参考帧的彩色点云结果如下:


为了抵消序列中有效匹配和无效匹配之间的不平衡,用焦点损失来训练置信度图 D_0。此外,为了将静态场景几何与运动目标分离,MonST3R 采用基于 Transformer 的解耦器。该模块处理参考帧的初始特征(跨视图上下文进行丰富),并将其分离为静态和动态部分。解耦器使用可学习的提示 token 来划分注意图:静态 token 关注较大的平面,动态 token 关注紧凑且运动丰富的区域。通过排除动态对应关系,获得稳健的相机姿态估计:







请到「今天看啥」查看全文