专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
相关文章推荐
实验万事屋  ·  这中山大学博士生发的Nature子刊,涨到1 ... ·  12 小时前  
国际新闻界  ·  制造透明:粉丝群体的信任危机与自证实践 ·  昨天  
环球科学科研圈  ·  Science一周论文导读|2025年6月5日 ·  昨天  
51好读  ›  专栏  ›  PaperWeekly

欧洲团队开源「地球AI大脑」!EarthMind突破遥感多模态统一理解壁垒

PaperWeekly  · 公众号  · 科研  · 2025-06-17 13:34

正文

请到「今天看啥」查看全文


▲ 图一 EarthMind 方法结构图

方法介绍

1. 多粒度感知模块 (Multi-Granular Perception)


  • 视觉主干编码器 :提取全局语义信息,实现图像级理解;

  • 区域编码器 提取目标级(对象级)特征,支持区域级理解任务;

  • 像素级分割编码器 用于细粒度空间分割与定位任务;多个编码器输出的层次化特征统一投射到语言空间,形成统一的视觉 token 表示。

2. 分割提示机制 (Segmentation Tokens)


  • 引入可学习的分割查询 token 模拟语言驱动的像素级任务;

  • 视觉 token、分割 token 以及语言指令共同输入 LLM,实现多模态联合推理;

  • 分割 token 的隐藏状态与像素级特征通过轻量化 Mask Decoder 生成最终分割结果。

3. 空间注意力引导 (Spatial Attention Prompting, SAP)

  • 在 LLM 内部重分配注意力权重,引导模型聚焦于与查询对齐的目标区域;

  • 有效缓解遥感图像中尺度变化大、纹理模糊等空间感知难题。

4. 统一多传感器数据格式 (Unified Multi-Sensor Formatting)


  • 受视频 LLM 启发,将多模态数据转化为类似视频帧序列统一处理;

  • SAR 数据填充形成伪 RGB 图像;多光谱数据每三通道分组成 RGB-like 帧,输入共享编码器。

5. 跨模态融合模块 (Cross-modal Fusion)


  • 设计跨模态融合机制,在语言条件下联合学习 RGB 与 SAR 互补信息;

  • 通过互信息感知和权重分配,动态选择各模态中最具信息密度的特征供 LLM 推理使用。

▲ 图二 EarthMind-Bench 任务示意图









请到「今天看啥」查看全文