专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

ICML 2025 Spotlight|南洋理工陶大程教授团队等提出基于RAG的高分辨率图像感知框架...

机器之心  · 公众号  · AI  · 2025-05-17 00:31

主要观点总结

该工作由南洋理工大学陶大程教授团队等与武汉大学罗勇教授、杜博教授团队合作完成。文章介绍了多模态大语言模型(MLLMs)在高分辨率图像感知方面的挑战,并提出了基于RAG技术的解决方案。文章通过实验探究了RAG在MLLM高分辨率图像感知的可行性,提出了Retrieval-Augmented Perception (RAP)方法。该方法通过检索和用户问题相关的图像块,代替原始的高分辨率图像输入到MLLMs中,有效提高LLM回复的准确度。文章还介绍了Spatial-Awareness Layout算法和RE-Search方法,并通过实验验证了RAP方法在高分辨率图像感知任务上的优势。文章链接:https://arxiv.org/abs/2503.01222。

关键观点总结

关键观点1: 研究背景及问题

文章介绍了多模态大语言模型(MLLMs)在处理高分辨率图像时面临的挑战,包括图像模糊、损失视觉信息和长上下文建模等问题。为了解决这个问题,研究人员提出了基于RAG技术的解决方案,探索其在MLLM高分辨率图像感知中的应用。

关键观点2: 实验及发现

文章通过实验探究了RAG在MLLM高分辨率图像感知的可行性,并提出了Retrieval-Augmented Perception (RAP)方法。该方法通过检索和用户问题相关的图像块,代替原始的高分辨率图像输入到MLLMs中。实验结果表明,RAP方法能够显著提高MLLM在高分辨率图像感知任务上的性能。

关键观点3: 方法介绍

文章介绍了Spatial-Awareness Layout算法和RE-Search方法。Spatial-Awareness Layout算法通过确定关键的图像块的位置,有效保持图像块之间的相对位置关系。RE-Search方法则通过启发式函数自适应选择合适的K值。

关键观点4: 实验结果

文章在高分辨率图像评测数据集上进行实验,结果表明RAP方法在单实例感知和多实例感知任务上都能带来明显的性能提升,特别是在HR-Bench 4K和8K数据集上取得显著效果。


正文

请到「今天看啥」查看全文



思考


为了探究将 RAG 应用于 MLLM 的高分辨率图像感知,研究人员提出了三个问题:


1. 检索出来的图像块如何布局?

2. 检索的图像块数量对最终性能的影响如何?

3. 如何基于上述发现,将 RAG 更好的应用于 MLLMs 对高分辨率图像的感知?


检索出来的图像块布局方式


为了探究检索图像块布局的影响,研究人员设计了三种策略:1)按照检索的分数从高到低进行排列;2)按照原始顺序进行排列和 3)维持检索图像块的相对位置关系。具体的布局例子见下图。



如下表所示,在三种布局方案中,对于单实例感知任务(FSP)都有显著提升,然而 1)和 2)在跨实例感知任务(FCP)上相较于 baseline 有明显性能下降。而 3)由于维持了图像块之间的相对位置关系,因此 3)在 FCP 任务上在三种策略中取得更好的效果。



结论 1: 维持检索图像块之间的相对位置关系是有必要的,特别是对于需要空间感知的任务。


检索的图像块数对最终性能的影响


为了探究检索的图像块数的影响,研究人员使用 LLaVA-v1.5 和 LLaVA-v1.6 7B & 13B 在高分图像感知评测数据集 HR-Bench 上进行实验。


如下图所示,当检索的数量 (K) 增加时,由于提供了更多的视觉信息,在 FCP 任务上的性能逐渐增加。然而,当K增加时,输入图像的分辨率也相应增加,导致模型输出的结果准确性下降。相反,对于 FSP 任务而言,较小的 K 便能取得更好的效果,但是在 FCP 任务上效果较差。



结论 2: 不同的任务类型需要保留的图像块数不同。对于 FSP 任务而言,仅需要较少的图像块数便能取得较好的效果,更多的图像块数反而影响模型的性能。对于 FCP 任务而言,更多的图像块数能够保留足够的视觉信息,但是依旧受到输入图像分辨率的限制。







请到「今天看啥」查看全文


推荐文章
教你看穿男人的心  ·  魅力女人6种类型,你是哪一款?
7 年前
金乡大蒜辣椒国际交易市场  ·  2017年6月9日金乡大蒜国际交易市场大蒜行情
7 年前
治愈系心理学  ·  要看清一个人,吃相比面相更准
7 年前