主要观点总结
北京大学提出了全新的图神经网络(GNN)视觉建模方法VGP,通过语义低秩分解有效增强了图结构图像模型的参数高效迁移能力。该研究已被人工智能顶会ICML 2025正式接收,相关论文和代码已全部开源。论文第一作者为北京大学博士生艾子翔。此方法在多种下游任务中实现了媲美全量微调的性能,展现出广泛的应用潜力。
关键观点总结
关键观点1: 研究背景
近年来,Vision GNN(ViG)模型成为视觉建模新范式,但大规模模型在迁移到具体下游任务时存在计算与存储负担巨大的问题。
关键观点2: 研究动机
为了解决上述问题,研究团队提出Vision Graph Prompting(VGP)方法,一种专为ViG设计的语义感知提示机制。
关键观点3: 研究方法
VGP基于语义低秩分解,通过三种提示组件注入到图结构中,包括SeLo-Graph Prompt、SeLo-Edge Prompt和SeLo-Node Prompt,以唤醒ViG的语义潜能。
关键观点4: 研究结果
在多个视觉下游任务数据集上,VGP展现出超越现有视觉提示方法的性能,精度媲美全量微调,参数量大幅减少。
关键观点5: 应用价值
VGP为Vision GNN模型的下游适配提供了全新范式,具备广泛应用潜力,可应用于高精度视觉理解、边缘设备部署和多任务快速切换等场景。
正文
全量微调
方式,造成巨大的计算与存储负担,难以适用于边缘设备或多任务部署场景。同时,现有视觉提示(Visual Prompting)方法大多针对Transformer设计,
无法有效建模图结构中的语义拓扑关系
,限制了其在图像图模型中的应用效果。
方法简介:语义低秩提示,唤醒ViG语义潜能
为解决上述难题,研究团队提出
Vision Graph Prompting(VGP)
,一种专为 ViG 设计的语义感知提示机制。该设计思想源于对图视觉模型中语义信息分布的关键发现:
在视觉图结构中,尽管语义相关的节点具有不同的局部外观细节,它们在主成分分析(PCA)中却表现出高度一致的低秩结构,这表明图结构中主要的语义信息集中于隐式特征空间的低秩成分。
基于这一观察,VGP 通过语义低秩分解,将图中的重要语义模式以低秩形式建模,并通过三种提示组件注入到图结构中:
-
SeLo-Graph Prompt(语义低秩图提示)
:添加可训练的虚拟节点,并与原始图动态连接,引导模型捕捉
全局语义依赖
。
-
SeLo-Edge Prompt(语义低秩边提示)
:在边级别进行低秩语义增强,突出重要连接,
滤除无关局部噪声
。
-
SeLo-Node Prompt(语义低秩点提示)
:对节点特征进行低秩建模,强化细粒度语义表达,
保留局部关键细节
。
实验结果:高效迁移,精度媲美全量微调