SIGIR 2025 | 解决扩展和迁移难题，华为新加坡提出InstructRAG，提升高达19%

机器之心 · 公众号 · AI · 2025-05-23 14:49

正文

请到「今天看啥」查看全文

核心思路

指令图（Instruction Graph）

有向图 G (V, E) 组织过去的指令路径（正确动作的序列）。节点（V）表示图中指令集 I，对相似的指令进行聚类。边 (E）表示任务集 T，记录路径中涉及的任务和相关问题。该图是通过迭代插入来自过去成功路径的指令来构建的，使用近似最近邻 (AKNN) 搜索和阈值确定是否创建新节点或添加到现有节点。指令的组合能够创造出解决以前未曾见过的问题的新途径。

强化学习智能体（RL-Agent）

在指令图中选择节点的过程可以被看作马尔可夫决策过程（MDP），作者使用强化学习 (Reinforcement Learning) 训练的智能体，遍历指令图并识别给定任务的候选指令路径，可有效探索指令图的可扩展性。

1. 状态（state）: 输入问题与各种图元素之间的余弦相似度。

2. 行动（action）：将当前节点包含在路径中或排除它。

3. 奖励（reward）：端到端性能指标（例如 F1 Score）。

4. 策略学习（policy learning）：该智能体使用策略梯度方法进行优化，并使用历史数据进行热启动以加速训练。这种方法可以通过找到最优指令路径来实现有效的检索增强。

元学习智能体（ML-Agent）

ML-Agent 是使用元学习（Meta Learning）训练的智能体，用来增强可迁移性。它会从 RL-Agent 提供的候选路径中选择最相关的路径并为 LLM 生成提示。其模型架构包括：1. 共享自注意力层的问题编码器和路径编码器，2. 从 Transformer 激活中获取的特征表示。

ML-Agent 的训练包含着两个阶段：

1. 预训练：优化问题路径对齐（QPA）和问题路径匹配（QPM）两个任务。

2. 微调：端到端优化规划的性能。

这种方法允许模型通过仅使用几个示例进行更新来推广到新任务，从而增强检索增强生成的多智能体协作。