正文
核心思路
指令图(Instruction Graph)
有向图 G (V, E) 组织过去的指令路径(正确动作的序列)。节点(V)表示图中指令集 I,对相似的指令进行聚类。边 (E)表示任务集 T,记录路径中涉及的任务和相关问题。该图是通过迭代插入来自过去成功路径的指令来构建的,使用近似最近邻 (AKNN) 搜索和阈值确定是否创建新节点或添加到现有节点。指令的组合能够创造出解决以前未曾见过的问题的新途径。
强化学习智能体(RL-Agent)
在指令图中选择节点的过程可以被看作马尔可夫决策过程(MDP),作者使用强化学习 (Reinforcement Learning) 训练的智能体,遍历指令图并识别给定任务的候选指令路径,可有效探索指令图的可扩展性。
1. 状态(state): 输入问题与各种图元素之间的余弦相似度。
2. 行动(action):将当前节点包含在路径中或排除它。
3. 奖励(reward):端到端性能指标(例如 F1 Score)。
4. 策略学习(policy learning):该智能体使用策略梯度方法进行优化,并使用历史数据进行热启动以加速训练。这种方法可以通过找到最优指令路径来实现有效的检索增强。
元学习智能体(ML-Agent)
ML-Agent 是使用元学习(Meta Learning)训练的智能体,用来增强可迁移性。它会从 RL-Agent 提供的候选路径中选择最相关的路径并为 LLM 生成提示。其模型架构包括:1. 共享自注意力层的问题编码器和路径编码器,2. 从 Transformer 激活中获取的特征表示。
ML-Agent 的训练包含着两个阶段:
1. 预训练:优化问题路径对齐(QPA)和问题路径匹配(QPM)两个任务。
2. 微调:端到端优化规划的性能。
这种方法允许模型通过仅使用几个示例进行更新来推广到新任务,从而增强检索增强生成的多智能体协作。