专栏名称: 美团技术团队

10000+工程师，如何支撑中国领先的生活服务电子商务平台？数亿消费者、数百万商户、2000多个行业、几千亿交易额背后是哪些技术在支撑？这里是美团、大众点评、美团外卖、美团配送、美团优选等技术团队的对外窗口。

行为正则化与顺序策略优化结合的离线多智能体学习算法

美团技术团队 · 公众号 · 架构 · 2025-02-20 19:58

正文

请到「今天看啥」查看全文

选择动作，并依次移动到下一个状态，同时根据联合动作接收奖励。

| IGM原则与值分解

在多智能体系统中，直接计算联合Q函数是一个极其复杂的问题，因为状态-动作空间会随着智能体数量的增加而指数级增长。值分解方法通过将联合Q函数分解为每个智能体的个体Q函数，极大地简化了这个计算过程。具体来说，联合Q函数Q(s,a)被表示为每个智能体Q函数的组合。这种分解方式依赖于个体-全局-最大化（ IGM ）原则，即最优联合动作可以通过每个智能体的贪婪动作来识别。然而，这种方法在处理环境中存在多模态奖励图谱时可能会遇到困难，因为IGM假设往往会被破坏。

图2：M-NE博弈（a）是联合行动的奖励矩阵（b）是数据集的分布

| 离线MARL中的行为正则化马尔可夫博弈

为了有效应对离线MARL中的分布偏移问题，行为正则化马尔可夫博弈引入了一个与数据相关的正则化项。这个正则化项通过在奖励函数中加入额外的惩罚，迫使学习到的策略尽量接近行为策略，从而避免选择分布外的动作。在这个框架中，策略的目标是最大化期望折扣回报，同时减去正则化项，以此平衡策略的探索和利用。这样不仅提高了策略的稳定性，还能防止其收敛到局部最优解。

通过引入这些基础概念和原理，合作型马尔可夫博弈为多智能体系统的行为建模和优化提供了一个强大的工具。尤其在离线环境中，结合行为正则化和值分解方法，可以有效解决多智能体间的协调问题，并提高策略的整体表现。

样本内顺序策略优化

在离线多智能体强化学习（ MARL ）中，策略的优化往往面临着分布外（ OOD ）联合动作和局部最优解问题。为了应对这些挑战，研究团队提出了一种创新的方法——样本内顺序策略优化（ In-Sample Sequential Policy Optimization, InSPO ）。该方法在行为正则化马尔可夫博弈框架下进行，结合了逆KL散度和最大熵正则化，旨在通过顺序更新每个智能体的策略，避免选择OOD联合动作，同时增强智能体之间的协调。

| 样本内顺序策略优化的数学推导

InSPO方法的核心在于通过逆KL散度进行行为正则化，从而确保学习到的策略与行为策略共享相同的支撑集，避免选择分布外的动作。具体来说，目标函数中的逆KL散度项可以分解为各个智能体的独立项，这使得顺序更新每个智能体的策略成为可能。数学上通过使用Karush-Kuhn-Tucker（ KKT ）条件，推导出目标函数的闭式解，从而实现样本内学习。最终的优化目标为最小化KL散度，以确保策略更新的有效性和一致性。

| 最大熵行为正则化马尔可夫博弈

为了进一步增强探索性，防止策略过早收敛到局部最优解，InSPO引入了最大熵行为正则化马尔可夫博弈（ MEBR-MG ）框架。在这个框架中，策略优化的目标函数不仅包含逆KL散度项，还引入了策略熵项。通过这种方式，优化目标能够促使策略在高概率动作和低概率动作之间保持平衡，鼓励充分探索低概率动作，从而避免局部最优解。理论上，最大熵行为正则化还能够确保策略收敛到量化响应均衡（ QRE ），即在面对扰动奖励时，策略仍能维持稳定的性能。

通过上述方法，样本内顺序策略优化不仅有效解决了离线MARL中的OOD联合动作问题，还通过策略熵的引入，显著提高了策略的探索能力和全局最优解的发现概率。

行为正则化与顺序策略优化结合的离线多智能体学习算法

正文

请到「今天看啥」查看全文

| IGM原则与值分解

| 离线MARL中的行为正则化马尔可夫博弈

样本内顺序策略优化

| 样本内顺序策略优化的数学推导

| 最大熵行为正则化马尔可夫博弈

算法细节

请到「今天看啥」查看全文