“自主”机制与老顽童的左右手博弈、虚拟自我对局机制

人机与认知实验室 · 公众号 · · 2025-05-19 00:00

正文

1. 自我学习：老顽童通过自我对抗，不断学习和改进自己的招式。
2. 自我优化：通过不断调整策略，老顽童能够优化自己的武功，使其更加高效和强大。
3. 无需外部干预：整个过程无需外部指导，完全依赖于自身的实践和反思。

二、虚拟自我对局机制与自主机制

虚拟自我对局机制（Fictitious Self Play, FSP）是一种强化学习中的自主学习机制。在这种机制下，智能体通过自我对抗来优化策略。具体来说，智能体的策略更新分为两部分：

1. 最优反应策略（Best Response Strategy）：智能体通过强化学习（如Q-learning或DQN）计算出针对对手平均策略的最佳反应策略。
2. 平均策略（Average Strategy）：智能体通过监督学习更新自己的平均策略，使其逐渐收敛到纳什均衡。

推荐文章

超级数学建模 · 限时领 | 新版《尼尔斯骑鹅旅行记》双语PDF+音频+中文动画+领读音频课，豆瓣9.0分风靡全球112年！绝对收藏！

5 小时前

超级数学建模 · 穿溯溪鞋上班的年轻人，你惹不起

5 小时前

智谷趋势Trend · 算力航母重组启航！如何把握国产替代机遇

7 小时前

智谷趋势Trend · 算力航母重组启航！如何把握国产替代机遇

7 小时前

超级数学建模 · 那些奇奇怪怪的男性用品......

2 天前

超级数学建模 · 这才是正常物价！几十块，买到绝美手工草编包！

2 天前

毒药 · 5部今年无法引进的超级大片，你在大陆电影院都看不到丨毒药小视频

8 年前

管理智慧AI+ · 年后，这些员工业绩再好也要辞！

8 年前

ioncology · 再不努力你就OUT了！来聊聊欧洲大肠癌腹腔镜手术的那些事

7 年前

中信建投证券研究 · 【中信建投证券】2018年投资策略会邀请函

7 年前

为你读诗 · 听见了么，听到了请回答

7 年前