专栏名称: 人机与认知实验室
北京邮电大学人机交互与认知工程实验室 联系方式:[email protected]
目录
相关文章推荐
超级数学建模  ·  限时领 | ... ·  5 小时前  
超级数学建模  ·  穿溯溪鞋上班的年轻人,你惹不起 ·  5 小时前  
智谷趋势Trend  ·  算力航母重组启航!如何把握国产替代机遇 ·  7 小时前  
智谷趋势Trend  ·  算力航母重组启航!如何把握国产替代机遇 ·  7 小时前  
超级数学建模  ·  那些奇奇怪怪的男性用品...... ·  2 天前  
超级数学建模  ·  这才是正常物价!几十块,买到绝美手工草编包! ·  2 天前  
51好读  ›  专栏  ›  人机与认知实验室

“自主”机制与老顽童的左右手博弈、虚拟自我对局机制

人机与认知实验室  · 公众号  ·  · 2025-05-19 00:00

正文

请到「今天看啥」查看全文



1. 自我学习:老顽童通过自我对抗,不断学习和改进自己的招式。
2. 自我优化:通过不断调整策略,老顽童能够优化自己的武功,使其更加高效和强大。
3. 无需外部干预:整个过程无需外部指导,完全依赖于自身的实践和反思。

二、虚拟自我对局机制与自主机制


虚拟自我对局机制(Fictitious Self Play, FSP)是一种强化学习中的自主学习机制。在这种机制下,智能体通过自我对抗来优化策略。具体来说,智能体的策略更新分为两部分:


1. 最优反应策略(Best Response Strategy):智能体通过强化学习(如Q-learning或DQN)计算出针对对手平均策略的最佳反应策略。
2. 平均策略(Average Strategy):智能体通过监督学习更新自己的平均策略,使其逐渐收敛到纳什均衡。







请到「今天看啥」查看全文