专栏名称: AIGC新智界

区块链/数字货币/比特币中文资讯，创立于2011年，200多位专栏作入驻平台，国内最大区块链资讯原创基地（公众号【原创】认证），我们为以下合作伙伴供稿：火币、OKCoin、BTC.com、BTCC、币看、BTC123、比特时代、挖币网

细致扒一下DeepSeek-R1论文到底讲了些什么

AIGC新智界 · 公众号 · 比特币 · 2025-02-26 17:46

主要观点总结

关键观点总结

正文

请到「今天看啥」查看全文

因此可得，模型参数下的Expected Reward（期望奖励）：

综上，我们希望调整模型参数使这个期望奖励越大越好，因此可得Policy Gradient公式如下，期望做gradient ascent最大化期望奖励：

# 实际上就是N个轨迹近似期望，使期望reward最大化 # 环境无法作用gradient 所以可以移除

直观理解：在某个state（上文）下执行某个action（token）使得最后整个输出的reward是正的时候，我们应该增加这个输出的几率，反之减少。

但是，如果仔细看上述公式，会发现即reward恒为正的情况，那会导致一直在增加任何token的输出概率。但我们实际操作中是用sample的方式来训练，这就导致某些项实际上因为没被sample到而导致输出概率下降（实际ground truth是要提升）。所以我们希望引入一个baseline（b）让reward不是恒为正。公式变成如下：

通常我们可以将baseline设置为reward的期望值，即

同时，我们知道最终输出的是一个序列，且在算reward时是以的粒度计算的。即使整体的reward是正的，也不意味着中的每一个action都是有收益的（如：说了一串废话，最后才说对结果）。因此更合理的做法是我们需要给每一个action合适的credit。

首先，我们会有一些假设（注意：并不一定什么情况下都适用，应根据具体情况使用不同的reward function）：

1、reward应单独为每个action计算（前面的）

# 计算当前action后所有reward的总和作为当前action的reward