专栏名称: 图灵人工智能

人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。

LSTM之父22年前构想将成真？一周内AI「自我进化」论文集中发布，新趋势涌现？

图灵人工智能 · 公众号 · · 2025-06-04 00:00

正文

请到「今天看啥」查看全文

论文标题：Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents
论文链接：https://arxiv.org/abs/2505.22954
博客：https://sakana.ai/dgm/

人工智能研究的一个长期目标是创造能够持续学习的 AI 系统。实现这一目标的一条诱人路径是让 AI 通过重写自身代码（包括负责学习的代码）来实现自我改进。这一由 Jürgen Schmidhuber 数十年前提出的构想被称为「哥德尔机」，是一种假想中的自我改进型 AI。当它在数学上证明存在更优策略时，它会通过递归地重写自身代码来优化问题解决方案，因此成为元学习（即「学会学习」）领域的核心概念。

虽然理论上的哥德尔机能确保可证明的良性自我修改，但其实现依赖于一个不切实际的假设：AI 必须能在数学上证明代码修改会带来净效益才会实施变更。

针对此问题，Sakana AI 与不列颠哥伦比亚大学 Jeff Clune 实验室合作，提出了一种更可行的方案：利用达尔文进化等开放式算法的原理，通过实证检验来寻找能提升性能的改进方法。

他们将这一成果命名为「达尔文哥德尔机（DGM）」。DGM 系统利用基础模型提出代码改进方案，并采用开放式算法的最新创新来搜索不断增长的多样化优质 AI 智能体库。实验表明，DGM 获得的算力越多，自我改进效果就越显著。鉴于依赖学习的 AI 系统终将超越人工设计系统这一明确趋势，DGM 很可能在短期内超越人工设计的 AI 系统。

第一个 DGM 是一个编码智能体，它能够：

读取并修改自己的代码；
评估修改是否提高了性能；
开放式地探索 AI 设计空间。

达尔文哥德尔机是一种通过重写自身代码来提升编程任务性能的自我改进型编程智能体。它能实现多种自我改进，包括：增加补丁验证步骤、优化文件查看功能、增强编辑工具、生成并排序多个解决方案以选择最优选项，以及在实施新修改时记录历史尝试记录（包括失败原因）。

达尔文哥德尔机通过运用开放式探索原则，逐步构建起一个不断扩增的智能体库。该系统通过交替执行自我修改与下游任务评估的方式，持续创建新智能体并对其进行评分。

在 sw-bench 上，DGM 自动将其性能从 20.0% 提高到 50.0%。在 Polyglot 上，DGM 的表现从最初的 14.2% 跃升至 30.7%，远远超过了 Aider 手工设计的代表性智能体。这些可观的收益证明了 DGM 发现并实现对其自身代码的有益更改的能力。

模型的自我奖励训练：潜力、崩溃与缓解策略

论文标题：Can Large Reasoning Models Self-Train?

论文链接：https://arxiv.org/abs/2505.21444
项目地址：https://self-rewarding-llm-training.github.io/
代码地址：https://github.com/tajwarfahim/srt
数据集：https://huggingface.co/collections/ftajwar/self-rewarding-llm-training-6835218091832c3664176553

通过可验证奖励进行的强化学习显著增强了大语言模型的推理能力，尤其是在数学和编码方面。然而，这种方法依赖于人工创建的真实标签验证器，这使得为每个问题生成奖励信号的成本高昂且受到限制。在这项工作中，研究团队提出以下问题：

推理模型能否仅使用自身的反馈进行自我训练，而无需访问真实标签？
自我训练的性能能否达到基于真实标签的强化学习训练的水平？
自我训练能否无限期持续？其改进最终是否会受到限制？
哪些策略可以有效地维持模型的自我训练？

自我奖励培训（SRT）

受先前基于一致性自我提升研究的启发，研究团队引入了一种简单而有效的自我训练强化学习方法论，称为自我奖励训练（Self-Rewarded Training，SRT）。该方法在强化学习训练期间，通过模型生成的多个解决方案之间的一致性来评估正确性，从而在没有标注数据的情况下提供自监督信号。

SRT 概览。在 RLVR 方法中，系统通过真实验证器生成用于强化学习训练的奖励信号。与之相反，SRT 方法并不依赖真实验证器，而是通过模型自身生成结果的多数投票机制来估算真实值，并利用这一替代性奖励信号来训练模型。

SRT 与早期训练阶段的 RL 性能相匹配

研究团队通过经验证明，在早期训练阶段，SRT 能够达到与那些在黄金标准答案上进行显式训练的标准强化学习方法相媲美的性能。测试数据集包括：AMC、AIME24、AIME25。然而，研究团队发现其性能最终会崩溃，例如在最右图中展示的 DAPO 数据集上的训练情况。

LSTM之父22年前构想将成真？一周内AI「自我进化」论文集中发布，新趋势涌现？

正文

请到「今天看啥」查看全文

(adsbygoogle = window.adsbygoogle || []).push({});

模型的自我奖励训练：潜力、崩溃与缓解策略

SRT 与早期训练阶段的 RL 性能相匹配

请到「今天看啥」查看全文