刚刚，DeepMind通用科学智能体AlphaEvolve突破数学极限，陶哲轩合作参与

机器之心 · 公众号 · AI · 2025-05-15 14:04

正文

LLM 具有惊人的多功能性。它们能够总结文件、生成代码，甚至提出新想法。如今，DeepMind 将这些能力扩展到了数学和现代计算中的基础性和高度复杂的问题。

Google DeepMind 的研究员 Matej Balog 在接受采访时表示：「它可以发现极其复杂的算法 —— 跨越数百行代码，具有复杂逻辑结构，远超出简单函数的范畴。」

陶哲轩也在 mathstodon 上表示，他一直在和 Google DeepMind 合作，探索 AlphaEvolve 的潜在数学应用。

大多数 AI 模型都会产生幻觉。由于他们的概率架构，他们有时会自信地编造东西。事实上，像 OpenAI 的 o3 这样的较新 AI 模型比它们的前辈更容易产生幻觉。

AlphaEvolve 引入了一种减少幻觉的巧妙机制：自动评估系统。该系统使用模型来生成、批评和得出问题的可能答案池，并自动评估和评分答案的准确性。

AlphaEvolve 还将 Gemini 模型的创造性问题解决能力与自动验证答案的评估器相结合，并利用进化框架来持续优化最具潜力的解决方案。

AlphaEvolve 提升了谷歌数据中心、芯片设计和 AI 训练流程的效率 —— 包括训练支撑 AlphaEvolve 本身的大型语言模型。它还帮助设计了更快的矩阵乘法算法，并为开放性数学问题找到了新的解决方案，在许多领域的应用前景有着巨大潜力。

用大型语言模型设计更好的算法

AlphaEvolve 是一个可以超越单一函数发现，演化整个代码库并开发更复杂算法的智能体。

与许多只演化单一函数的系统不同，AlphaEvolve 的一大亮点在于能够对整个代码库进行迭代优化和演化。

这建立在 DeepMind 2023 年的一项工作 ——FunSearch 基础上， DeepMind首次证明大型语言模型能够生成计算机代码中的函数，以帮助发现开放性科学问题上的新知识并证明其正确性。

表 1 展示了 AlphaEvolve 与先前的 agent 的能力和典型行为上的对比。

核心机制：LLM 的创造力与自动化评估的结合

那么，AlphaEvolve 是如何实现这种强大的代码演化能力的呢？其核心在于将大型语言模型的创造力与自动化评估的客观反馈巧妙地融入到一个进化框架中。

这个过程可以概括为一个持续的「生成 - 评估 - 进化」循环：

图示展示了整个系统的工作流程：提示采样器首先构建输入提示，驱动语言模型生成新程序；这些程序经过评估器评分后被存入程序数据库。数据库通过进化算法不断优化程序选择，推动系统持续进化。

生成

AlphaEvolve 结合了多款最先进的大型语言模型：Gemini Flash（DeepMind 最快速且高效的模型）拓展了创意探索的广度，而 Gemini Pro（DeepMind 最强大的模型）则凭借深刻洞见提供了解决方案所需的关键深度。