56 年无人解开的数学难题，被谷歌的新 AI 突破了

极客公园 · 公众号 · 科技媒体 · 2025-05-15 15:28

主要观点总结

Google DeepMind发布全新编程智能体AlphaEvolve，专注于通用算法的自动发现与持续优化。AlphaEvolve模拟自然选择机制，能在代码中不断迭代、演化出创新算法，并在多个复杂问题中取得突破。其解决了通用的黑盒优化问题，展现出算法发现能力。AlphaEvolve的价值不仅在数学领域，还应用于Google内部解决工程问题。它是可编排、可扩展的算法构造与发现框架，以无限智能供给加速科研未知地图的展开。

关键观点总结

关键观点1: AlphaEvolve的特点和突破

AlphaEvolve是Google DeepMind推出的全新编程智能体，具有自动发现和优化通用算法的能力。它通过模拟自然选择机制，在代码中不断迭代，擅长在进化中寻找更优解。在多个复杂问题中取得突破，包括数学分析、几何学、组合数学和数论等领域的问题。

关键观点2: AlphaEvolve的自动评估机制

AlphaEvolve的核心是自动评估机制，能够对生成程序进行验证、运行和评分。每个程序都会被h函数衡量其准确性、运行效率、代码质量等维度。这些客观、量化的评分标准使AlphaEvolve能够在无需人类直接干预的前提下持续优化。

关键观点3: AlphaEvolve的应用和影响力

AlphaEvolve已被应用于解决Google内部的工程问题，如为Borg系统设计新的调度启发式、优化大语言模型训练时的矩阵乘法内核等。它加速了对Transformer注意力机制的执行速度。AlphaEvolve的出现使算法设计与调优变得自动化和规模化，以前所未有的速度加快科研的未知地图的展开。

正文

请到「今天看啥」查看全文

从本质上看，AlphaEvolve 解决的是一个通用的黑盒优化问题： maximize h(f) 。其中，f 是由大型语言模型生成的程序，h 是衡量该程序质量的评估函数。

在实际流程中，AlphaEvolve 首先通过提示采样器（prompt sampler）组装提示词，引导语言模型生成代码。DeepMind 使用了两个不同的 Gemini 模型协同工作：Gemini Flash 以更高速度生成大量候选方案，扩展思路的广度；Gemini Pro 则提供更深入的结构性建议。二者结合，使模型能产出具备实际可行性和算法深度的程序。

生成的程序会被送入自动评估系统，经过验证、运行和打分后，写入程序数据库。数据库中运行着一套进化算法，会从已有程序中挑选表现最好的方案，为下一轮提示提供方向，不断迭代出更优解。

AlphaEvovle 的一个核心点就是这套自动评估指标。它能对生成程序进行验证、运行和评分。每一个程序都会被 h 函数衡量其准确性、运行效率、代码质量等维度。这些评分标准是客观、量化的，使 AlphaEvolve 能够在无需人类直接干预的前提下持续优化。

图片来源：Google

不过，这里的 h 函数依然由人类研究人员定义，可以是准确率、运行时间，甚至代码可读性等维度的组合。AlphaEvolve 负责的只是在给定 h 的前提下去寻找最优的 f。对于一些数学问题或研究任务，Google 也可能预设 h。

这也说明了 AlphaEvolve 当前的边界：它适用于那些「成果是否优秀」可以自动量化判断的问题。但如何定义「优秀」，仍需人来给出。在需要人类实验才能确定是否优秀的问题上，AlphaEvolve 就无法评估了。

以 DeepMind 研究员提到的 4×4 复数矩阵乘法为例，研究人员设置了一组任务目标，包括达到的最低乘法次数（即张量分解的秩）以及达到该结果的随机种子比例。这些信号构成了 AlphaEvolve 的优化目标，引导它在复杂的搜索空间中稳步「爬山」。

AlphaEvolve 从问题定义出发，基于标准的梯度优化流程（包括初始化器、重建损失函数、Adam 优化器等），演化出了一系列高质量的张量分解算法。最终，它在 14 个矩阵乘法结构上超越了已知最优结果。其中最引人注目的，是它提出了历史上第一个能用 48 次乘法完成 4×4 复数矩阵乘法的算法——打破了 56 年未被突破的记录。

图片来源：Google

AlphaEvolve 的技术路线可追溯到 DeepMind 早期提出的 FunSearch 系统。FunSearch 同样利用语言模型引导程序进化，曾被用于发现数学结构或在线算法策略。但与之相比， AlphaEvolve 的扩展性显著提升：它可以修改完整程序，处理多个函数、组件、甚至跨语言结构协同优化，而不仅限于 Python 中的单一函数。

这种更高的通用性，使 AlphaEvolve 不再只是一个「智能改函数」的工具，而像是一个可以自主演化大型算法系统的「程序设计伙伴」。

据 DeepMind 披露，AlphaEvolve 已被应用于 50 多个数学难题，涵盖数学分析、几何学、组合数学与数论等领域。大多数实验都能在数小时内完成部署。