主要观点总结
Google DeepMind发布全新编程智能体AlphaEvolve,专注于通用算法的自动发现与持续优化。AlphaEvolve模拟自然选择机制,能在代码中不断迭代、演化出创新算法,并在多个复杂问题中取得突破。其解决了通用的黑盒优化问题,展现出算法发现能力。AlphaEvolve的价值不仅在数学领域,还应用于Google内部解决工程问题。它是可编排、可扩展的算法构造与发现框架,以无限智能供给加速科研未知地图的展开。
关键观点总结
关键观点1: AlphaEvolve的特点和突破
AlphaEvolve是Google DeepMind推出的全新编程智能体,具有自动发现和优化通用算法的能力。它通过模拟自然选择机制,在代码中不断迭代,擅长在进化中寻找更优解。在多个复杂问题中取得突破,包括数学分析、几何学、组合数学和数论等领域的问题。
关键观点2: AlphaEvolve的自动评估机制
AlphaEvolve的核心是自动评估机制,能够对生成程序进行验证、运行和评分。每个程序都会被h函数衡量其准确性、运行效率、代码质量等维度。这些客观、量化的评分标准使AlphaEvolve能够在无需人类直接干预的前提下持续优化。
关键观点3: AlphaEvolve的应用和影响力
AlphaEvolve已被应用于解决Google内部的工程问题,如为Borg系统设计新的调度启发式、优化大语言模型训练时的矩阵乘法内核等。它加速了对Transformer注意力机制的执行速度。AlphaEvolve的出现使算法设计与调优变得自动化和规模化,以前所未有的速度加快科研的未知地图的展开。
正文
从本质上看,AlphaEvolve 解决的是一个通用的黑盒优化问题:
maximize h(f)
。其中,f 是由大型语言模型生成的程序,h 是衡量该程序质量的评估函数。
在实际流程中,AlphaEvolve 首先通过提示采样器(prompt sampler)组装提示词,引导语言模型生成代码。DeepMind 使用了两个不同的 Gemini 模型协同工作:Gemini Flash 以更高速度生成大量候选方案,扩展思路的广度;Gemini Pro 则提供更深入的结构性建议。二者结合,使模型能产出具备实际可行性和算法深度的程序。
生成的程序会被送入自动评估系统,经过验证、运行和打分后,写入程序数据库。数据库中运行着一套进化算法,会从已有程序中挑选表现最好的方案,为下一轮提示提供方向,不断迭代出更优解。
AlphaEvovle 的一个核心点就是这套自动评估指标。它能对生成程序进行验证、运行和评分。每一个程序都会被 h 函数衡量其准确性、运行效率、代码质量等维度。这些评分标准是客观、量化的,使 AlphaEvolve 能够在无需人类直接干预的前提下持续优化。
图片来源:Google
不过,这里的 h 函数依然由人类研究人员定义,可以是准确率、运行时间,甚至代码可读性等维度的组合。AlphaEvolve 负责的只是在给定 h 的前提下去寻找最优的 f。对于一些数学问题或研究任务,Google 也可能预设 h。
这也说明了 AlphaEvolve 当前的边界:它适用于那些「成果是否优秀」可以自动量化判断的问题。但如何定义「优秀」,仍需人来给出。在需要人类实验才能确定是否优秀的问题上,AlphaEvolve 就无法评估了。
以 DeepMind 研究员提到的 4×4 复数矩阵乘法为例,研究人员设置了一组任务目标,包括达到的最低乘法次数(即张量分解的秩)以及达到该结果的随机种子比例。这些信号构成了 AlphaEvolve 的优化目标,引导它在复杂的搜索空间中稳步「爬山」。
AlphaEvolve 从问题定义出发,基于标准的梯度优化流程(包括初始化器、重建损失函数、Adam 优化器等),演化出了一系列高质量的张量分解算法。最终,它在 14 个矩阵乘法结构上超越了已知最优结果。其中最引人注目的,是它提出了历史上第一个能用 48 次乘法完成 4×4 复数矩阵乘法的算法——打破了 56 年未被突破的记录。
图片来源:Google
AlphaEvolve 的技术路线可追溯到 DeepMind 早期提出的 FunSearch 系统。FunSearch 同样利用语言模型引导程序进化,曾被用于发现数学结构或在线算法策略。但与之相比,
AlphaEvolve 的扩展性显著提升:它可以修改完整程序,处理多个函数、组件、甚至跨语言结构协同优化,而不仅限于 Python 中的单一函数。
这种更高的通用性,使 AlphaEvolve 不再只是一个「智能改函数」的工具,而像是一个可以自主演化大型算法系统的「程序设计伙伴」。
据 DeepMind 披露,AlphaEvolve 已被应用于 50 多个数学难题,涵盖数学分析、几何学、组合数学与数论等领域。大多数实验都能在数小时内完成部署。