正文
LLM 具有惊人的多功能性。它们能够总结文件、生成代码,甚至提出新想法。如今,DeepMind 将这些能力扩展到了数学和现代计算中的基础性和高度复杂的问题。
Google DeepMind 的研究员 Matej Balog 在接受采访时表示:「它可以发现极其复杂的算法 —— 跨越数百行代码,具有复杂逻辑结构,远超出简单函数的范畴。」
陶哲轩也在 mathstodon 上表示,他一直在和 Google DeepMind 合作,探索 AlphaEvolve 的潜在数学应用。
大多数 AI 模型都会产生幻觉。由于他们的概率架构,他们有时会自信地编造东西。事实上,像 OpenAI 的 o3 这样的较新 AI 模型比它们的前辈
更容易产生幻觉
。
AlphaEvolve 引入了一种减少幻觉的巧妙机制:自动评估系统。该系统使用模型来生成、批评和得出问题的可能答案池,并自动评估和评分答案的准确性。
AlphaEvolve 还将 Gemini 模型的创造性问题解决能力与自动验证答案的评估器相结合,并利用进化框架来持续优化最具潜力的解决方案。
AlphaEvolve 提升了谷歌数据中心、芯片设计和 AI 训练流程的效率 —— 包括训练支撑 AlphaEvolve 本身的大型语言模型。它还帮助设计了更快的矩阵乘法算法,并为开放性数学问题找到了新的解决方案,在许多领域的应用前景有着巨大潜力。
用大型语言模型设计更好的算法
AlphaEvolve 是一个可以超越单一函数发现,演化整个代码库并开发更复杂算法的智能体。
与许多只演化单一函数的系统不同,AlphaEvolve 的一大亮点在于能够对整个代码库进行迭代优化和演化。
这建立在 DeepMind 2023 年的一项工作 ——FunSearch 基础上, DeepMind首次证明大型语言模型能够生成计算机代码中的函数,以帮助发现开放性科学问题上的新知识并证明其正确性。
表 1 展示了 AlphaEvolve 与先前的 agent 的能力和典型行为上的对比。
核心机制:LLM 的创造力与自动化评估的结合
那么,AlphaEvolve 是如何实现这种强大的代码演化能力的呢?其核心在于将
大型语言模型的创造力
与
自动化评估的客观反馈
巧妙地融入到一个
进化框架
中。
这个过程可以概括为一个持续的
「生成 - 评估 - 进化」
循环:
图示展示了整个系统的工作流程:提示采样器首先构建输入提示,驱动语言模型生成新程序;这些程序经过评估器评分后被存入程序数据库。数据库通过进化算法不断优化程序选择,推动系统持续进化。
生成
AlphaEvolve 结合了多款最先进的大型语言模型:Gemini Flash(DeepMind 最快速且高效的模型)拓展了创意探索的广度,而 Gemini Pro(DeepMind 最强大的模型)则凭借深刻洞见提供了解决方案所需的关键深度。