专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

刚刚,DeepMind通用科学智能体AlphaEvolve突破数学极限,陶哲轩合作参与

机器之心  · 公众号  · AI  · 2025-05-15 14:04

正文

请到「今天看啥」查看全文



LLM 具有惊人的多功能性。它们能够总结文件、生成代码,甚至提出新想法。如今,DeepMind 将这些能力扩展到了数学和现代计算中的基础性和高度复杂的问题。


Google DeepMind 的研究员 Matej Balog 在接受采访时表示:「它可以发现极其复杂的算法 —— 跨越数百行代码,具有复杂逻辑结构,远超出简单函数的范畴。」


陶哲轩也在 mathstodon 上表示,他一直在和 Google DeepMind 合作,探索 AlphaEvolve 的潜在数学应用。


image.png


大多数 AI 模型都会产生幻觉。由于他们的概率架构,他们有时会自信地编造东西。事实上,像 OpenAI 的 o3 这样的较新 AI 模型比它们的前辈 更容易产生幻觉


AlphaEvolve 引入了一种减少幻觉的巧妙机制:自动评估系统。该系统使用模型来生成、批评和得出问题的可能答案池,并自动评估和评分答案的准确性。


AlphaEvolve 还将 Gemini 模型的创造性问题解决能力与自动验证答案的评估器相结合,并利用进化框架来持续优化最具潜力的解决方案。


AlphaEvolve 提升了谷歌数据中心、芯片设计和 AI 训练流程的效率 —— 包括训练支撑 AlphaEvolve 本身的大型语言模型。它还帮助设计了更快的矩阵乘法算法,并为开放性数学问题找到了新的解决方案,在许多领域的应用前景有着巨大潜力。


用大型语言模型设计更好的算法


AlphaEvolve 是一个可以超越单一函数发现,演化整个代码库并开发更复杂算法的智能体。


与许多只演化单一函数的系统不同,AlphaEvolve 的一大亮点在于能够对整个代码库进行迭代优化和演化。


这建立在 DeepMind 2023 年的一项工作 ——FunSearch 基础上, DeepMind首次证明大型语言模型能够生成计算机代码中的函数,以帮助发现开放性科学问题上的新知识并证明其正确性。


表 1 展示了 AlphaEvolve 与先前的 agent 的能力和典型行为上的对比。


image.png


核心机制:LLM 的创造力与自动化评估的结合


那么,AlphaEvolve 是如何实现这种强大的代码演化能力的呢?其核心在于将 大型语言模型的创造力 自动化评估的客观反馈 巧妙地融入到一个 进化框架 中。


这个过程可以概括为一个持续的 「生成 - 评估 - 进化」 循环:


image.png


图示展示了整个系统的工作流程:提示采样器首先构建输入提示,驱动语言模型生成新程序;这些程序经过评估器评分后被存入程序数据库。数据库通过进化算法不断优化程序选择,推动系统持续进化。


生成


AlphaEvolve 结合了多款最先进的大型语言模型:Gemini Flash(DeepMind 最快速且高效的模型)拓展了创意探索的广度,而 Gemini Pro(DeepMind 最强大的模型)则凭借深刻洞见提供了解决方案所需的关键深度。







请到「今天看啥」查看全文