主要观点总结
本文是对Nick McGreivy在关于AI用于科学研究的经历进行的总结。文章指出,尽管AI在某些领域取得了令人瞩目的成果,但在科学领域的应用仍存在很多问题。作者通过个人经历阐述了AI在科学研究中的挑战和困境,包括AI方法的不可靠性、缺乏标准数值方法的理论保证、过度乐观的声称以及对AI模型结果的过度解读等问题。同时,文章也指出了一些问题和现象,如报告偏差、AI研究的不透明性以及AI加速科学研究的真正价值等。
关键观点总结
关键观点1: AI在科学研究中的应用存在很多问题,个人经历揭示的挑战包括AI方法的不可靠性、缺乏标准数值方法的理论保证等。
作者通过个人经历和思考指出了AI在科学研究中的困境和问题。作者尝试使用AI解决偏微分方程,但发现其结果并不如预期那么可靠。同时,作者还指出了报告偏差的问题,即研究人员往往只报告AI的成功案例,而忽略了失败的结果。
关键观点2: 过度乐观的声称和对AI模型结果的过度解读是一个普遍存在的问题。
一些研究人员和公司对AI在科学研究中的成果进行了过度乐观的宣称。然而,当作者尝试对AI方法进行比较和测试时,发现这些声称的结果并不总是成立。
关键观点3: 需要更加审慎地对待AI在科学研究中的应用,并需要更多的实证研究来验证其真实效果。
作者认为我们需要更加审慎地评估AI在科学研究中的价值,并需要更多的实证研究来验证其真实效果。此外,还需要建立一个更加公正和透明的环境,以便对AI在科学研究中的成果进行准确的评估。
正文
“我对 AI 失望了”
2019 年夏天,我第一次接触到后来成为我论文主题的内容:用 AI 解决偏微分方程。偏微分方程是用于模拟各种物理系统的数学方程,在计算物理和工程领域,求解(即模拟)它们是一项极其重要的任务。我的实验室利用偏微分方程来模拟等离子体的行为,如聚变反应堆内部和外太空星际介质中的等离子体。
用于求解偏微分方程的 AI 模型是定制的深度学习模型,它与聊天机器人(ChatGPT)的相似度远低于与 AlphaFold 的相似度。
我最初尝试的方法是物理信息神经网络(PINN)。PINN 是在一篇极具影响力的论文中被首次提出,该论文迄今已被引用了数百次。
与标准数值方法相比,PINN 是一种截然不同的求解偏微分方程的方法。标准方法将偏微分方程的解表示为一组像素(如图像或视频),并针对每个像素值推导方程。而 PINN 将偏微分方程的解表示为一个神经网络,并将方程放入损失函数中。
作为一名尚无导师指导的研究生,PINN 对我来说有着极大的吸引力。它们看起来如此简单、优雅且通用。
它们似乎也有一些很好的成果。提出 PINN 的那篇论文指出,其“有效性”已经“通过流体力学、量子力学、反应扩散系统以及非线性浅水波传播等经典问题得到了证明”。如果 PINN 能够解决这些领域的偏微分方程,那么肯定也能解决我实验室所关心的等离子体物理偏微分方程。
然而,当我将那篇具有影响力的论文中的一个示例(1D Burgers)替换为另一个不同但极其简单的偏微分方程(1D Vlasov)时,结果与精确解仍相差甚远。最终,在经过反复调整后,我才得到一个看似正确的结果。然而,当我尝试稍微复杂一些的偏微分方程(例如 1D Vlasov-Poisson)时,无论如何调整,都无法得到像样的解。
在经历了数周的失败后,我联系了另一所大学的一位朋友。他告诉我,他也曾尝试使用 PINN,但同样没能得到好的结果。
最终,我意识到问题出在哪里了。最初 PINN 论文的作者和我一样,“发现在一个方程上取得惊人结果的特定设置,在另一个方程上可能会失败”。 然而,为了让读者相信 PINN 的巨大潜力,他们并未展示任何失败案例。
这段经历让我学到了一些东西。首先,要谨慎对待 AI 研究表面上的结论。大多数科学家并非试图误导任何人,但他们在展示积极成果的巨大压力下,仍然可能无意中误导他人。因此,今后我必须更加审慎,即使面对那些成果惊人、影响力巨大的论文。
其次,人们很少发表关于 AI 方法失败的论文,通常只有在成功时才会发表。PINN 论文的作者没有发表其方法未能解决的偏微分方程的论文。我也没有发表自己那些不成功的实验,只是在一个不知名会议上展示了一张海报。因此,很少有研究人员知晓这些。事实上,尽管 PINN 广受欢迎,但时隔两年才有人发表了一篇关于其失效模式的论文。该论文如今已被引用超过一千次,这表明许多其他科学家尝试过 PINN 并发现了类似问题。
第三,我得出结论,PINN 并不是我想要采用的方法。它们确实简单而优雅,但也极其不可靠、过于挑剔且速度缓慢。
到今天为止,六年过去了,最初的 PINN 论文已经获得了惊人的 1.4 万次引用,成为 21 世纪被引用次数最多的数值方法论文(据我统计,再过一两年,它将成为有史以来被引用次数第二多的数值方法论文)。
尽管如今人们普遍认为,PINN 在解决偏微分方程方面不如标准数值方法有竞争力,但对于一类被称为反问题的特殊问题,PINN 的表现仍然存在争议。支持者声称 PINN 对反问题“特别有效”,但一些研究人员对此提出了强烈质疑。
我不知道这场争论哪一方是对的。我当然希望所有这些关于 PINN 的研究已经产出了一些有用的成果,但如果有一天我们回过头来看 PINN 时,发现它只是一个巨大的引用泡沫,我也不会感到意外。
在我的博士论文中,我专注于使用深度学习模型来解决偏微分方程,这些模型像传统求解器一样,将偏微分方程的解视为网格或图形上的一组像素。
与 PINN 不同,这种方法在我的实验室所关心的复杂、时变偏微分方程上展现出了很大的潜力。最令人印象深刻的是,一篇又一篇的论文展示了其求解偏微分方程的速度——通常比标准数值方法快几个数量级。
最让我和我的导师感到兴奋的例子是来自流体力学的偏微分方程,如 Navier-Stokes 方程。我们认为,我们所关注的偏微分方程——如描述聚变反应堆中等离子体的方程具有类似的数学结构,我们或许能看到类似的加速效果。从理论上讲,这将使像我们这样的科学家和工程师能够模拟更庞大的系统,更快速地优化现有设计,并最终加快研究进程。
到这个时候,我已经足够有经验了,知道在 AI 研究中,事情并不总是像看起来的那么美好。我知道可靠性和稳健性可能是一个棘手的问题。如果 AI 模型提供了更快的模拟,但这些模拟的可靠性较低,那么这种权衡是否值得呢?我不知道答案,于是开始寻找答案。
然而,当我努力尝试,却大多以失败告终——让这些模型变得更加可靠时,我开始对 AI 模型在加速偏微分方程求解方面所展现出的潜力产生了怀疑。
一些备受瞩目的论文称,AI 解决 Navier-Stokes 方程的速度比标准数值方法快几个数量级。但我发现这些论文中使用的基准方法并非当前最快的数值方法。当我将 AI 同更先进的数值方法进行比较时,发现 AI 并不比它们更快(或者最多只是略快一些)(至多只快了一点点)。
当将求解偏微分方程的 AI 方法与先进基线方法进行比较时,AI 所具有的任何狭义上的优势通常都会消失。
最后,我的导师和我发表了一篇关于使用 AI 解决流体力学偏微分方程研究的系统综述。我们发现,在声称优于标准数值方法的 76 篇论文中,有 60 篇(79%)使用了较弱的基准方法——要么是因为他们没有与更先进的数值方法进行比较,要么是因为他们没有在同等条件下进行比较。所有宣称有大幅提速的论文都选择了弱基准方法进行对比,这表明研究结果越令人印象深刻,其对比可能越不公平。