主要观点总结
斯坦福大学HAI华人大神团队使用纯CUDA-C语言编写的快速AI生成内核,超越了PyTorch性能,不借助CUTLASS和Triton等库和领域特定语言(DSL),实现了接近或超过PyTorch专家优化标准生产级内核的性能。该团队包括Anne Ouyang、Azalia Mirhoseini和Percy Liang,他们分享了研究成果,并指出最初目标只是生成合成数据来训练内核生成模型。研究亮点包括矩阵乘法、二维卷积、Softmax和层归一化的性能表现,结果已在英伟达L40S GPU上进行了基准测试。网友们对此展开了热烈讨论,指出AI能以更低成本实现更优化的内核。研究者们分享了方法、优化后的内核以及未来探索的第一步。
关键观点总结
关键观点1: 研究背景与目的
斯坦福大学HAI华人大神团队使用纯CUDA-C语言编写的快速AI生成内核,超越了PyTorch性能,不借助CUTLASS和Triton等库和领域特定语言(DSL),实现了接近或超过PyTorch专家优化标准生产级内核的性能。该团队包括Anne Ouyang、Azalia Mirhoseini和Percy Liang,他们分享了研究成果,并指出最初目标只是生成合成数据来训练内核生成模型。
关键观点2: 研究亮点
研究亮点包括矩阵乘法、二维卷积、Softmax和层归一化的性能表现,结果已在英伟达L40S GPU上进行了基准测试。
关键观点3: 网友反应
网友们对此展开了热烈讨论,指出AI能以更低成本实现更优化的内核。
关键观点4: 研究方法与未来探索
研究者们分享了方法、优化后的内核以及未来探索的第一步。
正文
其结果是,这种测试时循环不再像顺序修订那般,仅仅是与编译器「对话」,而是更接近一种结构化的探索性搜索。
这种搜索由明确的优化假设指导,并采用大规模并行评估的方式进行。
研究者运行了KernelBench第1级的10个问题,以进行测试。
他们调整了问题规模,以确保内核启动开销相对于问题的整体运行时间而言可以忽略不计。
然后,使用OpenAI o3和Gemini 2.5 Pro模型进行了5轮实验。
下图展示了首次发现性能最佳内核所在的轮次分布情况。
可以看到,大多数最优结果出现在靠后的轮次(总共5轮),其中绝大部分出现在第4轮或第5轮。
随着扩大搜索范围,研究者还发现:许多高性能内核的优化策略高度相似,集中在少数几种常见的模式上,这与他们手动编写内核的经验也是一致的。
主要的优化类别归纳如下——
-
内存访问优化:
提升不同内存层级(全局内存、共享内存、寄存器)之间数据迁移的效率,并确保数据访问方式能够最大化带宽、最小化冲突。
-
异步操作与延迟隐藏:
通过将耗时较长的操作(例如全局内存访问)与计算或其他内存传输重叠执行,来隐藏其带来的延迟。
-
数据类型与精度优化:
在允许的条件下,尽可能使用较低精度的数据类型(如FP16或BF16),以降低内存带宽需求,提升缓存效率,并有望利用专门的硬件加速单元。
-
计算与指令优化:
提升算术运算本身的效率,削减指令数量,或利用专门的硬件指令。
-
并行性与占用率增强:
最大化流式多处理器(SM)上活跃线程束(warp)的数量,以便更好地隐藏延迟,提高整体吞吐率。
-
控制流与循环优化:
减少由循环、分支及索引计算等引入的额外开销。
这次研究者采用的方法,与AI研究中一个日益显著的趋势不谋而合——
将强大的推理能力与对多个假设的并行探索相结合,能够带来性能的提升。
正如一些近期研究(例如AlphaEvolve、Gemini 2.5 Pro Deep Think)所强调的,我们并不总是需要大规模的重新训练。
论文地址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf
有时,巧妙的搜索和分支策略便足以催生科学创新、攻克复杂难题,而借助验证器进行广泛搜索,则可能带来更大的收益。
然而,这并不意味着我们不需要进一步的训练。
恰恰相反,研究者的这种方法,也有助于生成更优质的合成数据,用以改进未来的模型训练(这需要更多的问题实例)。
因此,它既是一种强大的测试时扩展方法,也是我们迈向更智能、数据效率更高的模型开发之路的一步。
而且,这次研究者展现的仅仅是初步的成果。这些优化结果的质量看起来相当可观,但仍有广阔的提升空间,例如产生更优的优化思路、生成更高质量的最终代码,以及将此方法应用于日益复杂的内核。
目前,研究者仍在积极改进的两个具体例子包括:
在现代机器学习任务中,FP32的应用不如FP16或BF16普遍,并且在较新的硬件上,针对FP32的优化往往也更少。
这或许能部分解释,为何基于FP32的内核更容易在性能上超越PyTorch。
Anne Ouyang
Anne Ouyang目前是斯坦福大学计算机科学(CS)博士生,在Scaling Intelligence Lab(可扩展智能实验室)进行研究。
她的研究兴趣主要集中在可扩展的自我改进机器学习系统,同时也广泛关注实证机器学习(empirical ML)和性能工程(performance engineering)。
此前,她在MIT获得学士和硕士学位,并曾在NVIDIA cuDNN团队工作,负责编写CUDA内核,用于加速GPU上的深度学习工作负载。
Azalia Mirhoseini
Azalia Mirhoseini是斯坦福大学计算机科学助理教授,也是Scaling Intelligence Lab(可扩展智能实验室)的创始人,并在Google DeepMind兼任高级研究科学家。
她的实验室致力于开发可扩展的自主演进人工智能系统与方法论,以期推动通用人工智能的发展。
在加入斯坦福大学之前,她曾在Google Brain和Anthropic等业界顶尖的人工智能实验室工作多年。
她过往的卓越成就包括:
Percy Liang
Percy Liang是斯坦福大学计算机科学副教授,兼任基础模型研究中心(CRFM)主任。同时也是CodaLab Worksheets的创建者,并借此坚定倡导科研工作的可复现性。
他目前专注于通过开源和严格的基准测试,提升基础模型(特别是大语言模型)的可及性与可理解性。
他曾围绕机器学习和自然语言处理领域进行了广泛研究,具体方向包括鲁棒性、可解释性、人机交互、学习理论、知识落地、语义学以及推理等。
此前,他于2004年在MIT获得学士学位,并于2011年在UC伯克利获得博士学位。
最后,展示一个Conv2D自动生成思路的优化轨迹示例,torch参考基准时间为1.41毫秒。