专栏名称: 机器学习研究组订阅
连接人工智能技术人才和产业人才的交流平台
目录
相关文章推荐
机器之心  ·  AI 推理成本暴跌,「互联网女皇」 ... ·  昨天  
爱可可-爱生活  ·  本文通过引入同时考量计算与内存访问成本的Ki ... ·  昨天  
51好读  ›  专栏  ›  机器学习研究组订阅

斯坦福华人天团意外爆冷!AI用纯CUDA-C编内核,竟干翻PyTorch?

机器学习研究组订阅  · 公众号  · AI  · 2025-05-31 19:20

主要观点总结

斯坦福大学HAI华人大神团队使用纯CUDA-C语言编写的快速AI生成内核,超越了PyTorch性能,不借助CUTLASS和Triton等库和领域特定语言(DSL),实现了接近或超过PyTorch专家优化标准生产级内核的性能。该团队包括Anne Ouyang、Azalia Mirhoseini和Percy Liang,他们分享了研究成果,并指出最初目标只是生成合成数据来训练内核生成模型。研究亮点包括矩阵乘法、二维卷积、Softmax和层归一化的性能表现,结果已在英伟达L40S GPU上进行了基准测试。网友们对此展开了热烈讨论,指出AI能以更低成本实现更优化的内核。研究者们分享了方法、优化后的内核以及未来探索的第一步。

关键观点总结

关键观点1: 研究背景与目的

斯坦福大学HAI华人大神团队使用纯CUDA-C语言编写的快速AI生成内核,超越了PyTorch性能,不借助CUTLASS和Triton等库和领域特定语言(DSL),实现了接近或超过PyTorch专家优化标准生产级内核的性能。该团队包括Anne Ouyang、Azalia Mirhoseini和Percy Liang,他们分享了研究成果,并指出最初目标只是生成合成数据来训练内核生成模型。

关键观点2: 研究亮点

研究亮点包括矩阵乘法、二维卷积、Softmax和层归一化的性能表现,结果已在英伟达L40S GPU上进行了基准测试。

关键观点3: 网友反应

网友们对此展开了热烈讨论,指出AI能以更低成本实现更优化的内核。

关键观点4: 研究方法与未来探索

研究者们分享了方法、优化后的内核以及未来探索的第一步。


正文

请到「今天看啥」查看全文


其结果是,这种测试时循环不再像顺序修订那般,仅仅是与编译器「对话」,而是更接近一种结构化的探索性搜索。

这种搜索由明确的优化假设指导,并采用大规模并行评估的方式进行。

研究者运行了KernelBench第1级的10个问题,以进行测试。

他们调整了问题规模,以确保内核启动开销相对于问题的整体运行时间而言可以忽略不计。

然后,使用OpenAI o3和Gemini 2.5 Pro模型进行了5轮实验。

下图展示了首次发现性能最佳内核所在的轮次分布情况。

可以看到,大多数最优结果出现在靠后的轮次(总共5轮),其中绝大部分出现在第4轮或第5轮。

图片

随着扩大搜索范围,研究者还发现:许多高性能内核的优化策略高度相似,集中在少数几种常见的模式上,这与他们手动编写内核的经验也是一致的。

主要的优化类别归纳如下——

  • 内存访问优化: 提升不同内存层级(全局内存、共享内存、寄存器)之间数据迁移的效率,并确保数据访问方式能够最大化带宽、最小化冲突。

  • 异步操作与延迟隐藏: 通过将耗时较长的操作(例如全局内存访问)与计算或其他内存传输重叠执行,来隐藏其带来的延迟。

  • 数据类型与精度优化: 在允许的条件下,尽可能使用较低精度的数据类型(如FP16或BF16),以降低内存带宽需求,提升缓存效率,并有望利用专门的硬件加速单元。

  • 计算与指令优化: 提升算术运算本身的效率,削减指令数量,或利用专门的硬件指令。

  • 并行性与占用率增强: 最大化流式多处理器(SM)上活跃线程束(warp)的数量,以便更好地隐藏延迟,提高整体吞吐率。

  • 控制流与循环优化: 减少由循环、分支及索引计算等引入的额外开销。

图片

总结

这次研究者采用的方法,与AI研究中一个日益显著的趋势不谋而合——

将强大的推理能力与对多个假设的并行探索相结合,能够带来性能的提升。

正如一些近期研究(例如AlphaEvolve、Gemini 2.5 Pro Deep Think)所强调的,我们并不总是需要大规模的重新训练。

图片

论文地址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf

有时,巧妙的搜索和分支策略便足以催生科学创新、攻克复杂难题,而借助验证器进行广泛搜索,则可能带来更大的收益。

然而,这并不意味着我们不需要进一步的训练。

恰恰相反,研究者的这种方法,也有助于生成更优质的合成数据,用以改进未来的模型训练(这需要更多的问题实例)。

因此,它既是一种强大的测试时扩展方法,也是我们迈向更智能、数据效率更高的模型开发之路的一步。

而且,这次研究者展现的仅仅是初步的成果。这些优化结果的质量看起来相当可观,但仍有广阔的提升空间,例如产生更优的优化思路、生成更高质量的最终代码,以及将此方法应用于日益复杂的内核。

目前,研究者仍在积极改进的两个具体例子包括:

  • FP16 Matmul: 性能达到torch.matmul的52%

  • FP16 Flash Attention: 性能达到torch.nn.functional.scaled_dot_product_attention的9%


在现代机器学习任务中,FP32的应用不如FP16或BF16普遍,并且在较新的硬件上,针对FP32的优化往往也更少。

这或许能部分解释,为何基于FP32的内核更容易在性能上超越PyTorch。

图片

作者介绍


Anne Ouyang

图片

Anne Ouyang目前是斯坦福大学计算机科学(CS)博士生,在Scaling Intelligence Lab(可扩展智能实验室)进行研究。

她的研究兴趣主要集中在可扩展的自我改进机器学习系统,同时也广泛关注实证机器学习(empirical ML)和性能工程(performance engineering)。

此前,她在MIT获得学士和硕士学位,并曾在NVIDIA cuDNN团队工作,负责编写CUDA内核,用于加速GPU上的深度学习工作负载。

Azalia Mirhoseini

图片

Azalia Mirhoseini是斯坦福大学计算机科学助理教授,也是Scaling Intelligence Lab(可扩展智能实验室)的创始人,并在Google DeepMind兼任高级研究科学家。

她的实验室致力于开发可扩展的自主演进人工智能系统与方法论,以期推动通用人工智能的发展。

在加入斯坦福大学之前,她曾在Google Brain和Anthropic等业界顶尖的人工智能实验室工作多年。

她过往的卓越成就包括:

  • 提出混合专家(MoE)神经架构——目前已被前沿的AI模型广泛应用;

  • 领导AlphaChip项目——一项将深度强化学习用于布局优化的开创性工作,并成功应用于谷歌AI加速器(TPU)及数据中心CPU等先进芯片的设计中;

  • 在测试时计算的Scaling方面有深入的研究


Percy Liang

图片

Percy Liang是斯坦福大学计算机科学副教授,兼任基础模型研究中心(CRFM)主任。同时也是CodaLab Worksheets的创建者,并借此坚定倡导科研工作的可复现性。

他目前专注于通过开源和严格的基准测试,提升基础模型(特别是大语言模型)的可及性与可理解性。

他曾围绕机器学习和自然语言处理领域进行了广泛研究,具体方向包括鲁棒性、可解释性、人机交互、学习理论、知识落地、语义学以及推理等。

此前,他于2004年在MIT获得学士学位,并于2011年在UC伯克利获得博士学位。

图片

内核优化过程


最后,展示一个Conv2D自动生成思路的优化轨迹示例,torch参考基准时间为1.41毫秒。







请到「今天看啥」查看全文