专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
新智元  ·  Fellou ... ·  昨天  
爱可可-爱生活  ·  【[27星]PERSONA-bench/PE ... ·  昨天  
爱可可-爱生活  ·  [CL]《MetaFaith: ... ·  昨天  
爱可可-爱生活  ·  【[689星]godump:Go语言开发者的 ... ·  昨天  
51好读  ›  专栏  ›  量子位

斯坦福意外用AI生成超强CUDA内核,性能比人类专家优化得还要好!翻倍碾压原生PyTorch,华人主...

量子位  · 公众号  · AI  · 2025-05-31 11:34

正文

请到「今天看啥」查看全文


语言推理 的步骤,通过这种方式鼓励搜索过程更加多样化。

也就是说,他们是让系统在每次改进时通过 类似“思考”的方式产生更多想法 ,从而找到更好的解决方案。

具体如何实现,一起来看。

改代码前先生成自然语言优化思想

按照斯坦福团队博客的描述,这种内核生成的思路非常简单—— 给定torch代码,然后告诉都能写编写自定义内核来替换torch算子

这些内核是用 纯CUDA-C编写 ,无需使用CUTLASS和Triton等库和DSL(Domain-Specific Language,领域专用语言)。

不同于传统方法的是,模型并不是一上来就直接改代码,而是先用自然语言生成优化思想,然后再将这些思想转化为新的代码变体。

团队这样做的理由是,“按顺序修改”式的优化思路缺乏多样性,导致陷入局部极小值,重复访问同一类转换或无休止地优化没有前景的轨迹。

为了进一步增强思路多样性,斯坦福团队还使用了 多分支的探索模式

具体来说,他们的方法并非每一步都只优化一个候选方案,而是将每个想法分散开来,使其衍生出多个实现,并使用性能最高的内核作为下一轮的种子。

团队使用OpenAI o3和Gemini 2.5 Pro挑战KernelBench 1级中的10个问题,运行多轮后,最佳内核开始出现。

其中大多数最佳结果出现在后续轮次(总共5轮),并且主要是第4轮或第5轮。

KernelBench是斯坦福团队自己提出的一套AI生成内核测试基准,基准中的任务分为3个级别,其中1级是指单一原始操作(Single primitive operation),包括AI的基础构建块 (例如卷积、矩阵-向量与矩阵-矩阵乘法、损失函数、激活函数以及层归一化)







请到「今天看啥」查看全文