专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
目录
相关文章推荐
远见财金  ·  OpenAI ... ·  15 小时前  
远见财金  ·  OpenAI ... ·  15 小时前  
人工智能产业链union  ·  【AI】AI记忆伪装被戳穿!GPT、Deep ... ·  2 天前  
人工智能产业链union  ·  【AI】AI记忆伪装被戳穿!GPT、Deep ... ·  2 天前  
机器学习研究组订阅  ·  刚刚,谷歌AI路线图曝光:竟要抛弃注意力机制 ... ·  2 天前  
51好读  ›  专栏  ›  AI前线

突袭Cursor,Windsurf抢发自研大模型!性能比肩Claude 3.5、但成本更低,网友好评...

AI前线  · 公众号  · AI  · 2025-05-17 10:30

主要观点总结

Windsurf公司发布了其首个AI软件工程模型家族SWE-1,该模型家族包括三款具体模型,针对软件工程的完整流程进行了优化。SWE-1系列旨在帮助软件工程师加速处理所有工作,通过流程感知的概念赋能模型。Windsurf通过基准测试和生产实验评估了SWE-1的表现,并对此表示满意。公司还提到了未来的迭代和更多模型的发布。

关键观点总结

关键观点1: Windsurf发布SWE-1系列模型

Windsurf发布了其首个AI软件工程模型家族SWE-1,包含SWE-1、SWE-1-lite和SWE-1-mini三款具体模型。

关键观点2: SWE-1系列的目标

SWE-1系列旨在帮助软件工程师加速处理所有工作,通过流程感知的概念赋能模型,实现无缝衔接的人机协作。

关键观点3: Windsurf通过基准测试和生产实验评估SWE-1

Windsurf通过基准测试和生产实验评估了SWE-1的表现,认为其在一些任务上的表现接近或优于前沿基础模型。

关键观点4: Windsurf对未来的计划

Windsurf表示将继续改进和更新SWE系列模型,并加大投入,以最低成本为用户提供最佳性能。公司还强调了作为产品及基础设施厂商的优势,并表示这只是开始。


正文

请到「今天看啥」查看全文


软件开发者在代码编写之外需要完成的工作,大模型也应当尽量接管


其次,每位软件开发者都很清楚,上述各个层面的工作推进起来极其耗时,而且整个过程就是由一个个未完成的状态构成的。如今,最强大的基座编码模型仍然以战术目标为切入点进行训练,即最终代码能否编译并通过单元测试。但对实际开发者而言,单元测试只是整体工程问题中的组成部分。当下,实现某项特定功能的方法有很多,但能保证一项功能可在未来多年内稳定使用的好办法却少之又少。正因为如此,Cascade 模型在用户主动指导下表现优异,但独立运行时间越长则其性能越差。要实现更多工作流程的自动化,就必须打破这一限制。 这要求对工程流程的完整复杂性进行建模:包括对未完成状态进行推理,并且可能会得出模棱两可的结果。






“在某种程度上,单纯提高编码水平并不足以让开发者或者模型在软件工程方面更上一层楼。我们的终极目标在于帮助软件工程师加速处理所有工作,换句话说,我们很早就意识到需要打造“软件工程”模型——即 SWE 模型家族。”Windsurf 表示。

基于对 Windsurf 编辑器使用方式的观察,Windsurf 着手打造出一套全新的数据模型(共享时间线,the shared timeline)和一套包含未完成状态、长时间运行任务及多个接口的训练方案。

“我们的初始目标是希望证明,即使对于规模较小、计算资源远低于研究实验室的工程师团队,同样可以通过这种方式获得前沿水平模型的性能。而 SWE-1 就是我们的初步概念验证。”Windsurf 表示。

SWE-1 测评:虽未“遥遥领先”但有一战之力

对于 SWE-1 的表现,Windsurf 的评价是“接近所有前沿基础模型。更重要的是,它的表现优于所有非前沿模型以及开放权重类模型。”

为了摸清实际性能表现,Windsurf 在基准测试中进行了离线评估与生产实验盲测。

离线评估

Windsurf 将 SWE-1 的性能与 Anthropic 模型家庭(Cascade 中广泛使用的模型之一)以及 DeepSeek 与 Qwen 中领先的开放权重编码模型进行了比较。

对话式 SWE 任务基准测试:以现有 Cascade 会话的中间为起点,使用完成一半的任务,Cascade 对下一用户查询的处理效果如何?根据有用性、效率、正确性以及目标文件的编辑准确率等指标的混合平均值打出的得分(10 分制),即代表可比较的性能结果。

Windsurf 认为,这项基准测试抓住了其率先在 Cascade 中提出的“人机交互”代理式编码的独特本质。毕竟模型本身还不完美,Windsurf 认为能否在已经完成了一部分的任务中与用户输入实现无缝对接,应当成为衡量模型实用性的重要指标。

图片

端到端 SWE 任务基准测试:从对话开头介入,Cascade 使用一组选定的单元测试,评估其在多大程度上实现了输入意图。根据测试通过率与评委评分的混合平均值得出最终成绩(10 分制)。

这项基准测试旨在衡量模型独立端到端解决问题的能力。随着各类模型越来越多地在无人干预的情况下运行,这已经成为一类日益重要的用例。

图片

从离线评估结果来看,Windsurf 认为 SWE-1 在这些任务上的表现与各大模型实验室的前沿成果相当,而且优于各领先中型及前沿开放权重模型。 虽然还达不到“遥遥领先”,但 SWE-1 与这些领先成果完全拥有一战之力。

生产实验

由于已经拥有庞大的用户社区,因此 Windsurf 决定配合生产实验来补充离线评估结论。

为了计算这些每日指标,Windsurf 开展了一项盲测,实验对象是一定比例的用户,且用户并不清楚自己正在使用的是哪种模型。用户被分配到的模型在整个测试阶段保持不变,确保能够衡量其随时间推移的重复使用情况。







请到「今天看啥」查看全文