OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

InfoQ · 公众号 · 科技媒体 · 2025-03-30 10:15

正文

该项目旨在推动对 AI 在软件工程领域经济影响的研究，特别是潜在的生产力提升和对劳动力市场的影响。通过将模型性能与货币价值联系起来，SWE-Lancer 展现了 AI 在软件工程中的实际影响，并凸显了持续优化 AI 技术的重要性。

在基准测试中表现最好的模型是 Claude 3.5 Sonnet，在独立编码任务中的成功率为 26.2%，这表明 AI 能力仍有很大的提升空间。许多模型在需要深度上下文理解或评估多个提案的任务方面表现不佳，这表明未来的模型可能需要更复杂的推理能力。

一些评论表示对 SWE-Lancer 的实际应用表示怀疑，认为可能只对特定群体有吸引力，另一些人则认为这是理解 AI 对软件工程社会经济影响的关键一步，与行业向 AI 驱动的生产力工具发展的整体趋势相契合，正如 Gartner 2027 所预测的软件工程智能平台的广泛采用。

用户 Alex Bon 表示：

终于有机会让 AI 证明它也能在零工经济中生存下来了！

独立黑客 Jason Leow 则表示：

我喜欢这个发展方向。用全栈问题进行测试，将其与市场价值联系起来，这正是日常开发工作所面临的东西。我一直觉得旧的基准测试有些不太对劲。

推荐文章

新浪科技 · 【#方运舟张勇关联公司股权被冻结#】企查查APP显示，近日，哪吒-20250613101953

18 小时前

36氪 · 108万的Labubu，才不是王宁的「上限」

昨天

QCon全球软件开发大会 · SGLang 推理引擎的技术要点与部署实践｜AICon 北京站前瞻

昨天

QCon全球软件开发大会 · SGLang 推理引擎的技术要点与部署实践｜AICon 北京站前瞻

昨天

新浪科技 · 【#任天堂Switch2供不应求# #任天堂4天售出超350万台-20250611202801

2 天前

36氪 · 38.88万坐月子，牛津学霸收割中国富人

2 天前

中科院物理所 · 漫谈真空中光速的精密测量

8 年前

热门视频集汇 · 离婚了要房子还是要孩子？这个女人的回答刷爆了好友圈！

8 年前

上海头条 · 收藏！上海14条地铁线最新运行间隔出炉！还有这些你不知道的秘密

8 年前

爱浪客 · 干货 | 常年免费的五星酒店游泳池/健身房你值得拥有

8 年前

IPO案例库 · 业务研讨之上市公司并购重组教育类资产重点问题探究

8 年前