专栏名称: 字节跳动技术团队
字节跳动的技术实践分享
目录
相关文章推荐
字节跳动技术团队  ·  基于LLM的AI应急:多模态信息智能化分析整 ... ·  昨天  
字节跳动技术团队  ·  远程访问代理+内网穿透:火山引擎边缘网关助力 ... ·  2 天前  
字节跳动技术团队  ·  稀土掘金 x Trae ... ·  2 天前  
51好读  ›  专栏  ›  字节跳动技术团队

Multi-SWE-bench:首个多语言代码修复基准开源

字节跳动技术团队  · 公众号  · 架构  · 2025-04-12 15:11

正文

请到「今天看啥」查看全文


Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving

论文链接: https://arxiv.org/abs/2504.02605

榜单链接: https://multi-swe-bench.github.io

代码链接: https://github.com/multi-swe-bench/multi-swe-bench

数据链接: https://huggingface.co/datasets/ByteDance-Seed/Multi-SWE-bench



1. 主流代码基准局限:覆盖语言单一、复杂任务有限
代码生成任务对大语言模型的逻辑推理、上下文理解等核心能力提出了综合要求。相应地,SWE-bench 为代表的代码修复基准,近年来已成为衡量模型智能水平的重要指标。
SWE-bench 是当前最具代表性的代码修复评测基准,强调任务真实、难度高。它基于 GitHub issue,要求模型自动定位并修复 Bug,兼具跨文件修改、复杂语义推理与上下文理解等挑战。相比传统代码生成任务(例如 HumanEval、MBPP、LiveCodeBench),SWE-bench 更贴近现实开发场景,是衡量大模型高阶“编程智能”的关键标尺。
然而,随着行业快速发展与模型能力不断提升,该基准难以全面覆盖现实开发中的多语言环境与复杂任务,制约大模型代码智能进一步演进。
具体看,其局限主要体现在以下两方面:
(1)语言维度单一: 当前主流评测几乎全部集中在 Python,缺乏其他语言覆盖,难以评估模型的跨语言泛化能力。
(2)任务难度不足: 现有基准多为短 patch、单文件修复,未覆盖超多文件、多步骤、超长上下文等复杂开发场景。同时,SWE-bench 中的任务未做难度分级,难以系统衡量模型在不同能力层次上的表现。
在此背景下,行业迫切需要一个覆盖主流编程语言、具备高质量标注实例与难度分级的“多语言 Bug 修复评测集”。

2. 涵盖 7 种语言、1,632 个真实修复任务的 Multi-SWE-bench
Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发 Agent 的评估与研究,其主要特性如下:
  • 首次覆盖 7 种主流编程语言 (包括 Java、Go、Rust、C、C++、 TypeScript、JavaScript),构建多语言开发环境下的代码修复任务,系统评估模型的跨语言适应与泛化能力;
  • 引入任务难度分级机制 ,将问题划分为简单(Easy)、中等(Medium)和困难(Hard)三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战;
  • 1,632 个实例全部 来源于真实开源仓库






请到「今天看啥」查看全文