Multi-SWE-bench：首个多语言代码修复基准开源

字节跳动技术团队 · 公众号 · 架构 · 2025-04-12 15:11

正文

请到「今天看啥」查看全文

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving

论文链接： https://arxiv.org/abs/2504.02605

榜单链接： https://multi-swe-bench.github.io

代码链接： https://github.com/multi-swe-bench/multi-swe-bench

数据链接： https://huggingface.co/datasets/ByteDance-Seed/Multi-SWE-bench

1. 主流代码基准局限：覆盖语言单一、复杂任务有限

代码生成任务对大语言模型的逻辑推理、上下文理解等核心能力提出了综合要求。相应地，SWE-bench 为代表的代码修复基准，近年来已成为衡量模型智能水平的重要指标。

SWE-bench 是当前最具代表性的代码修复评测基准，强调任务真实、难度高。它基于 GitHub issue，要求模型自动定位并修复 Bug，兼具跨文件修改、复杂语义推理与上下文理解等挑战。相比传统代码生成任务（例如 HumanEval、MBPP、LiveCodeBench），SWE-bench 更贴近现实开发场景，是衡量大模型高阶“编程智能”的关键标尺。

然而，随着行业快速发展与模型能力不断提升，该基准难以全面覆盖现实开发中的多语言环境与复杂任务，制约大模型代码智能进一步演进。

具体看，其局限主要体现在以下两方面：

（1）语言维度单一：当前主流评测几乎全部集中在 Python，缺乏其他语言覆盖，难以评估模型的跨语言泛化能力。

（2）任务难度不足：现有基准多为短 patch、单文件修复，未覆盖超多文件、多步骤、超长上下文等复杂开发场景。同时，SWE-bench 中的任务未做难度分级，难以系统衡量模型在不同能力层次上的表现。

在此背景下，行业迫切需要一个覆盖主流编程语言、具备高质量标注实例与难度分级的“多语言 Bug 修复评测集”。

2. 涵盖 7 种语言、1,632 个真实修复任务的 Multi-SWE-bench

Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足，系统性评估大模型在复杂开发环境下的“多语言泛化能力”，推动多语言软件开发 Agent 的评估与研究，其主要特性如下：