SWE-bench

随着大语言模型（LLM）的快速发展，它们在自然语言处理（NLP）、代码生成等领域的表现已达到前所未有的高度。然而，现有的代码评测基准（如 HumanEval）通常侧重于**自包含的、较短的代码生成任务**，而未能充分模拟真实世界的软件开发环境。为弥补这一空白，研究者提出了一种全新的评测基准——**SWE-Bench**，旨在测试 LLM 在**真实软件工程问题**中的能力。

更新于 2026年3月22日·1,308 次浏览

问题数量: 2294
发布机构: 普林斯顿大学
评测类别: 编程与软件工程
评测指标: Accuracy
支持语言: 英文
难度等级: 高难度

简介

一个从GitHub上提炼的真实世界的Python代码仓的任务评测数据集

SWE-bench评测最新大模型排名与完整榜单数据

查看 SWE-bench 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

排名	模型				开源情况
	Claude Opus 4.6 扩展思考工具	77.83	2026-02-05	未知	闭源
	Grok 4 Code 常规模式	72.00	2025-07-03	未知	闭源

SWE-bench评测最新大模型排名与完整榜单数据

SWE-bench 排名