大模型 代码编程 能力评测排行榜

并行 · 开启思考工具

SWE-bench Verified82.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

Opus 4.5

扩展思考工具

SWE-bench Verified80.90

LiveCodeBench87.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

Claude Opus 4.6

扩展思考工具

SWE-bench Verified80.84

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual72.00

不开源

思考水平 · 极高工具

SWE-bench Verified80.60

LiveCodeBench—

SWE-Bench Pro - Public55.40

SWE-bench Multilingual76.20

免费商用

Gemini 3.1 Pro Preview

思考水平 · 高工具

SWE-bench Verified80.60

LiveCodeBench91.70

SWE-Bench Pro - Public54.20

SWE-bench Multilingual—

不开源

Claude Sonnet 4

并行 · 开启思考工具

SWE-bench Verified80.20

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

MiniMax M2.5

开启思考工具

SWE-bench Verified80.20

LiveCodeBench—

SWE-Bench Pro - Public55.40

SWE-bench Multilingual—

免费商用

Kimi K2.6

开启思考工具

SWE-bench Verified80.20

LiveCodeBench—

SWE-Bench Pro - Public58.60

SWE-bench Multilingual76.70

免费商用

GPT-5.2

思考水平 · 极高工具

SWE-bench Verified80.00

LiveCodeBench—

SWE-Bench Pro - Public55.60

SWE-bench Multilingual—

不开源

Claude Sonnet 4.6

开启思考

SWE-bench Verified79.60

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

思考水平 · 高工具

SWE-bench Verified79.40

LiveCodeBench—

SWE-Bench Pro - Public54.40

SWE-bench Multilingual74.10

免费商用

思考水平 · 极高工具

SWE-bench Verified79.00

LiveCodeBench—

SWE-Bench Pro - Public52.60

SWE-bench Multilingual73.30

免费商用

Qwen 3.6 Plus Preview

开启思考工具

SWE-bench Verified78.80

LiveCodeBench—

SWE-Bench Pro - Public56.60

SWE-bench Multilingual—

不开源

思考水平 · 高工具

SWE-bench Verified78.60

LiveCodeBench—

SWE-Bench Pro - Public52.30

SWE-bench Multilingual70.20

免费商用

GLM-5

开启思考

SWE-bench Verified77.80

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

Muse Spark

开启思考工具

SWE-bench Verified77.40

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

开启思考工具

SWE-bench Verified77.20

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

Qwen3.6-27B

开启思考工具

SWE-bench Verified77.20

LiveCodeBench—

SWE-Bench Pro - Public53.50

SWE-bench Multilingual71.30

免费商用

GPT-5.1-Codex-Max

思考水平 · 高工具

SWE-bench Verified76.80

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

Kimi K2.5

开启思考工具

SWE-bench Verified76.80

LiveCodeBench—

SWE-Bench Pro - Public50.70

SWE-bench Multilingual—

免费商用

Qwen3.5-397B-A17B

开启思考工具

SWE-bench Verified76.40

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

思考水平 · 高

SWE-bench Verified76.30

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

Gemini 3.0 Pro (Preview 11-2025)

思考水平 · 高工具

SWE-bench Verified76.30

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

开启思考

SWE-bench Verified76.20

LiveCodeBench92.00

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

Qwen3-Max-Thinking

开启思考

SWE-bench Verified75.30

LiveCodeBench85.90

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

o3-pro

思考水平 · 高

SWE-bench Verified75.00

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

不开源

M2.1

开启思考

SWE-bench Verified74.80

LiveCodeBench—

SWE-Bench Pro - Public—

SWE-bench Multilingual—

免费商用

排序：

查看全部 199 个模型的 SWE-bench Verified 完整排名

代码能力参考综合排名

排名

模型

Claude Mythos Preview

扩展思考工具

93.90

—

77.80

87.30

Opus 4.7

扩展思考工具

87.60

—

64.30

—

Claude Sonnet 5

并行 · 开启思考

82.00

—

并行 · 开启思考工具

82.00

—

Opus 4.5

扩展思考工具

80.90

87.00

—

Claude Opus 4.6

扩展思考工具

80.84

—

72.00

思考水平 · 极高工具

80.60

—

55.40

76.20

Gemini 3.1 Pro Preview

思考水平 · 高工具

80.60

91.70

54.20

—

Claude Sonnet 4

并行 · 开启思考工具

80.20

—

MiniMax M2.5

开启思考工具

80.20

—

55.40

—

Kimi K2.6

开启思考工具

80.20

—

58.60

76.70

GPT-5.2

思考水平 · 极高工具

80.00

—

55.60

—

Claude Sonnet 4.6

开启思考

79.60

—

思考水平 · 高工具

79.40

—

54.40

74.10

思考水平 · 极高工具

79.00

—

52.60

73.30

Qwen 3.6 Plus Preview

开启思考工具

78.80

—

56.60

—

思考水平 · 高工具

78.60

—

52.30

70.20

GLM-5

开启思考

77.80

—

Muse Spark

开启思考工具

77.40

—

开启思考工具

77.20

—

Qwen3.6-27B

开启思考工具

77.20

—

53.50

71.30

GPT-5.1-Codex-Max

思考水平 · 高工具

76.80

—

Kimi K2.5

开启思考工具

76.80

—

50.70

—

Qwen3.5-397B-A17B

开启思考工具

76.40

—

思考水平 · 高

76.30

—