DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型 Agent 能力评测排行榜

本页面提供大模型 Agent 能力评测排行榜,涵盖 Aider-Polyglot、τ²-Bench、Terminal Bench 2.0、Tool Decathlon、OSWorld-Verified 等主流 Agent 评测基准,深度对比 GPT、Claude、Qwen、DeepSeek 等模型的工具使用、任务规划与自主执行能力。

数据更新于 2026-04-28 13:02:03

截至 2026年4月,本页覆盖 Aider-Polyglot, τ²-Bench, Terminal Bench 2.0, Tool Decathlon 等评测基准,聚焦 大模型 Agent 能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
Agent能力评测Aider-Polyglotτ²-Bench
AI Agent - 工具使用Terminal Bench 2.0Tool DecathlonOSWorld-Verified
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
模型发布时间截止:

大模型性能评测结果

数据来源:DataLearnerAI
排名模型开源情况
Moonshot AI
Kimi K2.6
开启思考工具
——66.7050.0073.10免费商用
OpenAI
GPT-5.4 mini
思考水平 · 极高工具
——60.0042.9072.10不开源
智谱AI
GLM 5.1
开启思考工具
——63.5040.70—免费商用
4
阿里巴巴
Qwen 3.6 Plus Preview
开启思考工具
——61.6039.80—不开源
5
阿里巴巴
Qwen3.5-397B-A17B
开启思考工具
—86.7052.5038.3062.20免费商用
6
OpenAI
GPT-5.4 nano
思考水平 · 极高工具
——46.3035.5039.00不开源
7
阿里巴巴
Qwen3.6-35B-A3B
开启思考
——51.5026.90—免费商用
8
OpenAI
o3-pro
思考水平 · 高
84.90————不开源
9
Google Deep Mind
Gemini 2.5-Pro
开启思考
83.10————不开源
10
OpenAI
OpenAI o3
思考水平 · 高
81.30————不开源
11
xAI
Grok 4
开启思考
79.60————不开源
12
DeepSeek-AI
DeepSeek-V3.1
开启思考
76.30————免费商用
13
DeepSeek-AI
DeepSeek-V3.1 Terminus
76.10————免费商用
14
DeepSeek-AI
DeepSeek V3.2-Exp
开启思考工具
74.5066.70———免费商用
15
OpenAI
OpenAI o4 - mini
思考水平 · 高
72.00————不开源
16
Anthropic
Claude Opus 4
开启思考
72.00————不开源
17
DeepSeek-AI
DeepSeek-R1-0528
开启思考
71.40————免费商用
18
Anthropic
Claude Opus 4
70.10————不开源
19
DeepSeek-AI
DeepSeek V3.2
开启思考工具
69.9080.3046.40——免费商用
20
DeepSeek-AI
DeepSeek-V3.1
68.40————免费商用
21
阿里巴巴
Qwen3-Coder-Next
常规模式工具
66.20—36.20——免费商用
22
Anthropic
Claude Sonnet 3.7
开启思考
64.90————不开源
23
Anthropic
Claude Sonnet 4
开启思考
61.30————不开源
24
MiniMaxAI
M2.1
开启思考工具
61.00—47.90——免费商用
25
Anthropic
Claude Sonnet 3.7
60.40————不开源
26
Moonshot AI
Kimi K2
59.10————免费商用
27
Google Deep Mind
Gemini 2.5 Flash
开启思考
56.70————不开源
28
DeepSeek-AI
DeepSeek-V3-0324
55.10————免费商用
29
智谱AI
GLM-4.7
开启思考工具
52.1087.4041.00——免费商用
30
Anthropic
Claude 3.5 Sonnet New
51.60————不开源
Kimi K2.6
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.066.70
Tool Decathlon50.00
OSWorld-Verified73.10
免费商用
GPT-5.4 mini
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.060.00
Tool Decathlon42.90
OSWorld-Verified72.10
不开源
GLM 5.1
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.063.50
Tool Decathlon40.70
OSWorld-Verified—
免费商用
4
Qwen 3.6 Plus Preview
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.061.60
Tool Decathlon39.80
OSWorld-Verified—
不开源
5
Qwen3.5-397B-A17B
开启思考工具
Aider-Polyglot—
τ²-Bench86.70
Terminal Bench 2.052.50
Tool Decathlon38.30
OSWorld-Verified62.20
免费商用
6
GPT-5.4 nano
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.046.30
Tool Decathlon35.50
OSWorld-Verified39.00
不开源
7
Qwen3.6-35B-A3B
开启思考
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.051.50
Tool Decathlon26.90
OSWorld-Verified—
免费商用
8
o3-pro
思考水平 · 高
Aider-Polyglot84.90
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
9
Gemini 2.5-Pro
开启思考
Aider-Polyglot83.10
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
10
OpenAI o3
思考水平 · 高
Aider-Polyglot81.30
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
11
Grok 4
开启思考
Aider-Polyglot79.60
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
12
DeepSeek-V3.1
开启思考
Aider-Polyglot76.30
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
13
DeepSeek-V3.1 Terminus
Aider-Polyglot76.10
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
14
DeepSeek V3.2-Exp
开启思考工具
Aider-Polyglot74.50
τ²-Bench66.70
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
15
OpenAI o4 - mini
思考水平 · 高
Aider-Polyglot72.00
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
16
Claude Opus 4
开启思考
Aider-Polyglot72.00
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
17
DeepSeek-R1-0528
开启思考
Aider-Polyglot71.40
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
18
Claude Opus 4
Aider-Polyglot70.10
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
19
DeepSeek V3.2
开启思考工具
Aider-Polyglot69.90
τ²-Bench80.30
Terminal Bench 2.046.40
Tool Decathlon—
OSWorld-Verified—
免费商用
20
DeepSeek-V3.1
Aider-Polyglot68.40
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
21
Qwen3-Coder-Next
常规模式工具
Aider-Polyglot66.20
τ²-Bench—
Terminal Bench 2.036.20
Tool Decathlon—
OSWorld-Verified—
免费商用
22
Claude Sonnet 3.7
开启思考
Aider-Polyglot64.90
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
23
Claude Sonnet 4
开启思考
Aider-Polyglot61.30
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
24
M2.1
开启思考工具
Aider-Polyglot61.00
τ²-Bench—
Terminal Bench 2.047.90
Tool Decathlon—
OSWorld-Verified—
免费商用
25
Claude Sonnet 3.7
Aider-Polyglot60.40
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
26
Kimi K2
Aider-Polyglot59.10
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
27
Gemini 2.5 Flash
开启思考
Aider-Polyglot56.70
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
28
DeepSeek-V3-0324
Aider-Polyglot55.10
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
29
GLM-4.7
开启思考工具
Aider-Polyglot52.10
τ²-Bench87.40
Terminal Bench 2.041.00
Tool Decathlon—
OSWorld-Verified—
免费商用
30
Claude 3.5 Sonnet New
Aider-Polyglot51.60
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
排序:
查看全部 93 个模型的 Tool Decathlon 完整排名