DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型 Agent 能力评测排行榜

本页面提供大模型 Agent 能力评测排行榜,涵盖 Aider-Polyglot、τ²-Bench、Terminal Bench 2.0、Tool Decathlon、OSWorld-Verified 等主流 Agent 评测基准,深度对比 GPT、Claude、Qwen、DeepSeek 等模型的工具使用、任务规划与自主执行能力。

数据更新于 2026-04-28 13:02:03

截至 2026年4月,本页覆盖 Aider-Polyglot, τ²-Bench, Terminal Bench 2.0, Tool Decathlon 等评测基准,聚焦 大模型 Agent 能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
Agent能力评测Aider-Polyglotτ²-Bench
AI Agent - 工具使用Terminal Bench 2.0Tool DecathlonOSWorld-Verified
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
模型发布时间截止:

大模型性能评测结果

数据来源:DataLearnerAI
排名模型开源情况
Anthropic
Claude Mythos Preview
扩展思考工具
——82.00—79.60不开源
OpenAI
GPT-5.5
思考水平 · 高工具
——82.70—78.70不开源
Anthropic
Opus 4.7
扩展思考工具
——69.40—78.00不开源
4
OpenAI
GPT-5.4
思考水平 · 极高工具
——75.10—75.00不开源
5
Moonshot AI
Kimi K2.6
开启思考工具
——66.7050.0073.10免费商用
6
Anthropic
Claude Opus 4.6
扩展思考工具
—91.8965.40—72.70不开源
7
Anthropic
Claude Sonnet 4.6
开启思考工具
——59.10—72.50不开源
8
OpenAI
GPT-5.4 mini
思考水平 · 极高工具
——60.0042.9072.10不开源
9
阿里巴巴
Qwen3.5-397B-A17B
开启思考工具
—86.7052.5038.3062.20免费商用
10
Anthropic
Claude Sonnet 4.5
开启思考工具
—84.7042.80—61.40不开源
11
阿里巴巴
Qwen3.5-27B
开启思考工具
—79.0041.60—56.20免费商用
12
Anthropic
Claude Sonnet 4
开启思考工具
————42.20不开源
13
OpenAI
GPT-5.4 nano
思考水平 · 极高工具
——46.3035.5039.00不开源
14
Anthropic
Claude Sonnet 3.7
开启思考工具
—61.80——28.00不开源
15
OpenAI
o3-pro
思考水平 · 高
84.90————不开源
16
Google Deep Mind
Gemini 2.5-Pro
开启思考
83.10————不开源
17
OpenAI
OpenAI o3
思考水平 · 高
81.30————不开源
18
xAI
Grok 4
开启思考
79.60————不开源
19
DeepSeek-AI
DeepSeek-V3.1
开启思考
76.30————免费商用
20
DeepSeek-AI
DeepSeek-V3.1 Terminus
76.10————免费商用
21
DeepSeek-AI
DeepSeek V3.2-Exp
开启思考工具
74.5066.70———免费商用
22
OpenAI
OpenAI o4 - mini
思考水平 · 高
72.00————不开源
23
Anthropic
Claude Opus 4
开启思考
72.00————不开源
24
DeepSeek-AI
DeepSeek-R1-0528
开启思考
71.40————免费商用
25
Anthropic
Claude Opus 4
70.10————不开源
26
DeepSeek-AI
DeepSeek V3.2
开启思考工具
69.9080.3046.40——免费商用
27
DeepSeek-AI
DeepSeek-V3.1
68.40————免费商用
28
阿里巴巴
Qwen3-Coder-Next
常规模式工具
66.20—36.20——免费商用
29
Anthropic
Claude Sonnet 3.7
开启思考
64.90————不开源
30
Anthropic
Claude Sonnet 4
开启思考
61.30————不开源
Claude Mythos Preview
扩展思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.082.00
Tool Decathlon—
OSWorld-Verified79.60
不开源
GPT-5.5
思考水平 · 高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.082.70
Tool Decathlon—
OSWorld-Verified78.70
不开源
Opus 4.7
扩展思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.069.40
Tool Decathlon—
OSWorld-Verified78.00
不开源
4
GPT-5.4
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.075.10
Tool Decathlon—
OSWorld-Verified75.00
不开源
5
Kimi K2.6
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.066.70
Tool Decathlon50.00
OSWorld-Verified73.10
免费商用
6
Claude Opus 4.6
扩展思考工具
Aider-Polyglot—
τ²-Bench91.89
Terminal Bench 2.065.40
Tool Decathlon—
OSWorld-Verified72.70
不开源
7
Claude Sonnet 4.6
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.059.10
Tool Decathlon—
OSWorld-Verified72.50
不开源
8
GPT-5.4 mini
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.060.00
Tool Decathlon42.90
OSWorld-Verified72.10
不开源
9
Qwen3.5-397B-A17B
开启思考工具
Aider-Polyglot—
τ²-Bench86.70
Terminal Bench 2.052.50
Tool Decathlon38.30
OSWorld-Verified62.20
免费商用
10
Claude Sonnet 4.5
开启思考工具
Aider-Polyglot—
τ²-Bench84.70
Terminal Bench 2.042.80
Tool Decathlon—
OSWorld-Verified61.40
不开源
11
Qwen3.5-27B
开启思考工具
Aider-Polyglot—
τ²-Bench79.00
Terminal Bench 2.041.60
Tool Decathlon—
OSWorld-Verified56.20
免费商用
12
Claude Sonnet 4
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified42.20
不开源
13
GPT-5.4 nano
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.046.30
Tool Decathlon35.50
OSWorld-Verified39.00
不开源
14
Claude Sonnet 3.7
开启思考工具
Aider-Polyglot—
τ²-Bench61.80
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified28.00
不开源
15
o3-pro
思考水平 · 高
Aider-Polyglot84.90
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
16
Gemini 2.5-Pro
开启思考
Aider-Polyglot83.10
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
17
OpenAI o3
思考水平 · 高
Aider-Polyglot81.30
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
18
Grok 4
开启思考
Aider-Polyglot79.60
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
19
DeepSeek-V3.1
开启思考
Aider-Polyglot76.30
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
20
DeepSeek-V3.1 Terminus
Aider-Polyglot76.10
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
21
DeepSeek V3.2-Exp
开启思考工具
Aider-Polyglot74.50
τ²-Bench66.70
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
22
OpenAI o4 - mini
思考水平 · 高
Aider-Polyglot72.00
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
23
Claude Opus 4
开启思考
Aider-Polyglot72.00
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
24
DeepSeek-R1-0528
开启思考
Aider-Polyglot71.40
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
25
Claude Opus 4
Aider-Polyglot70.10
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
26
DeepSeek V3.2
开启思考工具
Aider-Polyglot69.90
τ²-Bench80.30
Terminal Bench 2.046.40
Tool Decathlon—
OSWorld-Verified—
免费商用
27
DeepSeek-V3.1
Aider-Polyglot68.40
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
免费商用
28
Qwen3-Coder-Next
常规模式工具
Aider-Polyglot66.20
τ²-Bench—
Terminal Bench 2.036.20
Tool Decathlon—
OSWorld-Verified—
免费商用
29
Claude Sonnet 3.7
开启思考
Aider-Polyglot64.90
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
30
Claude Sonnet 4
开启思考
Aider-Polyglot61.30
τ²-Bench—
Terminal Bench 2.0—
Tool Decathlon—
OSWorld-Verified—
不开源
排序:
查看全部 93 个模型的 OSWorld-Verified 完整排名