DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
返回总榜单

大模型 Agent 能力评测排行榜

本页面提供大模型 Agent 能力评测排行榜,涵盖 Aider-Polyglot、τ²-Bench、Terminal Bench 2.0、Tool Decathlon、OSWorld-Verified 等主流 Agent 评测基准,深度对比 GPT、Claude、Qwen、DeepSeek 等模型的工具使用、任务规划与自主执行能力。

数据更新于 2026-04-28 13:02:03

截至 2026年4月,本页覆盖 Aider-Polyglot, τ²-Bench, Terminal Bench 2.0, Tool Decathlon 等评测基准,聚焦 大模型 Agent 能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。

基准评测
Agent能力评测Aider-Polyglotτ²-Bench
AI Agent - 工具使用Terminal Bench 2.0Tool DecathlonOSWorld-Verified
更多评测
参数规模:全部3B及以下7B13B34B65B100B及以上
模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型
开源:全部开源闭源
模型发布时间截止:

大模型性能评测结果

数据来源:DataLearnerAI
排名模型开源情况
OpenAI
GPT-5.5
思考水平 · 高工具
——82.70—78.70不开源
Anthropic
Claude Mythos Preview
扩展思考工具
——82.00—79.60不开源
OpenAI
GPT-5.3 Codex
开启思考工具
——77.30——不开源
4
OpenAI
GPT-5.4
思考水平 · 极高工具
——75.10—75.00不开源
5
Anthropic
Opus 4.7
扩展思考工具
——69.40—78.00不开源
6
Google Deep Mind
Gemini 3.1 Pro Preview
思考水平 · 高工具
—90.8068.50——不开源
7
DeepSeek-AI
DeepSeek-V4-Pro
思考水平 · 极高工具
——67.90——免费商用
8
Moonshot AI
Kimi K2.6
开启思考工具
——66.7050.0073.10免费商用
9
阿里巴巴
Qwen3.6-Max-Preview
深度思考模式工具
——65.40——不开源
10
Anthropic
Claude Opus 4.6
扩展思考工具
—91.8965.40—72.70不开源
11
智谱AI
GLM 5.1
开启思考工具
——63.5040.70—免费商用
12
DeepSeek-AI
DeepSeek-V4-Pro
思考水平 · 高工具
——63.30——免费商用
13
Cursor
Composer 2
开启思考
——61.70——不开源
14
阿里巴巴
Qwen 3.6 Plus Preview
开启思考工具
——61.6039.80—不开源
15
智谱AI
GLM-5
开启思考工具
—89.7061.10——免费商用
16
OpenAI
GPT-5.4 mini
思考水平 · 极高工具
——60.0042.9072.10不开源
17
阿里巴巴
Qwen3.6-27B
开启思考工具
——59.30——免费商用
18
Anthropic
Opus 4.5
扩展思考工具
—81.9959.30——不开源
19
Anthropic
Claude Sonnet 4.6
开启思考工具
——59.10—72.50不开源
20
DeepSeek-AI
DeepSeek-V4-Pro
常规模式工具
——59.10——免费商用
21
Facebook AI研究实验室
Muse Spark
开启思考工具
——59.00——不开源
22
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)
思考水平 · 高工具
——56.90——不开源
23
DeepSeek-AI
DeepSeek-V4-Flash
思考水平 · 极高工具
——56.90——免费商用
24
DeepSeek-AI
DeepSeek-V4-Flash
思考水平 · 高工具
——56.60——免费商用
25
Google Deep Mind
Gemini 3.0 Pro (Preview 11-2025)
开启思考工具
—85.4054.20——不开源
26
阿里巴巴
Qwen3.5-397B-A17B
开启思考工具
—86.7052.5038.3062.20免费商用
27
MiniMaxAI
MiniMax M2.5
开启思考工具
——51.70——免费商用
28
阿里巴巴
Qwen3.6-35B-A3B
开启思考
——51.5026.90—免费商用
29
StepFunAI
Step 3.5 Flash
开启思考工具
—88.2051.00——免费商用
30
Moonshot AI
Kimi K2.5
开启思考工具
——50.80——免费商用
GPT-5.5
思考水平 · 高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.082.70
Tool Decathlon—
OSWorld-Verified78.70
不开源
Claude Mythos Preview
扩展思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.082.00
Tool Decathlon—
OSWorld-Verified79.60
不开源
GPT-5.3 Codex
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.077.30
Tool Decathlon—
OSWorld-Verified—
不开源
4
GPT-5.4
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.075.10
Tool Decathlon—
OSWorld-Verified75.00
不开源
5
Opus 4.7
扩展思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.069.40
Tool Decathlon—
OSWorld-Verified78.00
不开源
6
Gemini 3.1 Pro Preview
思考水平 · 高工具
Aider-Polyglot—
τ²-Bench90.80
Terminal Bench 2.068.50
Tool Decathlon—
OSWorld-Verified—
不开源
7
DeepSeek-V4-Pro
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.067.90
Tool Decathlon—
OSWorld-Verified—
免费商用
8
Kimi K2.6
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.066.70
Tool Decathlon50.00
OSWorld-Verified73.10
免费商用
9
Qwen3.6-Max-Preview
深度思考模式工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.065.40
Tool Decathlon—
OSWorld-Verified—
不开源
10
Claude Opus 4.6
扩展思考工具
Aider-Polyglot—
τ²-Bench91.89
Terminal Bench 2.065.40
Tool Decathlon—
OSWorld-Verified72.70
不开源
11
GLM 5.1
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.063.50
Tool Decathlon40.70
OSWorld-Verified—
免费商用
12
DeepSeek-V4-Pro
思考水平 · 高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.063.30
Tool Decathlon—
OSWorld-Verified—
免费商用
13
Composer 2
开启思考
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.061.70
Tool Decathlon—
OSWorld-Verified—
不开源
14
Qwen 3.6 Plus Preview
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.061.60
Tool Decathlon39.80
OSWorld-Verified—
不开源
15
GLM-5
开启思考工具
Aider-Polyglot—
τ²-Bench89.70
Terminal Bench 2.061.10
Tool Decathlon—
OSWorld-Verified—
免费商用
16
GPT-5.4 mini
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.060.00
Tool Decathlon42.90
OSWorld-Verified72.10
不开源
17
Qwen3.6-27B
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.059.30
Tool Decathlon—
OSWorld-Verified—
免费商用
18
Opus 4.5
扩展思考工具
Aider-Polyglot—
τ²-Bench81.99
Terminal Bench 2.059.30
Tool Decathlon—
OSWorld-Verified—
不开源
19
Claude Sonnet 4.6
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.059.10
Tool Decathlon—
OSWorld-Verified72.50
不开源
20
DeepSeek-V4-Pro
常规模式工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.059.10
Tool Decathlon—
OSWorld-Verified—
免费商用
21
Muse Spark
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.059.00
Tool Decathlon—
OSWorld-Verified—
不开源
22
Gemini 3.0 Pro (Preview 11-2025)
思考水平 · 高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.056.90
Tool Decathlon—
OSWorld-Verified—
不开源
23
DeepSeek-V4-Flash
思考水平 · 极高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.056.90
Tool Decathlon—
OSWorld-Verified—
免费商用
24
DeepSeek-V4-Flash
思考水平 · 高工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.056.60
Tool Decathlon—
OSWorld-Verified—
免费商用
25
Gemini 3.0 Pro (Preview 11-2025)
开启思考工具
Aider-Polyglot—
τ²-Bench85.40
Terminal Bench 2.054.20
Tool Decathlon—
OSWorld-Verified—
不开源
26
Qwen3.5-397B-A17B
开启思考工具
Aider-Polyglot—
τ²-Bench86.70
Terminal Bench 2.052.50
Tool Decathlon38.30
OSWorld-Verified62.20
免费商用
27
MiniMax M2.5
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.051.70
Tool Decathlon—
OSWorld-Verified—
免费商用
28
Qwen3.6-35B-A3B
开启思考
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.051.50
Tool Decathlon26.90
OSWorld-Verified—
免费商用
29
Step 3.5 Flash
开启思考工具
Aider-Polyglot—
τ²-Bench88.20
Terminal Bench 2.051.00
Tool Decathlon—
OSWorld-Verified—
免费商用
30
Kimi K2.5
开启思考工具
Aider-Polyglot—
τ²-Bench—
Terminal Bench 2.050.80
Tool Decathlon—
OSWorld-Verified—
免费商用
排序:
查看全部 93 个模型的 Terminal Bench 2.0 完整排名