大模型 Agent 能力评测排行榜

本页面提供大模型 Agent 能力评测排行榜，涵盖 Aider-Polyglot、τ²-Bench、Terminal Bench 2.0、Tool Decathlon、OSWorld-Verified 等主流 Agent 评测基准，深度对比 GPT、Claude、Qwen、DeepSeek 等模型的工具使用、任务规划与自主执行能力。

数据更新于 2026-04-28 13:02:03

截至 2026年4月，本页覆盖 Aider-Polyglot, τ²-Bench, Terminal Bench 2.0, Tool Decathlon 等评测基准，聚焦 大模型 Agent 能力评测排行榜 方向的模型对比。

点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见数据方法论。

基准评测

Agent能力评测Aider-Polyglot τ²-Bench

AI Agent - 工具使用Terminal Bench 2.0 Tool Decathlon OSWorld-Verified

更多评测

参数规模:全部 3B及以下 7B 13B 34B 65B 100B及以上

模型类型:全部推理大模型基座大模型指令优化/聊天优化大模型编程大模型

开源：全部开源闭源

来源：全部国产模型

模型发布时间截止:

榜单亮点

按 Aider-Polyglot 排序

当前 SOTA

Qwen3-32B

阿里巴巴

40.00Aider-Polyglot

查看详情

最佳开源

Qwen3.5-397B-A17B

阿里巴巴

—Aider-Polyglot

查看详情

最佳国产

GLM-4.7-Flash

智谱AI

—Aider-Polyglot

查看详情

大模型性能评测结果

数据来源：DataLearnerAI

点击任意行查看模型详情；勾选左侧可对比最多 4 个模型。

排名	模型						开源情况
	Qwen3-32B 阿里巴巴	40.00	—	—	—	—	免费商用	详情
	Qwen3.5-397B-A17B 阿里巴巴	—	86.70	52.50	38.30	62.20	免费商用	详情
	GLM-4.7-Flash 智谱AI	—	79.50	—	—	—	免费商用	详情
4	Qwen3.5-27B 阿里巴巴	—	79.00	41.60	—	56.20	免费商用	详情
5	Qwen3-30B-A3B-2507 阿里巴巴	—	49.00	—	—	—	免费商用	详情
6	GPT OSS 20B OpenAI	—	47.70	—	—	—	免费商用	详情
7	Qwen3.6-27B 阿里巴巴	—	—	59.30	—	—	免费商用	详情
8	Qwen3.6-35B-A3B 阿里巴巴	—	—	51.50	26.90	—	免费商用	详情