Terminal-Bench

Name: Terminal-Bench
Creator: 个人

Terminal-Bench是一个新兴的开源基准测试，专为评估人工智能Agent（AI Agent）在命令行终端环境中的实际操作能力而设计。它通过一系列模拟真实世界场景的复杂任务，旨在客观、可量化地衡量AI Agent在执行代码编译、服务器管理和数据处理等任务时的熟练程度与自主性。

更新于 2026年4月19日·1,802 次浏览

问题数量: 100
发布机构: 个人
评测类别: AI Agent - 工具使用
评测指标: Accuracy
支持语言: 英文
难度等级: 高难度

简介

用于评测大模型在命令行环境下执行工具的Agentic能力的评测基准

Terminal-Bench评测最新大模型排名与完整榜单数据

查看 Terminal-Bench 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	GPT-5.1-Codex-Max 思考水平 · 高工具	58.10	2025-11-19	未知	闭源
	GPT-5.1 Codex 思考水平 · 高工具	56.30	2025-11-14	未知	闭源
	Claude Sonnet 4.5 开启思考工具	50.00	2025-09-30	未知	闭源
4	Kimi K2 Thinking 开启思考工具	47.10	2025-11-06	10400亿	免费商用
5	Opus 4.1 扩展思考	46.50	2025-08-06	未知	闭源
6	Kimi K2 0905 常规模式	44.50	2025-09-05	10000亿	免费商用
7	Kimi K2 0905 开启思考工具	44.50	2025-09-05	10000亿	免费商用
8	GPT-5 开启思考工具	43.80	2025-08-07	未知	闭源
9	Opus 4.1 扩展思考工具	43.30	2025-08-06	未知	闭源
10	Claude Sonnet 4 深度思考模式工具	41.30	2025-05-23	未知	闭源
11	Haiku 4.5 开启思考工具	41.00	2025-10-15	未知	闭源
12	GLM-4.6 开启思考工具	40.50	2025-09-30	3550亿	免费商用
13	Grok 4 开启思考工具	38.00	2025-07-10	未知	闭源
14	DeepSeek V3.2-Exp 开启思考工具	37.70	2025-09-29	6710亿	免费商用
15	Kimi K2 常规模式	37.50	2025-07-11	10000亿	免费商用
16	Qwen3-Coder-480B-A35B 常规模式	37.50	2025-07-23	4800亿	免费商用
17	GLM-4.5 开启思考	37.50	2025-07-28	3550亿	免费商用
18	Claude Sonnet 4 开启思考工具	35.50	2025-05-23	未知	闭源
19	Qwen3-Coder-Flash 常规模式	31.30	2025-07-31	305亿	免费商用
20	DeepSeek-V3.1 常规模式工具	31.30	2025-08-20	6710亿	免费商用
21	OpenAI o3 开启思考	30.20	2025-04-16	未知	闭源
22	GLM-4.5-Air 开启思考	30.00	2025-07-28	1060亿	免费商用
23	DeepSeek-V3.1 Terminus 常规模式工具	30.00	2025-09-22	6710亿	免费商用
24	DeepSeek-V3.1 Terminus 开启思考工具	28.00	2025-09-22	6710亿	免费商用
25	Claude Sonnet 4.5 常规模式工具	27.00	2025-09-30	未知	闭源
26	Claude Sonnet 4 常规模式工具	26.00	2025-05-23	未知	闭源
27	Haiku 4.5 常规模式工具	26.00	2025-10-15	未知	闭源
28	Gemini 2.5-Pro 开启思考	25.30	2025-06-05	未知	闭源
29	MiniMax M2 开启思考工具	24.00	2025-10-27	2300亿	免费商用
30	DeepSeek V3.2-Exp 常规模式工具	23.00	2025-09-29	6710亿	免费商用

继续滚动可加载剩余 5 条

Terminal-Bench评测最新大模型排名与完整榜单数据

Terminal-Bench 排名