Terminal-Bench
Terminal-Bench是一个新兴的开源基准测试,专为评估人工智能Agent(AI Agent)在命令行终端环境中的实际操作能力而设计。它通过一系列模拟真实世界场景的复杂任务,旨在客观、可量化地衡量AI Agent在执行代码编译、服务器管理和数据处理等任务时的熟练程度与自主性。
更新于 2026年3月18日·1,539 次浏览
- 问题数量
- 100
- 发布机构
- 个人
- 评测类别
- AI Agent - 工具使用
- 评测指标
- Accuracy
- 支持语言
- 英文
- 难度等级
- 高难度
简介
用于评测大模型在命令行环境下执行工具的Agentic能力的评测基准
Terminal-Bench评测最新大模型排名与完整榜单数据
查看 Terminal-Bench 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模型模式说明
Terminal-Bench 排名
| 排名 | 模型 | 开源情况 | |||
|---|---|---|---|---|---|
![]() GPT-5.1-Codex-Max 思考水平 · 高工具 | 58.10 | 2025-11-19 | 未知 | 闭源 | |
![]() GPT-5.1 Codex 思考水平 · 高工具 | 56.30 | 2025-11-14 | 未知 | 闭源 | |
![]() Claude Sonnet 4.5 开启思考工具 | 50.00 | 2025-09-30 | 未知 | 闭源 | |
4 | ![]() Kimi K2 Thinking 开启思考工具 | 47.10 | 2025-11-06 | 10400亿 | 免费商用 |
5 | ![]() Claude Opus 4.1 开启思考 | 46.50 | 2025-08-06 | 未知 | 闭源 |
6 | ![]() Kimi K2 0905 常规模式 | 44.50 | 2025-09-05 | 10000亿 | 免费商用 |
7 | ![]() Kimi K2 0905 开启思考工具 | 44.50 | 2025-09-05 | 10000亿 | 免费商用 |
8 | ![]() GPT-5 开启思考工具 | 43.80 | 2025-08-07 | 未知 | 闭源 |
9 | ![]() Claude Opus 4.1 开启思考工具 | 43.30 | 2025-08-06 | 未知 | 闭源 |
10 | ![]() Claude Sonnet 4 深度思考模式工具 | 41.30 | 2025-05-23 | 未知 | 闭源 |
11 | ![]() Haiku 4.5 思考水平 · 中工具 | 41.00 | 2025-10-15 | 未知 | 闭源 |
12 | ![]() GLM-4.6 开启思考工具 | 40.50 | 2025-09-30 | 3550亿 | 免费商用 |
13 | Grok 4 开启思考工具 | 38.00 | 2025-07-10 | 未知 | 闭源 |
14 | ![]() DeepSeek V3.2-Exp 开启思考工具 | 37.70 | 2025-09-29 | 6710亿 | 免费商用 |
15 | ![]() Kimi K2 常规模式 | 37.50 | 2025-07-11 | 10000亿 | 免费商用 |
16 | 37.50 | 2025-07-23 | 4800亿 | 免费商用 | |
17 | ![]() GLM-4.5 开启思考 | 37.50 | 2025-07-28 | 3550亿 | 免费商用 |
18 | ![]() Claude Sonnet 4 开启思考工具 | 35.50 | 2025-05-23 | 未知 | 闭源 |
19 | 31.30 | 2025-07-31 | 305亿 | 免费商用 | |
20 | ![]() DeepSeek-V3.1 常规模式工具 | 31.30 | 2025-08-20 | 6710亿 | 免费商用 |
21 | ![]() OpenAI o3 开启思考 | 30.20 | 2025-04-16 | 未知 | 闭源 |
22 | ![]() GLM-4.5-Air 开启思考 | 30.00 | 2025-07-28 | 1060亿 | 免费商用 |
23 | ![]() DeepSeek-V3.1 Terminus 常规模式工具 | 30.00 | 2025-09-22 | 6710亿 | 免费商用 |
24 | ![]() DeepSeek-V3.1 Terminus 开启思考工具 | 28.00 | 2025-09-22 | 6710亿 | 免费商用 |
25 | ![]() Claude Sonnet 4.5 常规模式工具 | 27.00 | 2025-09-30 | 未知 | 闭源 |
26 | ![]() Claude Sonnet 4 常规模式工具 | 26.00 | 2025-05-23 | 未知 | 闭源 |
27 | ![]() Haiku 4.5 常规模式工具 | 26.00 | 2025-10-15 | 未知 | 闭源 |
28 | ![]() Gemini 2.5-Pro 开启思考 | 25.30 | 2025-06-05 | 未知 | 闭源 |
29 | ![]() MiniMax M2 开启思考工具 | 24.00 | 2025-10-27 | 2300亿 | 免费商用 |
30 | ![]() DeepSeek V3.2-Exp 常规模式工具 | 23.00 | 2025-09-29 | 6710亿 | 免费商用 |
继续滚动可加载剩余 5 条







